わかりやすいパターン認識 発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則 [1] 学習のための評価関数 パーセプトロンの学習規則の欠点 線形分離可能であることが必要 (誤識別を0にする線形識別関数が 存在することを前提としなくてはならない) 一般に、線形分離可能か不可能かを 事前に確認することは困難 線形分離不可能な学習パターンでは、 誤り訂正の手続きを無限に繰り返し解に到達することができない。 途中で打ち切ってもそのときの重みが最適であるとは限らない。 [1] 学習のための評価関数 学習パターン: C:クラス数 x1 , x2 ,, x p ,, xn C個の識別関数の出力:g1x , g 2x ,, g c x t p p p t 教師ベクトル(教師信号): b1 p , b2 p ,, bcp クラスωiに属する全ての全てのパターンに対して同一の教師ベクトルを 割り当てるとすると教師ベクトルti はc個用意すればよい t 例. ti 0,,0,1,0,,0 ・・・・・(3.2) x ・・・・・・・ ・・・・・・・・・ ω1 教師ベクトル t1 ωi ti ωc tc [1] 学習のための評価関数 入力xpに対する誤差: ip gi ( x p ) bip 誤差の二乗和を評価関数Jpとする(重みベクトルwiの関数) 1 c 2 J p ( w1 , w2 , wc ) ip 2 i 1 1 c g i ( x p ) bip 2 i 1 1 c t wi x p bip 2 i 1 2 2 xpに対する拡張特徴ベクトル [1] 学習のための評価関数 全パターンに対する二乗誤差J n J ( w1 , w2 ,, wc ) J p ( w1 , w2 ,, wc ) p 1 1 n c g i ( x p ) bip 2 p 1 i 1 1 n c t wi x p bip 2 p 1 i 1 最適な重みベクトルwはこれが最小となるもの 2 2 ・・・(3.9) [1] 学習のための評価関数 b1p g 1(x) g ε1p 1 ・ ・ ・ ・ 識別関数i bip g i x0 入力 x p x j x d u Wi0 Σ Wij g i(x) εip u Wid ・ ・ ・ ・ ・ ・ bcp g c g c(x) εcp u Σ [1] 学習のための評価関数 C=2(2クラス)の場合重みベクトルは一つでよい 1 2 J p g ( x p ) b p 2 2 1 t w x p bp 2 bpの設定例 1 ( x p 1 ) bp 1 ( x p 2 ) [2]閉じた形の解 J(w)に対しての勾配ベクトル(gradient vector) J J J J J , ,, w w0 w1 wd 2乗誤差 J (w1 , w2 ,, wc ) の最小解を求める方法 J i J 0 (i 1,2,, c) wi n J p p 1 wi n wit x p bip x p 0 p 1 これを解けばよい 勾配=0 t 勾配≠0 [2]閉じた形の解 パターン行列(n×(d+1)型行列) X: def X t x , x , , x n 1 2 クラスiの教師信号(i=1,2,・・・,c): def bi bi1 , bi 2 ,, bin t このように定義すると 1 c 2 J ( w1 , w2 ,, wc ) Xwi bi 2 i 1 J X t Xwi bi 0 ・・・・・・・・・・・・・(3.20) wi [2]閉じた形の解 式(3.20)より X t Xwi X t bi (i=1,2,・・・,c) X t X が正則であるとすると wi X X t 1 X t bi ・式(3.2)(教師ベクトルの例)は異なるクラスには互いに 区別のしやすい教師ベクトルを対応させることを示している ・全パターンに対する2乗誤差(式(3.9))を最小化することは、 同じクラスのパターンを同じ教師ベクトルの近傍に集中させることを示している 線形判別法の特殊な場合と解釈できる [3]逐次近似による解 閉じた形の解では X t X が正則でない場合には適用できない dが大きいと計算量が膨大 (d 3に比例する) あまり実用的ではない 逐次近似により重みを決定する方法(最急降下法) [3]逐次近似による解 重みベクトル wi' wi J 逐次更新 される wi wi i J ρ:刻み幅(正定数) 最終的にJの最小解に到達 以降はパターンが示されるたびに修正を行うことにする J p ' wi wi (i=1,2,・・・,c) wi [3]逐次近似による解 J p J p gip wi gip wi (gi(xp)をgipと略記する) ・右辺第1項 J p gip gip bip ip ・右辺第2項 gip wi J p wi gip bip x p ip x p wi x p wi xp [3]逐次近似による解 wi' wi ip x p wi g ip bip x p wi wit x p bip x p (i 1,2,, c) 重みベクトルはこのように逐次更新されていく Widrow-Hoff の学習規則(Widrow-Hoff learning rule) デルタルール(delta rule)、直交化学習、最小二乗学習などとも呼ばれる
© Copyright 2024 ExpyDoc