分かりやす いパターン認識 このうえなく くな 発表日:7月4日 担当:脇坂恭志郎 第8章 学習アルゴリズムとベイズ決定則 9.2 最小二乗法と各種学習法 [1] 最小二乗法とWidrow-Hoffの学習規則 [2] 最小二乗法と誤差逆伝播法 パーセプトロンの学習規則 線形識別関数によるパターン識別では、クラス i の識別関数 giを i0 1 ただし、 x , w i i x gi ( x ) w x t i とし、クラス i のパターン x に対して gi ( x ) g j ( x ) j i となるように、パラメータ wi (i 1,, c) を決定する。 しかし、各クラスの分布が線形分離不可能な場合には完全に上式 を実現する事ができず、パーセプトロン学習規則は収束しない。 Widrow-hoffの学習規則① ・入力される各学習パターンに対し望ましい出力値(教師信号) を予め定め、実際に得られる識別関数の値とその教師信号の 値との二乗誤差を最小化する学習法。 1 c J ( w1 , w2 ,, wc ) Xw i bi 2 i 1 2 …(9・42) 上式の最小化として、Widrow-Hoffの学習規則が導出される。 ただし、 X (x 1 ,x 2 , ,x n ) t bi (bi 1 , bi 2 , , bin ) t nはパターン総数である。 ( i 1,2,, c ) Widrow-hoffの学習規則② ここで、 ( x) ( w1tx , w2tx ,, wctx )t とし、さらに t i (0,,0,1,0,,0) というc次元座標単位ベクトル をおくと、式の(9・42)は若干の式変形により、次のように書き換え ることができる。 t 2 1 n c J ( ) ( x p ) t i 1( x p i ) 2 p 1 i 1 …(9・45) 1 if x i 0 othrwise Widrow-hoffの学習規則③ 一方、経験損失 Le ( ) において、損失 l i ( x p ; ) として、 l i ( x p ; ) ( x p ) t i 2 1 n c Le ( ) li ( x p ; )1( x p i ) n p 1 i 1 とすると、式(9・45)は識別機の設計に無関係な定数倍を除き、 経験損失の式と一致する。 すなわち、二乗誤差を損失関数とした期待損失を、学習パターンに 基づく経験損失で近似したものとなっている。 以上から、この学習規則が最小二乗法に基づく線形判別写像を 実現するための規則である事が分かる。 最小二乗法と誤差逆伝播法 cクラスのパターン識別問題に対して多層ニューラルネットワークを 用いた場合の入力ベクトル x に対する出力は、 y f ( x, v ) という非線形ベクトル値関数となる。 ( v は全ての重みからなるパラメータベクトル、 y はc次元ベクトル) ・誤差逆伝播法に基づくニューラルネットワークの学習では、c次元 座標単位ベクトル t i と f ( x, v )の二乗誤差を最小化するように重み を修正する。 決定規則を ( x ) f ( x, v ) とした場合の最小二乗法の学習 ・ニューラルネットワークはベイズ識別関数を最良近似しうる。 二つの手法 ・ニューラルネットワークの分散を低減し安定化を図る 実用的手法として、最近以下の二つが提案されている。 ・weight decay パラメータの導入 ・アンサンブル学習 weight decay パラメータ ニューラルネットワークで推定される関数を滑らかにする事により分散 を抑えようとする、正則化手法の一種。安定化の度合いを制御する。 c J ( ) f ( x, v ) t i v 2 2 i 1 x i 上式の右辺第2項が正則化項で、 がweight decay パラメータ。 2 この項は出来るだけ重みのノルム v が小さくなるように学習させる 役割を果たす。 の値が大きいほどニューラルネットワークモデルの自由度 が減少し、その結果、より滑らかな識別境界を生成する。 アンサンブル学習 同一タスクに対し、M個のニューラルネットワーク f1 ( x, v ),, f M ( x, v ) を、学習パターンを用いて独立に学習。そして、ある入力に対する出力 として、ニューラルネットワーク出力の(重みつき)平均値を用いる方法。 M f ens ( x , v ) m f m ( x , v ) m 1 x に対する出力 f ens を、線形重み m (m 1,, M ) を用いて表す。
© Copyright 2024 ExpyDoc