わかりやすいパターン認識 第9章 学習アルゴリズムとベイズ決定則 9.1 最小二乗法による学習 [1] 最小二乗解 平成15年6月27日(金) 大城 亜里沙 最小二乗解 最小二乗法による学習と判別法との関係、さらにベイズ 決定則との関係を明らかにする。 最小二乗法による学習とは、8・2節[1]で示したように L ( ) E{ ( x ) ti 2 } c P( ) ( x) t i 1 i 2 i p ( x | i ) d x ―(9.1) L ( ) を最小化する決定規則を求める学習法 識別関数(多クラスの場合) 多クラスの場合 A [w1 , w2 ,・・・, wd~ ] により規定される線形写像は ( x) Ax (1, 2 ,・・・, d~ ) t t ~ ( i wx i i 1, 2, ・・・, d ) t i となる。 この場合の最適解は2クラスの場合と同じように導出できる。 識別関数(2クラスの場合) 簡単のため2クラスの線形モデルについて考える。 識別関数 g (x ) を g (x ) g1 (x ) g 2 (x ) w tx と定義すればよい。これは、式(8・9)において ( x) w tx としたことに相当するので、識別規則は ( x ) 0 x 1 ( x ) 0 x 2 ここでは、 として線形モデル、非線形モデルのおのおのについてその 解析解を導出する。 線形モデル(1) これらより、式(9.1)は L( ) L( w) P (1 ) E {(w tx b1 ) 2 | 1} x|1 P ( 2 ) E {(w tx b2 ) 2 | 2 } x| 2 と書ける。 {(w tx b1 ) 2 | 1} は x 1 を ここで、 xE | 知った下での (w tx b1 )2 の x に関する期待値を表す。 1 線形モデル(2) さらに計算を進めていくと 2 L(w ) P(1 ) E {w t xxt w 2w t xb1 b1 | 1} x|1 P( 2 ) E {w t xxt w 2w t xb2 b2 | 2 } 2 x| 2 w t Rw 2w t r const となる。ただし、R は自己相関行列であり、 R E{xxt } x 1 x t 1 E t x x xx m が成り立つ。 t T m m R 自己相関行列 と Σ 共分散行列 との関係 1 n ( x m)(x m) R m mt mt -(9.9) t 線形モデル(3) またrは、 r P(1 )b1 E {x | 1} P( 2 )b2 E {x | 2 } x|1 x| 2 1 1 P(1 )b1 E | 1 P( 2 )b2 E | 2 x|1 x| 2 x x P(1 )b1 P( 2 )b2 -(9.10) P ( ) b m P ( ) b m 1 1 1 2 2 2 である。 const はwに依存しない項を表すものとすると、wによる偏微 分をゼロと置くことにより、 L( w ) 2 Rw 2r 0 w Rw r -(9.12) 線形モデル(4) 式(9.9) 、(9.10)を式(9.12)に代入すると mt w w0 P(1 )b1 P( 2 )b2 t w m(m w w ) P(1 )b1m1 P( 2 )b2 m2 T 0 を得る。上式と m P(1 )m1 P(2 )m2 T の関係を用いると w ( P(1 )b1 P( 2 )b2 )m P(1 )b1m1 P( 2 )b2 m2 k1m1 k 2 m2 が導かれる。 -(9.14) 線形モデル(5) ただし k1 P(1 ) 2 b1 P(1 ) P( 2 )b2 P(1 )b1 k2 P( 2 ) 2 b2 P(1 ) P( 2 )b1 P( 2 )b2 とする。ここで P(1 ) P( 2 ) 1 を用いることにより k1 P(1 ) P( 2 )(b1 b2 ) k2 P(1 ) P( 2 )(b1 b2 ) を得る。これらを式(9.14)に代入し w について解くことにより w P(1 ) P( 2 )(b1 b2 ) T1 (m1 m2 ) w0 P(1 ) P( 2 )(b1 b2 )mt T1 (m1 m2 ) P(1 )b1 P( 2 )b2 線形モデル(6) 以上から解析解は ( x) wt x w0 として得られる。ここで w T1 (m1 m2 ) w の向きは b1 ,b2 のとり方によらない。 w0 は b1 ,b2 に依存する点に注意!! 教師ベクトルのとり方によって決定境界の位置が変化する。 各クラスの教師信号として b1 1, b2 1 とすると、上記結果から w 2 P(1 ) P( 2 ) T1 (m1 m2 ) w0 2 P(1 ) P( 2 )m t T1 (m1 m2 ) P(1 ) P( 2 ) 非線形モデル(1) を非線形モデルにまで拡大すると、式(9.1)を最小化する 最適解 を変分法を用いて導出できる。 すなわち、式(9.1)の最小化は、 を変換数とする汎関数 L ( ) の極値問題となる。 def F ( x, ( x)) 2 c P( ) ( x) t i 1 i i p( x | i ) と置くと L( ) F ( x, ( x)) dx -(9.24) 汎関数 ある領域内の x に対しある数y が対応するとき、 yは 変数 x の関数と呼ばれる。 これに対し、ある関数族の中の一つの関数 u (x) にある数 v が対応するとき、 u (x) は変関数と呼ばれ、 v は変関数 u (x) に依存する汎関数と呼ばれ、v v[u ( x)] と書かれる。 非線形モデル(2) 式(9.24)の停留解はオイラー方程式 F ( x, ( x)) 0 を満足しなければならない。具体的に計算すると c 2 P( i )( ( x) ti ) p( x | i ) 0 i 1 * を得る。これを、 について解くと最適解 ( x) c P(1 ) p( x | i ) ( x) ti P(i | x)ti p ( x) i 1 i 1 c * ベイズの定理より 最小二乗法による学習の下での非線形モデルの最適解は、教師ベクトル のベイズ事後確率 ti P(i | x)を重み係数とする線形結合で表されることが わかる。
© Copyright 2025 ExpyDoc