わかりやすいパターン認識

わかりやすいパターン認識
第9章 学習アルゴリズムとベイズ決定則
9.1 最小二乗法による学習
[1] 最小二乗解
平成15年6月27日(金)
大城 亜里沙
最小二乗解

最小二乗法による学習と判別法との関係、さらにベイズ
決定則との関係を明らかにする。
最小二乗法による学習とは、8・2節[1]で示したように
L ( )  E{  ( x )  ti

2
}
c
 P( )   ( x)  t
i 1
i
2
i
p ( x |  i ) d x ―(9.1)
L ( ) を最小化する決定規則を求める学習法
識別関数(多クラスの場合)

多クラスの場合
A  [w1 , w2 ,・・・, wd~ ] により規定される線形写像は
 ( x)  Ax  (1, 2 ,・・・, d~ )
t
t
~
( i  wx i i  1, 2, ・・・, d )
t
i
となる。
この場合の最適解は2クラスの場合と同じように導出できる。
識別関数(2クラスの場合)
簡単のため2クラスの線形モデルについて考える。
識別関数 g (x ) を
g (x )  g1 (x )  g 2 (x )  w tx

と定義すればよい。これは、式(8・9)において
 ( x)  w tx
としたことに相当するので、識別規則は
 ( x )  0  x  1 
 ( x )  0  x   2
ここでは、  として線形モデル、非線形モデルのおのおのについてその
解析解を導出する。
線形モデル(1)
これらより、式(9.1)は
L( )  L( w)
 P (1 ) E {(w tx  b1 ) 2 | 1}
x|1
 P ( 2 ) E {(w tx  b2 ) 2 |  2 }
x| 2
と書ける。
{(w tx  b1 ) 2 | 1} は x 1 を
ここで、 xE
|
知った下での (w tx  b1 )2 の x に関する期待値を表す。
1
線形モデル(2)
さらに計算を進めていくと
2
L(w )  P(1 ) E {w t xxt w  2w t xb1  b1 | 1}
x|1
 P( 2 ) E {w t xxt w  2w t xb2  b2 |  2 }
2
x| 2
 w t Rw  2w t r  const
となる。ただし、R は自己相関行列であり、
R  E{xxt }
x
 1 x t   1
  
 E 
t
x
 x xx   m
が成り立つ。


t
 T m m 
R 自己相関行列 と
Σ 共分散行列 との関係
1
  n  ( x  m)(x  m)
 R  m mt
mt
-(9.9)
t
線形モデル(3)
またrは、
r  P(1 )b1 E {x | 1}  P( 2 )b2 E {x |  2 }
x|1
x| 2
1  
1 

 P(1 )b1 E   | 1   P( 2 )b2 E   |  2 
x|1
x| 2
 x  
 x 

 P(1 )b1  P( 2 )b2 

 
-(9.10)
P
(

)
b
m

P
(

)
b
m
1 1 1
2 2 2

である。 const はwに依存しない項を表すものとすると、wによる偏微
分をゼロと置くことにより、
L( w )
 2 Rw  2r  0
w
Rw  r
-(9.12)
線形モデル(4)
式(9.9) 、(9.10)を式(9.12)に代入すると
 mt w  w0
  P(1 )b1  P( 2 )b2 




t
  w  m(m w  w )   P(1 )b1m1  P( 2 )b2 m2 
T
0 

を得る。上式と m   P(1 )m1  P(2 )m2

T
の関係を用いると
w  ( P(1 )b1  P( 2 )b2 )m  P(1 )b1m1  P( 2 )b2 m2
 k1m1  k 2 m2
が導かれる。
-(9.14)
線形モデル(5)
ただし
k1   P(1 ) 2 b1  P(1 ) P( 2 )b2  P(1 )b1
k2   P( 2 ) 2 b2  P(1 ) P( 2 )b1  P( 2 )b2
とする。ここで P(1 )  P( 2 )  1 を用いることにより
k1  P(1 ) P( 2 )(b1  b2 )
k2   P(1 ) P( 2 )(b1  b2 )
を得る。これらを式(9.14)に代入し w について解くことにより
w  P(1 ) P( 2 )(b1  b2 ) T1 (m1  m2 )
w0   P(1 ) P( 2 )(b1  b2 )mt  T1 (m1  m2 )  P(1 )b1  P( 2 )b2
線形モデル(6)
以上から解析解は
 ( x)  wt x  w0
として得られる。ここで
w   T1 (m1  m2 )
w の向きは b1 ,b2 のとり方によらない。
w0 は b1 ,b2 に依存する点に注意!!
教師ベクトルのとり方によって決定境界の位置が変化する。
各クラスの教師信号として b1  1, b2  1 とすると、上記結果から
w  2 P(1 ) P( 2 ) T1 (m1  m2 )
w0  2 P(1 ) P( 2 )m t  T1 (m1  m2 )  P(1 )  P( 2 )
非線形モデル(1)
 を非線形モデルにまで拡大すると、式(9.1)を最小化する
最適解  を変分法を用いて導出できる。
すなわち、式(9.1)の最小化は、  を変換数とする汎関数
L ( ) の極値問題となる。
def
F ( x, ( x)) 
2
c
 P( )  ( x)  t
i 1
i
i
p( x |  i )
と置くと
L( ) 
 F ( x, ( x)) dx
-(9.24)
汎関数
ある領域内の x に対しある数y が対応するとき、 yは
変数 x の関数と呼ばれる。
これに対し、ある関数族の中の一つの関数 u (x) にある数
v が対応するとき、 u (x) は変関数と呼ばれ、 v は変関数
u (x) に依存する汎関数と呼ばれ、v  v[u ( x)] と書かれる。
非線形モデル(2)
式(9.24)の停留解はオイラー方程式

F ( x, ( x))  0

を満足しなければならない。具体的に計算すると
c
2 P( i )( ( x)  ti ) p( x |  i )  0
i 1
*
を得る。これを、 について解くと最適解  ( x)
c
P(1 ) p( x |  i )
 ( x)  
ti   P(i | x)ti
p ( x)
i 1
i 1
c
*
ベイズの定理より
最小二乗法による学習の下での非線形モデルの最適解は、教師ベクトル
のベイズ事後確率
ti
P(i | x)を重み係数とする線形結合で表されることが
わかる。