わかりやすいパターン認識
第9章 学習アルゴリズムとベイズ決定則
9.1 最小二乗法による学習
[1] 最小二乗解
平成15年6月27日(金)
大城 亜里沙
最小二乗解
最小二乗法による学習と判別法との関係、さらにベイズ
決定則との関係を明らかにする。
最小二乗法による学習とは、8・2節[1]で示したように
L ( ) E{ ( x ) ti
2
}
c
P( ) ( x) t
i 1
i
2
i
p ( x | i ) d x ―(9.1)
L ( ) を最小化する決定規則を求める学習法
識別関数(多クラスの場合)
多クラスの場合
A [w1 , w2 ,・・・, wd~ ] により規定される線形写像は
( x) Ax (1, 2 ,・・・, d~ )
t
t
~
( i wx i i 1, 2, ・・・, d )
t
i
となる。
この場合の最適解は2クラスの場合と同じように導出できる。
識別関数(2クラスの場合)
簡単のため2クラスの線形モデルについて考える。
識別関数 g (x ) を
g (x ) g1 (x ) g 2 (x ) w tx
と定義すればよい。これは、式(8・9)において
( x) w tx
としたことに相当するので、識別規則は
( x ) 0 x 1
( x ) 0 x 2
ここでは、 として線形モデル、非線形モデルのおのおのについてその
解析解を導出する。
線形モデル(1)
これらより、式(9.1)は
L( ) L( w)
P (1 ) E {(w tx b1 ) 2 | 1}
x|1
P ( 2 ) E {(w tx b2 ) 2 | 2 }
x| 2
と書ける。
{(w tx b1 ) 2 | 1} は x 1 を
ここで、 xE
|
知った下での (w tx b1 )2 の x に関する期待値を表す。
1
線形モデル(2)
さらに計算を進めていくと
2
L(w ) P(1 ) E {w t xxt w 2w t xb1 b1 | 1}
x|1
P( 2 ) E {w t xxt w 2w t xb2 b2 | 2 }
2
x| 2
w t Rw 2w t r const
となる。ただし、R は自己相関行列であり、
R E{xxt }
x
1 x t 1
E
t
x
x xx m
が成り立つ。
t
T m m
R 自己相関行列 と
Σ 共分散行列 との関係
1
n ( x m)(x m)
R m mt
mt
-(9.9)
t
線形モデル(3)
またrは、
r P(1 )b1 E {x | 1} P( 2 )b2 E {x | 2 }
x|1
x| 2
1
1
P(1 )b1 E | 1 P( 2 )b2 E | 2
x|1
x| 2
x
x
P(1 )b1 P( 2 )b2
-(9.10)
P
(
)
b
m
P
(
)
b
m
1 1 1
2 2 2
である。 const はwに依存しない項を表すものとすると、wによる偏微
分をゼロと置くことにより、
L( w )
2 Rw 2r 0
w
Rw r
-(9.12)
線形モデル(4)
式(9.9) 、(9.10)を式(9.12)に代入すると
mt w w0
P(1 )b1 P( 2 )b2
t
w m(m w w ) P(1 )b1m1 P( 2 )b2 m2
T
0
を得る。上式と m P(1 )m1 P(2 )m2
T
の関係を用いると
w ( P(1 )b1 P( 2 )b2 )m P(1 )b1m1 P( 2 )b2 m2
k1m1 k 2 m2
が導かれる。
-(9.14)
線形モデル(5)
ただし
k1 P(1 ) 2 b1 P(1 ) P( 2 )b2 P(1 )b1
k2 P( 2 ) 2 b2 P(1 ) P( 2 )b1 P( 2 )b2
とする。ここで P(1 ) P( 2 ) 1 を用いることにより
k1 P(1 ) P( 2 )(b1 b2 )
k2 P(1 ) P( 2 )(b1 b2 )
を得る。これらを式(9.14)に代入し w について解くことにより
w P(1 ) P( 2 )(b1 b2 ) T1 (m1 m2 )
w0 P(1 ) P( 2 )(b1 b2 )mt T1 (m1 m2 ) P(1 )b1 P( 2 )b2
線形モデル(6)
以上から解析解は
( x) wt x w0
として得られる。ここで
w T1 (m1 m2 )
w の向きは b1 ,b2 のとり方によらない。
w0 は b1 ,b2 に依存する点に注意!!
教師ベクトルのとり方によって決定境界の位置が変化する。
各クラスの教師信号として b1 1, b2 1 とすると、上記結果から
w 2 P(1 ) P( 2 ) T1 (m1 m2 )
w0 2 P(1 ) P( 2 )m t T1 (m1 m2 ) P(1 ) P( 2 )
非線形モデル(1)
を非線形モデルにまで拡大すると、式(9.1)を最小化する
最適解 を変分法を用いて導出できる。
すなわち、式(9.1)の最小化は、 を変換数とする汎関数
L ( ) の極値問題となる。
def
F ( x, ( x))
2
c
P( ) ( x) t
i 1
i
i
p( x | i )
と置くと
L( )
F ( x, ( x)) dx
-(9.24)
汎関数
ある領域内の x に対しある数y が対応するとき、 yは
変数 x の関数と呼ばれる。
これに対し、ある関数族の中の一つの関数 u (x) にある数
v が対応するとき、 u (x) は変関数と呼ばれ、 v は変関数
u (x) に依存する汎関数と呼ばれ、v v[u ( x)] と書かれる。
非線形モデル(2)
式(9.24)の停留解はオイラー方程式
F ( x, ( x)) 0
を満足しなければならない。具体的に計算すると
c
2 P( i )( ( x) ti ) p( x | i ) 0
i 1
*
を得る。これを、 について解くと最適解 ( x)
c
P(1 ) p( x | i )
( x)
ti P(i | x)ti
p ( x)
i 1
i 1
c
*
ベイズの定理より
最小二乗法による学習の下での非線形モデルの最適解は、教師ベクトル
のベイズ事後確率
ti
P(i | x)を重み係数とする線形結合で表されることが
わかる。
© Copyright 2026 ExpyDoc