わかりやすいパターン認識

わかりやすいパターン認識
発表日:平成15年4月25日
担当者:時田 陽一
担当箇所:第3章 誤差評価に基づく学習
3.1 Widrow-Hoffの学習規則
[1] 学習のための評価関数
パーセプトロンの学習規則の欠点
線形分離可能であることが必要
(誤識別を0にする線形識別関数が
存在することを前提としなくてはならない)
一般に、線形分離可能か不可能かを
事前に確認することは困難
線形分離不可能な学習パターンでは、
誤り訂正の手続きを無限に繰り返し解に到達することができない。
途中で打ち切ってもそのときの重みが最適であるとは限らない。
[1] 学習のための評価関数
学習パターン:
C:クラス数
  x1 , x2 ,, x p ,, xn 
C個の識別関数の出力:g1x , g 2x ,, g c x  t
p
p
p
t
教師ベクトル(教師信号): b1 p , b2 p ,, bcp 
クラスωiに属する全ての全てのパターンに対して同一の教師ベクトルを
割り当てるとすると教師ベクトルti はc個用意すればよい
t
例. ti  0,,0,1,0,,0 ・・・・・(3.2)
x
・・・・・・・
・・・・・・・・・
ω1
教師ベクトル
t1
ωi
ti
ωc
tc
[1] 学習のための評価関数
入力xpに対する誤差:  ip  gi ( x p )  bip
誤差の二乗和を評価関数Jpとする(重みベクトルwiの関数)
1 c 2
J p ( w1 , w2 , wc )    ip
2 i 1




1 c
  g i ( x p )  bip
2 i 1
1 c t
  wi x p  bip
2 i 1
2
2
xpに対する拡張特徴ベクトル
[1] 学習のための評価関数
全パターンに対する二乗誤差J
n
J ( w1 , w2 ,, wc )   J p ( w1 , w2 ,, wc )
p 1
1 n c
  g i ( x p )  bip
2 p 1 i 1




1 n c t
  wi x p  bip
2 p 1 i 1
最適な重みベクトルwはこれが最小となるもの
2
2
・・・(3.9)
[1] 学習のための評価関数
b1p
g
1(x)
g
ε1p
1
・
・
・
・
識別関数i
bip
g
i
 x0 
 
  
入力 x p   x j 
 
  
x 
 d
u
Wi0
Σ
Wij
g
i(x)
εip
u
Wid
・
・
・
・
・
・
bcp
g
c
g
c(x)
εcp
u
Σ
[1] 学習のための評価関数
C=2(2クラス)の場合重みベクトルは一つでよい
1
2
J p  g ( x p )  b p 
2
2
1 t
 w x p  bp
2

bpの設定例
 1 ( x p  1 )
bp  
 1 ( x p   2 )

[2]閉じた形の解
J(w)に対しての勾配ベクトル(gradient vector)
J  J J
J

J 

,
,,
w  w0 w1
wd
2乗誤差 J (w1 , w2 ,, wc ) の最小解を求める方法
J
  i J  0 (i  1,2,, c)
wi
n
J p
p 1
wi

n


  wit x p  bip x p  0
p 1
これを解けばよい
勾配=0



t
勾配≠0
[2]閉じた形の解
パターン行列(n×(d+1)型行列) X:
def
X
t


x
,
x
,

,
x
n
 1 2
クラスiの教師信号(i=1,2,・・・,c):
def
bi  bi1 , bi 2 ,, bin 
t
このように定義すると
1 c
2
J ( w1 , w2 ,, wc )   Xwi  bi
2 i 1
J
 X t  Xwi  bi   0 ・・・・・・・・・・・・・(3.20)
wi
[2]閉じた形の解
式(3.20)より
X t Xwi  X t bi
(i=1,2,・・・,c)
X t X が正則であるとすると

wi  X X
t

1
X t bi
・式(3.2)(教師ベクトルの例)は異なるクラスには互いに
区別のしやすい教師ベクトルを対応させることを示している
・全パターンに対する2乗誤差(式(3.9))を最小化することは、
同じクラスのパターンを同じ教師ベクトルの近傍に集中させることを示している
線形判別法の特殊な場合と解釈できる
[3]逐次近似による解
閉じた形の解では
 X t X が正則でない場合には適用できない
dが大きいと計算量が膨大 (d 3に比例する)
あまり実用的ではない
逐次近似により重みを決定する方法(最急降下法)
[3]逐次近似による解
重みベクトル wi'  wi   J
逐次更新
される
wi
 wi   i J
ρ:刻み幅(正定数)
最終的にJの最小解に到達
以降はパターンが示されるたびに修正を行うことにする
J p
'
wi  wi  
(i=1,2,・・・,c)
wi
[3]逐次近似による解
J p
J p gip


wi gip wi
(gi(xp)をgipと略記する)
・右辺第1項
J p
gip
 gip  bip   ip
・右辺第2項
gip
wi
J p
wi
 gip  bip x p   ip x p

wi x p
wi
 xp
[3]逐次近似による解
wi'  wi  ip x p
 wi   g ip  bip x p
 wi   wit x p  bip x p
(i  1,2,, c)
重みベクトルはこのように逐次更新されていく
Widrow-Hoff の学習規則(Widrow-Hoff learning rule)
デルタルール(delta rule)、直交化学習、最小二乗学習などとも呼ばれる