わかりやすいパターン認識」

「わかりやすいパターン認識」
第6章:特徴空間の変換
6・4:線形判別法
〔2クラスに対する線形判別法〕
線形判別法
• 特徴空間をより次元の小さい部分空間に
変換する方法。
• 2クラスに対する線系判別
→フィッシャーの線形判別法
・最適な1次元軸を求める
クラス内変動・クラス間変動
クラスi の変動を表す行列=変動行列
def
Si 
t
(
x

m
)(
x

m
)

i
i
x i
※
クラス内変動行列SW
def
SW  S1  S 2 
Si
mi クラスのパターン平均
ni クラスのパターン数
  ( x  m )(x  m )
i 1, 2 x
i
i
t
i
全クラスのパターン平均
m
クラス間変動行列 S B
n 全パターン数
def
n1n2
t
S B   ni (mi  m)(mi  m) 
(m1  m2 )(m1  m2 )t
n
i 1, 2
※
1次元空間への変換
d次元空間から1次元空間への変換行列をA(d、1)とし
yAx
t
と書く。
~は
変換後の平均 m
i
1
~
mi 
ni
1
y

ni
y i
t
t
A
x

A
mi

x i
これより変換後のクラス内・間変動行列は以下のようになる
~
~ ~
SW  S1  S 2 
~
SB 
2
t
~
  ( y  m1 ) A SW A
11, 2 y i
n1n2 ~ ~ 2
2
t
~
~
ni (mi  m) 
(m1  m2 )  A S B A

n
i 1, 2
1次元空間での表記
変換後の変動行列
~ def
Si 
~
Si は
~ )2
(
y

m

i
y  i
~ と分散~ 2を用いてクラス
1次元空間におけるクラス平均 m
i
i
内・間変動行列を表すと以下のようになる。
~
SW  n1~12  n2~22
n1n2 ~ ~ 2
~
2
2
~
~
~
~
S B  n1 (m1  m)  n2 (m2  m) 
(m1  m2 )
n
フィッシャーの評価基準
2クラスがよく分離している時の条件
クラス間変動のクラス間変動に対する比が最大
↓
~
~ が大きい
SWが小さく S
B
クラス内変動・クラス間変動比 J s ( A)
~
t
~ m
~ )2
SB
n1n2 (m
A
SB A
1
2
J s ( A)  ~ 

t
~2  n 
~2
n n1
A
SW A
SW
1
2 2
def
J s ( A) →フィッシャーの評価基準
評価基準の最大化問題(1)
J S を最大にする A を求める問題は
~
SW  At SW A  I
という制約条件の下で
~
S B  At S B A
を最大化する問題に帰着する。
評価基準の最大化問題(2)
def
J ( A)  At S B A   ( At SW A  I )
をAで偏微分して0と置くと( はラグランジェ乗数)
S B A  SW A
SWが正則ならば
1
(SW SB  I ) A  0
1
SW S B の最大固有値を 1 とすると。
max{J S ( A)}  1
J S を最大にする A は最大固有値  に対応
1
する固有ベクトルとしてもとまる。
n1n 2
SW A  S B A 
(m1  m2 )( m1  m2 ) t A
n
t
(m1  m2 ) A がスカラー量であることに注意すると
A  SW1 (m1  m2 )
フィッシャーの法則の一般化(1)
変動行列の変わりに共分散行列 i と事前確率 P( i ) を用いる。
def
1
1
t
i 
( x  mi )(x  mi ) 
Si

ni x   i
ni
クラス内共分散行列 W とクラス間共分散行列  B
def
W 
 P( )  i
i 1, 2
i

1
   P ( i )
ni
i 1, 2 
def
B 

( x  mi )(x  mi ) 

x i

t
P
(

)(
m

m
)(
m

m
)

i
i
i
i 1, 2
 P (1 ) P ( 2 )(m1  m2 )(m1  m2 ) t
t
フィッシャーの法則の一般化(2)
~ ~
1次元空間に変換した後ので W , B は以下のようになる
~
W  P (1 )~12  P ( 2 )~22


1
~
   P ( i )
( y  mi ) 

ni y i
i 1, 2 

 At W A
~
~ m
~ )2
 B  P (1 ) P ( 2 )(m
1
2
 P (1 ) P ( 2 ) At ( m1  m2 )(m1  m2 ) t A
 At  B A
評価関数
これも評価関数を J  と置いて以下のように表せる。
~
t ~
def
B
A B A
J  ( A)  ~  t ~
W
A W A
これより残かいとまったく同じ手続きによって J  ( A) の最大値は
1
1
1
W
B
の最大固有値
に等しくその固有ベクトルが
を最大にする
A
となる。すなわち
max{J  ( A)}  1
1
A  W
(m1  m2 )
また全共分散行列 T  W   B を用いて以下のように表せ
る。
A  T1 (m1  m2 )
マハラノビス汎距離
マハラノビス汎距離(DM (m1 , m2 ) )は共分散行列の等しい2つの分
布の平均距離を表す量であり、以下のように表す
def
DM2 (m1 , m2 )  (m1  m2 )t  1 (m1  m2 )
1
これの  を  W1 で置き換えることにより共分散行列異なる分
布の平均間距離に拡張することが出来る
マハラノビス汎距離
これに対して J S (A) と J  (A) に以下の関係が成立する
n
~ m
~ )2
max{J S ( A)}  DM2 (m1 , m2 )  (m
1
2
n1n2
max{J  ( A)}  1  P(1 ) DM2 (m1 , m)  P( 2 ) DM2 (m2 , m)
となるので各クラスがそのクラスの事前確率を表していると仮
定した場合、つまり以下の式
n1
n2
P(1 )  , P( 2 ) 
が成り立つ場合
n
n
W
1
1
 SW ,  B  S B となるので
n
n
J  ( A)  J S ( A)