わかりやすいパターン認識

わかりやすいパターン認識
第6章 特徴空間の変換
6.4 線形判別法
[2]多クラスに対する線形判別法
発表:2003年6月6日
発表者:時田 陽一
多クラスに対する線形判別法
線形判別法
・・・・・特徴空間をより次元の小さい
部分空間に変換する方法
特徴空間の変換
前回・・・2クラス→1クラス(フィッシャーの線形判別法
~
今回・・・d次元(cクラス)→ d 次元(c‐1)
変換を表す行列をAとする( d , d~ 行列)
共分散行列・変動行列
2クラスのときと同様に

1
W   P( i ) i    P( i )
ni
i 1
i 1 
c
def
c

( x  mi )(x  mi ) 

x i

c
def
 B   P ( i )(mi  m)(mi  m) t
i 1
1 c c
  P ( i ) P ( j )(mi  m j )(mi  m j ) t
2 i 1 j 1
t
クラス内共分散行列
: W
クラス間共分散行列
: 
B
c
  P ( i ) P ( j )(mi  m j )(mi  m j ) t
i 1 j  i
def
c
c
SW    ( x  mi )(x  mi )   ni i
t
i 1 x i
def c
S B   ni (mi  m)(mi  m)t
i 1
i 1
クラス内変動行列
: SW
クラス間変動行列
: SB
全共分散行列・全変動行列
全共分散行列: T

1

T    P( i )
ni
i 1 
def
c

( x  m)(x  m)   W   B

x i

t
全変動行列: ST
def
ST   ( x  m)(x  m)t  SW  S B
x
n
事前確率について P( i )  i n が成立するとき
1
S
n
が成り立つ。
以下、共分散行列による表現をすることにする

評価関数J(A)
変換後のクラス内共分散行列、クラス間共分散行列
~
~
t
W  A W A , B  At B A
変換した空間上でのクラス間の分離度を評価する評価関数J(A)
 


 
   
 
 
 
~
def
tr  B
~ 1~
J1 ( A)  ~ , J 2 ( A)  tr W  B
tr W
~
def
det  B
~ 1~
J 3 ( A) 

det

~
W B
det W
~
def
 det T 
J 4 ( A)  log
~ 
 det W 
def
評価関数J(A)を最大化するようにしたい
評価関数の最大化
評価関数の最大化問題
~
W  At W A  I
という条件の下で分子を最大化することと等価である
以下の固有値問題に帰着する
Λ:
 B A  W A
~ 次元対角行列
d
~
W1B の固有値のうち大きいほうから d 個の固有値 i ,, d~ に対応する
固有ベクトルが変換後の空間を張る基底となる
各評価関数の最大値(
~
d
W1B の固有値を用いて)
~
d
1
maxJ1 ( A)  ~  i , maxJ 2 ( A)   i
d i 1
i 1
~
d
~
d
maxJ 3 ( A)   i , maxJ 4 ( A)   logi  1
i 1
i 1
評価関数の特徴[1]
評価関数 J・・・空間の判別力を評価する量としてみなせる
●評価値が加法性を持つという観点から
・J2とJ4が空間の判別力の評価値として望ましい
・J1は部分空間の次元で除した各軸の平均評価を
表している
・J3は0に近い固有値を採用していったとき、評価値も0に
近づいていってしまう
●J2,J3,J4は座標の正則線形変換に不変である
・特徴量の正規化の影響を受けない(6・2節)
評価関数の特徴[2]

共分散行列の行列式は一般化分散と呼ばれている
~
d
det     i
i 1

であり、J3が2クラスの場合の最も自然な一般化
Jの最大値は各クラス平均と全平均との
マハラノビス汎距離の二乗に等しい
c
maxJ 2 ( A)   P(i ) DM2 (mi , m)
i 1
各Jを最大化する固有ベクトルは同じ
→ 求まる部分空間はJの選び方によらない
→ 空間の判別力の評価、特徴の評価としてJを利用する場合、
適切なものを選ぶ必要がある
→ クラスタリングにおいて最適なクラスタを決定するために
このような評価値が利用される(本書では割愛)
線形判別法の注意点

多クラスの場合
・部分空間がクラス間の分離の点で十分な判別能力を持たないことがある
多クラスの識別に線形判別法を用いる場合には注意が必要
2クラスの判別のフィッシャーの方法を組み合わせて
多クラスの識別を行うのが確実
Coffee break [1]
線形判別法
・判別分析と呼ばれ、多変量データ分析手法の
一つとして広く利用
・相関分析の特別な場合とみなせる
2クラスの識別において最小二乗学習による重みベクトルの決定方法は
教師信号を目的変数とする重回帰分析に相当(3・1節[2])
最小二乗学習によって求まる重みベクトルωはフィッシャーの法則によって
求まる変換行列Aと等価(9・1節[1])
多クラスの線形判別法は正準相関分析の特別な場合に相当
Coffee break [2]
ni
P
(

)

●実用上の問題として、事前確率
i
n とすることは
どれくらいの妥当性があるのだろうか?
問題に依存する
実際は以下のいずれかの方法で事前確率を決定する
n
① P(i )  i n とする場合
母集団からパターンをランダムにサンプリングしたのであれば自然な方法
しかし、完全なランダムサンプリングは実現困難である。
② P( i )  1c とする場合
各クラスを対等に扱うとする立場に立つ。
文字認識ではこの方法が採用されることが多い。
③ まったく別の方法によってP(i )の推定をする場合
特定のクラスをより正しく識別したい場合、解決策としてそのクラスの
学習パターンをより多く用意しておくことはよく行われる。
これは、特定のクラスの P(i ) を大きく見積もっておくことと等価