わかりやすいパターン認識第6章特徴空間の変換 6.4 線形判別法［2］多クラスに対する線形判別法発表：2003年6月6日発表者：時田陽一多クラスに対する線形判別法線形判別法・・・・・特徴空間をより次元の小さい部分空間に変換する方法特徴空間の変換前回・・・2クラス→1クラス（フィッシャーの線形判別法 ~ 今回・・・d次元（cクラス）→ d 次元（c‐1）変換を表す行列をAとする（ d , d~ 行列）共分散行列・変動行列 2クラスのときと同様に  1 W   P( i ) i    P( i ) ni i 1 i 1  c def c  ( x  mi )(x  mi )   x i  c def  B   P ( i )(mi  m)(mi  m) t i 1 1 c c   P ( i ) P ( j )(mi  m j )(mi  m j ) t 2 i 1 j 1 t クラス内共分散行列： W クラス間共分散行列：  B c   P ( i ) P ( j )(mi  m j )(mi  m j ) t i 1 j  i def c c SW    ( x  mi )(x  mi )   ni i t i 1 x i def c S B   ni (mi  m)(mi  m)t i 1 i 1 クラス内変動行列： SW クラス間変動行列： SB 全共分散行列・全変動行列全共分散行列： T  1  T    P( i ) ni i 1  def c  ( x  m)(x  m)   W   B  x i  t 全変動行列： ST def ST   ( x  m)(x  m)t  SW  S B x n 事前確率について P( i )  i n が成立するとき 1 S n が成り立つ。以下、共分散行列による表現をすることにする  評価関数J(A) 変換後のクラス内共分散行列、クラス間共分散行列 ~ ~ t W  A W A , B  At B A 変換した空間上でのクラス間の分離度を評価する評価関数J(A)                 ~ def tr  B ~ 1~ J1 ( A)  ~ , J 2 ( A)  tr W  B tr W ~ def det  B ~ 1~ J 3 ( A)   det  ~ W B det W ~ def  det T  J 4 ( A)  log ~   det W  def 評価関数J(A)を最大化するようにしたい評価関数の最大化評価関数の最大化問題 ~ W  At W A  I という条件の下で分子を最大化することと等価である以下の固有値問題に帰着する Λ：  B A  W A ~ 次元対角行列 d ~ W1B の固有値のうち大きいほうから d 個の固有値 i ,, d~ に対応する固有ベクトルが変換後の空間を張る基底となる各評価関数の最大値（ ~ d W1B の固有値を用いて） ~ d 1 maxJ1 ( A)  ~  i , maxJ 2 ( A)   i d i 1 i 1 ~ d ~ d maxJ 3 ( A)   i , maxJ 4 ( A)   logi  1 i 1 i 1 評価関数の特徴［1］評価関数 J・・・空間の判別力を評価する量としてみなせる ●評価値が加法性を持つという観点から・J2とJ4が空間の判別力の評価値として望ましい・J1は部分空間の次元で除した各軸の平均評価を表している・J3は０に近い固有値を採用していったとき、評価値も０に近づいていってしまう ●J2,J3,J4は座標の正則線形変換に不変である・特徴量の正規化の影響を受けない（6・2節）評価関数の特徴［2］  共分散行列の行列式は一般化分散と呼ばれている ~ d det     i i 1  であり、J3が2クラスの場合の最も自然な一般化 Jの最大値は各クラス平均と全平均とのマハラノビス汎距離の二乗に等しい c maxJ 2 ( A)   P(i ) DM2 (mi , m) i 1 各Jを最大化する固有ベクトルは同じ → 求まる部分空間はJの選び方によらない → 空間の判別力の評価、特徴の評価としてJを利用する場合、適切なものを選ぶ必要がある → クラスタリングにおいて最適なクラスタを決定するためにこのような評価値が利用される（本書では割愛）線形判別法の注意点  多クラスの場合・部分空間がクラス間の分離の点で十分な判別能力を持たないことがある多クラスの識別に線形判別法を用いる場合には注意が必要 2クラスの判別のフィッシャーの方法を組み合わせて多クラスの識別を行うのが確実 Coffee break [1] 線形判別法・判別分析と呼ばれ、多変量データ分析手法の一つとして広く利用・相関分析の特別な場合とみなせる ２クラスの識別において最小二乗学習による重みベクトルの決定方法は教師信号を目的変数とする重回帰分析に相当（3・1節[2]） 最小二乗学習によって求まる重みベクトルωはフィッシャーの法則によって求まる変換行列Aと等価（9・1節[1]） 多クラスの線形判別法は正準相関分析の特別な場合に相当 Coffee break [2] ni P (  )  ●実用上の問題として、事前確率 i n とすることはどれくらいの妥当性があるのだろうか？問題に依存する実際は以下のいずれかの方法で事前確率を決定する n ① P(i )  i n とする場合母集団からパターンをランダムにサンプリングしたのであれば自然な方法しかし、完全なランダムサンプリングは実現困難である。 ② P( i )  1c とする場合各クラスを対等に扱うとする立場に立つ。文字認識ではこの方法が採用されることが多い。 ③ まったく別の方法によってP(i )の推定をする場合特定のクラスをより正しく識別したい場合、解決策としてそのクラスの学習パターンをより多く用意しておくことはよく行われる。これは、特定のクラスの P(i ) を大きく見積もっておくことと等価