わかりやすいパターン認識

わかりやすいパターン認識
第6章 特徴空間の変換
6.5 KL展開の適用法
〔1〕 KL展開と線形判別法
〔2〕 KL展開と学習パターン数
平成15年6月6日(金)
発表者 藤井 丈明
〔1〕 KL展開と線形判別法
X2
D
1
2
P
KL展開の軸
線
形
判
別
法
の
軸
0
X1
表現のための次元削減と判別のための次元削減
KL展開と線形判別法の違い
• KL展開ー表現、圧縮のための次元削減
• 線形判別法ー判別のための次元削減
線形判別法はクラスの分布の分離度を考
慮している
KL展開の有用性
・KL展開の有用性
1)高次元の特徴ベクトルを必要とする高度
な認識(文字認識、音声認識etc)の、次
元の呪いを防ぐために次元削減が必要
2)相関の高い特徴がある時、次元削減によ
り冗長な情報を減らす。また計算誤差が
大きくなるのを防ぐことができる
KL展開の問題点
KL展開の問題点
・KL展開によって特徴空間の次元数を減ら
すことは識別に必要な情報を落としてしま
う危険性を常にはらんでいる
〔2〕 KL展開と学習パターン数
学習パターンから共分散行列を求め、その
固有値と固有ベクトルを求める
KL展開の計算に学習パターン数がどのよ
うな影響を及ぼすか次の2つの実験で調
べる
実験
• 実験1-16次元の特徴空間上に多次元正規分
布をするパターンを人工的に発生させ、KL展開
によって定まる主軸と正しい主軸とのずれが、パ
ターン数の増加とともにどのように変化するか調

 とし、ずれを cos  で評
べ、二つの軸のなす角を
価する
• 実験2-人口的な特徴ベクトルではなく、実際の
文字パターンから得られた特徴を用いて上と同
様の実験を行う。文字として手書き数字の「5」を
400パターン収集、Glucksmanの特徴を加工して
得られる16次元特徴を用いた
実験1 グラフ
1
cos 
0 .5
(a )
(a) 多次元正規分布パターン
0
150
パターン数
パターン数と主軸方向の精度
300
実験1、結果
• パターン数が次元数に等しい時
求められた主軸は63.7のずれがある
• パターン数が次元数の4倍の時
求められた主軸は50.5のずれがある
次元数に比して十分なパターン数を用意す
る必要がある
実験2 グラフ
1
(b)
cos 
(a )
0 .5
(a) 多次元正規分布パターン
(b) 実文字パターン
0
150
パターン数
パターン数と主軸方向の精度
300
実験2、結果
• パターン数が比較的少なくても、ほぼ正しい主
軸が得られた
実際、互いに独立な特徴を用意する
事は困難であり、必ず相関を持ってしまう
この例も、Glucksmanの特徴上、特徴間で相関を
持つものがかなりの部分を占めていると考えら
れる
累積寄与率
(cumulative proportion)
• 固有値を大きい順にある個数まで加算し
た値が、固有値の総和に対して占める割
合。ある限られた主成分だけで元の分布
をどの程度忠実に記述できるかという目
安になる
累積寄与率 グラフ
1
(b)
累
積
寄
与
率
(a )
0 .5
(a) 多次元正規分布パターン
(b) 実文字パターン
0
1
8
特徴数
特徴数と累積寄与率
16
累積寄与率、結果
(実文字パターン)
• 最初の8個でほぼ99%に達した
実際には8次元程度の部分空間にパターン
が分布している
見かけ上の次元数は大きくても、実際はよ
り小さな次元の空間にパターンが分布し
ているとき、この実際上の次元数を固有
次元数(intrinsic dimensionality)と呼ぶ
累積寄与率、結果
(多次元正規分布パターン)
累積寄与率が途中で急激に増大し、飽和する事
はない
・用いたものは人工的なパターン
・16個の特徴間の独立性が高いため
固有次元数も16に近いと考えられる
よって必要とされるパターン数ははるかに多くなる
まとめ
結果的にパターンが少数次元の部分空間
にしか分布していないとしても、その事実
を確認するには次元数に比べて大量の
パターンが必要であることに注意する必
要がある