わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数 平成15年6月6日(金) 発表者 藤井 丈明 〔1〕 KL展開と線形判別法 X2 D 1 2 P KL展開の軸 線 形 判 別 法 の 軸 0 X1 表現のための次元削減と判別のための次元削減 KL展開と線形判別法の違い • KL展開ー表現、圧縮のための次元削減 • 線形判別法ー判別のための次元削減 線形判別法はクラスの分布の分離度を考 慮している KL展開の有用性 ・KL展開の有用性 1)高次元の特徴ベクトルを必要とする高度 な認識(文字認識、音声認識etc)の、次 元の呪いを防ぐために次元削減が必要 2)相関の高い特徴がある時、次元削減によ り冗長な情報を減らす。また計算誤差が 大きくなるのを防ぐことができる KL展開の問題点 KL展開の問題点 ・KL展開によって特徴空間の次元数を減ら すことは識別に必要な情報を落としてしま う危険性を常にはらんでいる 〔2〕 KL展開と学習パターン数 学習パターンから共分散行列を求め、その 固有値と固有ベクトルを求める KL展開の計算に学習パターン数がどのよ うな影響を及ぼすか次の2つの実験で調 べる 実験 • 実験1-16次元の特徴空間上に多次元正規分 布をするパターンを人工的に発生させ、KL展開 によって定まる主軸と正しい主軸とのずれが、パ ターン数の増加とともにどのように変化するか調 とし、ずれを cos で評 べ、二つの軸のなす角を 価する • 実験2-人口的な特徴ベクトルではなく、実際の 文字パターンから得られた特徴を用いて上と同 様の実験を行う。文字として手書き数字の「5」を 400パターン収集、Glucksmanの特徴を加工して 得られる16次元特徴を用いた 実験1 グラフ 1 cos 0 .5 (a ) (a) 多次元正規分布パターン 0 150 パターン数 パターン数と主軸方向の精度 300 実験1、結果 • パターン数が次元数に等しい時 求められた主軸は63.7のずれがある • パターン数が次元数の4倍の時 求められた主軸は50.5のずれがある 次元数に比して十分なパターン数を用意す る必要がある 実験2 グラフ 1 (b) cos (a ) 0 .5 (a) 多次元正規分布パターン (b) 実文字パターン 0 150 パターン数 パターン数と主軸方向の精度 300 実験2、結果 • パターン数が比較的少なくても、ほぼ正しい主 軸が得られた 実際、互いに独立な特徴を用意する 事は困難であり、必ず相関を持ってしまう この例も、Glucksmanの特徴上、特徴間で相関を 持つものがかなりの部分を占めていると考えら れる 累積寄与率 (cumulative proportion) • 固有値を大きい順にある個数まで加算し た値が、固有値の総和に対して占める割 合。ある限られた主成分だけで元の分布 をどの程度忠実に記述できるかという目 安になる 累積寄与率 グラフ 1 (b) 累 積 寄 与 率 (a ) 0 .5 (a) 多次元正規分布パターン (b) 実文字パターン 0 1 8 特徴数 特徴数と累積寄与率 16 累積寄与率、結果 (実文字パターン) • 最初の8個でほぼ99%に達した 実際には8次元程度の部分空間にパターン が分布している 見かけ上の次元数は大きくても、実際はよ り小さな次元の空間にパターンが分布し ているとき、この実際上の次元数を固有 次元数(intrinsic dimensionality)と呼ぶ 累積寄与率、結果 (多次元正規分布パターン) 累積寄与率が途中で急激に増大し、飽和する事 はない ・用いたものは人工的なパターン ・16個の特徴間の独立性が高いため 固有次元数も16に近いと考えられる よって必要とされるパターン数ははるかに多くなる まとめ 結果的にパターンが少数次元の部分空間 にしか分布していないとしても、その事実 を確認するには次元数に比べて大量の パターンが必要であることに注意する必 要がある
© Copyright 2024 ExpyDoc