わかりやすいパターン認識第４章識別部の設計４．４特徴空間の次元数と学習パターン数平成１５年５月９日（金）藤井丈明学習パターン数nと特徴ベクトルの次元数dの関係（１） • (n  d )の場合 d次元の特徴空間を用意したにもかかわらず実際は(n-1)次元の空間しか利用していない例)３次元空間上の３点２次元平面上で表せる｡最低限の条件としてn=d+1 一般的条件 n  d （dは見掛けの次元数ではなく、固有次元数）学習パターン数nと特徴ベクトルの次元数dの関係（２） • d次元の特徴空間上にn個のパターンが分布している場合｛一般位置（ｇｅｎｅｒａｌｐｏｓｉｔｉｏｎ）にあるとする｝パターンを２クラスに分け、その中から任意の一つを選んだ時、超平面により線形分離できる確率を求める超平面により線形分離できる確率  p ( n, d )  1 (n<2(d+1)のとき)   p ( n, d )  1 2 (n=2(d+1)のとき)  p ( n, d )  0 (n>2(d+1)のとき)  *dが大きい時 2(d+1)を超平面の容量(ｃａｐａｃｉｔｙ)という n>2(d+1)の条件下で超平面が得られればその信頼度はきわめて高い次元の呪い (curse of dimensionality) • 識別部設計時には特徴ベクトルの次元数に比べ十分な学習パターンを用意しなければならないが、必要とされる学習パターンの数は次元数の増大とともに指数関数的に増えていく。この事を次元の呪い (curse of dimensionality)というオーバフィッティング（overfitting) • 少数の個別パターンを多数のパラメータを持つ複雑な関数で誤差ゼロで近似してしまうことであり、新たな入力パターンに対して正確な出力ができなくなるという危険をはらんでいる • 過学習(over-training)も、パラメータ数に対して少なすぎる学習パターンを用いることに起因しているため、オーバフィッティングの問題として取り上げることができる coffee break(1) 前述では学習パターン数が自由に設定できるという条件だったが、パターン数が有限な場合に特徴を増やしすぎると次元の呪いにかかわってしまう。これはヒューズの現象(Ｈｕｇｈｅｓｐｈｅｎｏｍｅｎａ)といわれ、nに対してdが無視できなくなるくらい大きくなると統計的な信頼度が低下し、識別性能の低下を招く。識別部の設計は学習パターン数と特徴数の関係を常に考えなければならない coffee break(2) ・学習パターンが少ない場合はNN法が有効・ニューラルネットワークの効用を示す例としてしばしば排他的論理和(ｅｘｃｌｕｓｉｖｅＯＲ) が取り上げられるが、これも学習パターンが少ない場合はNN法で簡単に実現できる