わかりやすいパターン認識 第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一 〔1〕識別部を決定するパラメータ 線形識別関数、ニューラルネットワーク、k-NN法 (ノンパラメトリックな手法) ハイパーパラメータを設定しなければならない (識別機の“本来のパラメータのためのパラメータ”) ※ハイパーパラメータの設定は実用上極めて重要!! (識別性能に大きな影響を与える) 各手法におけるハイパーパラメータ 識別手法 ハイパーパラメータ 線形識別関数 関数の次数 ニューラルネット ワーク 中間ユニット数 k-NN法 kの値 ハイパーパラメータの設定方法(1) クラスラベルつきパターン集合 X x1, x2 ,, xn ハイパーパラメータは未知パターンに対する識別性能を評価することで 決定される 誤識別率の低いハイパーパラメータが望ましい ① ハイパーパラメータをλとする ② 全ての可能な未知パターンに対する識別機の誤識別率の 平均値として e を求める ③ e を最小にする を決定する (Λ:λ全体の集合) ハイパーパラメータの設定方法(2) e 実際は、分布が未知なので単純に を 計算できない 与えられたクラスラベル付パターン集合 X x1, x2 ,, xn から e を推定する 〔2〕分割学習法 分割学習法(H法) :与えられたパターン集合の一部をテストパターン集合と みなす方法 手順 ① X→X1(学習パターン集合)、X2(テストパターン集合)に分割 ② X1を用いて の各値で識別機を設計 ③ X2で識別性能を評価 問題点 学習パターン数が減少し、識別性能が劣化 学習パターン数を多くすると、テストパターン数が少なくなり、 性能評価の信頼性が低下 e の推定精度が良くない 〔3〕交差確認法 交差確認法(CV法) :Xの全ての要素を学習とテストに使用する 手順 ① Xをm個のグループ x1 , x2 ,, xm に分割 ② Xiを除いた(m-1)個のグループパターンで学習した後 Xiで誤識別率を算出 ③ ②の手順をi=1,2,・・・,mの全てについて行い m個の誤識別率の平均値を e の推定値とする Xiの要素数=1となるように分割する方法(一つ抜き法[L法]) がよく用いられている 全てのパターンが学習とテストに用いられているため H法より e の推定精度が向上 〔4〕ブートストラップ法[1] ブートストラップ法(BS法) :CV法に比べ推定値の分散が小さくなる (推定値がXの変動に対し安定) ê Xを学習とテストの両方に利用してそのときの推定値を とする は真値 eよりも小さくなる (学習パターン数がテストにも利用されたから) ずれを R e eˆ とする Rをなんらかの方法で推定できれば e R eˆとして 真値e を推定できる ê ●Xからn回の復元抽出により疑似パターン集合 X x1 , x2 ,, xn を生成し、この X を用いて Rの推定値を求める ブートストラップ法[2] 手順 疑似パターン集合 X をB個生成する ( R のサンプリング影響をなくすため) B個の疑似パターンについて R1, R2 ,, RB を求めて それらの平均値を R とする( Rb eb eˆb ) ê: X を学習とテストの両方に用いたもの e : X を学習に、Xをテストに用いたもの 求めるべき推定値は eˆ R となる L法、BS法は、かなりの学習回数を要し、膨大な 計算時間を要するが、精度が良いことでこの欠点を カバーできる
© Copyright 2024 ExpyDoc