「わかりやすいパターン認識」 発表日:5月23日 担当:脇坂恭志郎 第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限 [1] 誤識別率の偏りと分散① ベイズ誤り確率 ・特徴の評価基準として重要。 ・分布が一般に未知である為、直接推定は困難。 定義式からではなく学習パターンに基づいて間接的に 推定する。そのために「偏り」と「分散」を用いる。 ・誤識別率の偏りと分散② パターン集合をχ、χに依存する推定量をS(χ)、真値を とおく。 S0 ・偏り(真値に対する平均推定量の偏り) ―定義: Bias E{ S ( )} s0 ― Bias = 0 →不偏、不偏推定量 ―偏りが小さいほど推定量は真値に近い。 ・分散(推定値間でのばらつき) ―定義: Var E{( S ( ) E{ S ( )})2 } ―分散が小さいほど推定量の信頼性が高い。 ・誤識別率の偏りと分散③ 偏りと分散は、推定量の良さの尺度として用いられる。 また、偏りは学習パターン数が有限である事に起因し、 分散はテストパターン数が有限である事に起因している。 [2] ベイズ誤り確率の上限及び下限① 誤識別率は、一般に学習パターンとテストパターンの関数。 真の分布の集合をPとし、 ベイズ誤り確率は ( P , P ) と書き表す。 (εの第一引数は学習パターンの分布、第二引数はテストパターン) ˆ とおくと、 一方、有限個の学習パターンで推定された分布を P ( P , P ) ( Pˆ , P ) ( Pˆ , Pˆ ) ( P , Pˆ ) という二つの不等式が成り立つ。 それぞれの分布が異なると、誤識別率が増加している事が分かる。 ベイズ誤り確率の上限及び下限② ・誤識別率はテストパターンに関して不偏なので、学習パターンと 独立なテストパターンに関する期待値は、真の分布Pでテストした 誤識別率と等しい。 学習パターンと独立なテストパターンの分布を Pˆ とおくと Eˆ { ( Pˆ , Pˆ )} ( Pˆ , P ) P 前出の不等式から、ベイズ誤り確率の上限は、 ( P , P ) Eˆ { ( Pˆ , Pˆ )} P と表せられる。 ベイズ誤り確率の上限及び下限③ 同様に、ベイズ誤り確率の下限は、 Eˆ { ( Pˆ , Pˆ )} Eˆ { ( P , Pˆ )} P P このとき、テストパターンに関する期待値は不偏なので、 右辺は ( P , P ) と等しくなる。 これまでの式から、 Eˆ { ( Pˆ , Pˆ )} ( P , P ) Eˆ { ( Pˆ , Pˆ )} P という関係式が成り立つ。 P 再代入法(resubstitution method) ・実際の応用では期待値計算は出来ないので、 誤識別率の下限値、上限値を近似的に求める。 →ベイズ誤り確率推定の下限値は学習パターンで識別部を設計 し、同じ学習パターンでテストして誤識別率を算出するという方法 で近似する。(この方法は学習パターンを識別機に再度入力する ことから、再代入法、R法と呼ばれる) ˆ , Pˆ )}} とすると、 { E { ( P →ベイズ誤り確率推定の上限値を E Pˆ Pˆ 要素数が一つとなるように分割するL法が用いられる。 ・このように、与えられた有限個のパターンを用いてR法とL法の 挟みうちによりベイズ誤り確率を間接的に推定できる… (しかし、むやみにパターン数、次元数を増やすと、推定は困難に)
© Copyright 2024 ExpyDoc