わかりやすいパターン認識 第8章 学習アルゴリズムの一般化 8.2 種々の損失 〔1〕 平均二乗誤差最小基準 〔2〕 0ー1損失基準 〔3〕 連続損失基準 平成15年6月20日(金) 発表者 藤井 丈明 〔1〕 平均二乗誤差最小基準 y ( x) ( y1,, yi ,, yc )t y : 出力(c次元 ) ( x) : 決定規則 • yk y j (j k )であれば xを k と識別 k : 所属クラス x : 入力パターン ・教師あり学習の場合 損失関数として二乗誤差 l ( ( x) i ) ( x) ti 用いると期待損失の式は次式で表せる c L() P(i ) ( x) ti p( x i )dx i 1 2 を 2 : 教師ベクトル (c次元 ) ti L( ) : 期待損失 平均二乗誤差最小基準 c L() P(i ) ( x) ti p( x i )dx i 1 2 c次元座標単位ベクトルti (0,,0,1,0,,0) が通常用いられる t 二乗誤差の期待値、つまり平均二乗誤差(MSE: MeanーSquare Error)を表す ・上式を最小化するを平均二乗誤差最小基準に 基づく決定、最小二乗法に基づく決定と呼ぶ ・最小二乗法に基づく決定はベイズ決定と密接な 関係 〔2〕 0ー1損失基準 0 if j i l ( j i ) 1 otherwise • クラス i のパタ-ンを誤識別したときに 損失1、それ以外では損失0 L( j x) P(i x) 1 P( j x) L( j x) : 平均損失 i j L() の最小化は L(( x) x) の最小化と等価 0-1損失基準による決定規則 ( x) k if ( k x) max P( i x) i 式の証明 0 if j i L( j x) l ( j i ) P(i x), l ( j i ) 1 otherwise i 1 c i j より l ( j i ) 1 c L( j x) P(i x)= i j の全ての確率の総和なので i j L( j x) P(i x) 1 P( j x) i j 0-1損失基準による決定規則 ( x) k if P( k x) max P( i x) i 式(5 19) 誤識別率の最小値(ベイズ誤り確率)を達 成するための決定規則 ベイズ決定則 ・0-1損失基準による決定規則を用いたとき 期待損失最小化 事後確率最大化 得られる損失 ベイズリスク(Bayes risk) 0-1損失基準での注意点 0-1損失基準がベイズ決定則を導くのは期待損 失最小化の観点で最適な識別をしたときであり、 学習パターンに付与されたクラスラベル通りに 識別できてもその識別機は必ずしもベイズ決定 則を実現する訳ではない。それは各クラスの分 布が重なっている場合、ベイズ決定則によて得 られるクラスとクラス境界付近の学習パターン のクラスラベルとは必ずしも一致していない為。 ・この問題を緩和する損失関数 連続損失基準 〔3〕 連続損失基準 • 0‐1損失基準 識別結果が正しいか誤りの2値 • 連続損失基準 識別結果だけでなく、誤りの度 合いを示す誤分類尺度(misclassifiction measure)を考慮 ( x; ) ( g1 ( x; ), g2 ( x; ),, gc ( x; )) gi ( x; ) :クラス iに対する識別関数 : 識別関数を規定するパ ラメータ • 最大の要素のインデックスが xのクラスとなるの で、次式で表される max{g i ( x; )} g k ( x; ) x k i 甘利の提案 1 di ( x) ( g j ( x; ) gi ( x; )) jSi mi パラメータに対し て連続である保証 がない為勾配型 S i { j g j ( x; ) g i ( x; )} のアルゴリズムと S の親和性がよくな i; i の要素数 い Si ;クラスi の識別関数の値より大きなクラスインデックスの集合 m • x iが正しく識別される条件 g j ( x; ) gi ( x; ),j i d i ( x) 0 xが d i ( x) の度合いで正しく識別 d i ( x) 0 xが d i ( x)の度合いで誤識別 Juang & katagiriの提案 1 di ( x) g i ( x; ) ( gi ( x; ) c 1 j i 1 : 正定数 • が大きくなるにつれ右辺第2項は g j ( x; ),j i 中最も値の大きなものが支配的となる • のとき di ( x; ) gi ( x; ) gk ( x; ) g k ( x; ) max g j ( x; ) j i 滑らかさの設定 • 誤分類尺度を導入する事により、x の識別の良さ、悪さ の度合いが得られ、損失に反映させることが出来る • 損失として次式に示す関数が提案されている 1 l ( ( x) i ) 1 exp(di ) : 正定数 d i ( x) 大 , 損失 1 d i ( x) 小 , 損失 0 d ( x) 0近辺 , 損失 1 2 i • クラス境界付近に位置しクラスラベルがベイズ決定と異 なる学習パターンにも適切な損失が与えられ0-1損失 より滑らかな識別境界が得られる(滑らかさはパラメータ に依存) • 滑らかさの度合いは問題に対して適切に設計する必要 がある 未知パターンに対する識別性能に関係す る実用上極めて重要な問題 coffee break *過ぎたるは及ばざるが如し (1) ・与えられた学習パターンで識別機を学習 徹底的に学習 識別性能悪化 理由ー徹底的な学習により、ベイズ決定則で求め た境界よりもかなり複雑なクラス境界が作ら れるため 過学習 識別機のモデルの自由度が高い 学習パターンが少ない 特徴ベクトルの次元が高い 顕著 coffee break *過ぎたるは及ばざるが如し (2) 解決法 early stopping 1、学習パターンの一部をテストパターンとして取る 2、テストパターンの識別結果を学習の途中で評価 3、識別性能が悪化し始めたら学習を停止 学習の本質 データの背後にある確率構造の推定 ・手元の学習パターンだけでなく未知のパターンも 考慮した学習方が事実上極めて重要 coffee break *毒りんごにあたらない方法(1) 白雪姫は毒りんごを食べて死んでしまったが、白 雪姫がパターン認識を学んでいたらどうなった か? 二つの判定法を仮定 ・判定法A:すべてのりんごを普通のりんごと仮定 ・判定法B:りんごの特徴を抽出し、それに基づい て毒かどうかを識別するパターン認識法により 判定を行う。このパターン認識法は、普通のり んごの99%を正しく識別し、毒りんごの99%を 正しく識別できる能力を有しているとする coffee break *毒りんごにあたらない方法(2) • 10000個のりんごの中に毒りんごが1%含まれて いたと仮定 • 誤り率で評価 ・毒死率 判定法A 1% 判定法A 100人 判定法B 1% 判定法B 1人 判定法Bの方が優れている 毒にあたる損失>>普通のりんごを捨てる損失 coffee break *毒りんごにあたらない方法(3) • 誤り率 0-1損失基準を採用したときの 期待損失 • 平均二乗誤差基準や連続損失基準はクラスご とに異なる損失を与えているが主観を考慮した 損失関数となっていない点は0ー1損失基準と同 様 • 0-1損失基準 高度化 平均二乗誤差基準 連続損失基準 識別関数の出力値に基 づいて誤判定の度合い を考慮している点 coffee break *毒りんごにあたらない方法(4) • 損失の設定の問題 1. 損失の度合いが大きく異なる 例:医療診断、数字が金銭を表す場合 2. 立場によって損失の度合いは変わる 例:医療診断における患者と病院経営者 ・損失関数を一般的に定義することは困難 1.客観的損失基準で識別機を設計 2.主観的な損失を反映した修正を施す 例:医療診断において疑わしきものは全て以上とみなす よう識別境界をずらすなどの処理 coffee break *毒りんごにあたらない方法(5) ・以上を学んだ白雪姫のその後 ある判定法Cを仮定 判定法C:すべてのりんごを毒りんごと判定 毒りんごを普通のりんごと誤判定する損失 ∞ ・しかしどのように食物の中からりんごを見分ける かという新たな問題に直面 ・白雪姫の取った手段 一切の食事をしない これは正しいか?その評価は難しい ・餓死する期待損失と毒りんごを食べて毒死する 期待損失の比較はそれほど容易ではないため
© Copyright 2024 ExpyDoc