わかりやすいパターン認識

わかりやすいパターン認識
第8章 学習アルゴリズムの一般化
8.2 種々の損失
〔1〕 平均二乗誤差最小基準
〔2〕 0ー1損失基準
〔3〕 連続損失基準
平成15年6月20日(金)
発表者 藤井 丈明
〔1〕 平均二乗誤差最小基準
y  ( x)  ( y1,, yi ,, yc )t
 y : 出力(c次元 )

 ( x) : 決定規則
• yk  y j (j  k )であれば xを k と識別
 k : 所属クラス

 x : 入力パターン
・教師あり学習の場合
損失関数として二乗誤差 l ( ( x)  i )   ( x)  ti
用いると期待損失の式は次式で表せる
c
L()   P(i )  ( x)  ti p( x i )dx
i 1
2
を
2
: 教師ベクトル (c次元 )
ti

 L( ) : 期待損失
平均二乗誤差最小基準
c
L()   P(i )  ( x)  ti p( x i )dx
i 1
2
c次元座標単位ベクトルti  (0,,0,1,0,,0)
が通常用いられる
t
二乗誤差の期待値、つまり平均二乗誤差(MSE:
MeanーSquare Error)を表す
・上式を最小化するを平均二乗誤差最小基準に
基づく決定、最小二乗法に基づく決定と呼ぶ
・最小二乗法に基づく決定はベイズ決定と密接な
関係
〔2〕 0ー1損失基準
0 if j  i
l ( j i )  
1 otherwise
• クラス i のパタ-ンを誤識別したときに
損失1、それ以外では損失0
L( j x)   P(i x)  1  P( j x) L( j x) : 平均損失
i j
L() の最小化は L(( x) x) の最小化と等価
0-1損失基準による決定規則
 ( x)   k if ( k x)  max P( i x)
i
式の証明
0 if j  i
L( j x)  l ( j i ) P(i x), l ( j i )  
1 otherwise
i 1
c

i j より l ( j i )  1
c
L( j x)   P(i x)= i j の全ての確率の総和なので
i j
L( j x)   P(i x)  1  P( j x)
i j
0-1損失基準による決定規則
 ( x)   k if P( k x)  max P( i x)
i
式(5 19)
誤識別率の最小値(ベイズ誤り確率)を達
成するための決定規則
ベイズ決定則
・0-1損失基準による決定規則を用いたとき
期待損失最小化 事後確率最大化
得られる損失
ベイズリスク(Bayes risk)
0-1損失基準での注意点
0-1損失基準がベイズ決定則を導くのは期待損
失最小化の観点で最適な識別をしたときであり、
学習パターンに付与されたクラスラベル通りに
識別できてもその識別機は必ずしもベイズ決定
則を実現する訳ではない。それは各クラスの分
布が重なっている場合、ベイズ決定則によて得
られるクラスとクラス境界付近の学習パターン
のクラスラベルとは必ずしも一致していない為。
・この問題を緩和する損失関数
連続損失基準
〔3〕 連続損失基準
• 0‐1損失基準 識別結果が正しいか誤りの2値
• 連続損失基準 識別結果だけでなく、誤りの度
合いを示す誤分類尺度(misclassifiction
measure)を考慮
( x; )  ( g1 ( x; ), g2 ( x; ),, gc ( x; ))
gi ( x; ) :クラス iに対する識別関数
 : 識別関数を規定するパ ラメータ
• 最大の要素のインデックスが xのクラスとなるの
で、次式で表される
max{g i ( x; )}  g k ( x; )  x   k
i
甘利の提案
1
di ( x)   ( g j ( x; ) gi ( x; ))
jSi mi
パラメータに対し
て連続である保証
がない為勾配型
S i  { j g j ( x; )  g i ( x; )}
のアルゴリズムと
S
の親和性がよくな
i; i の要素数
い
Si ;クラスi の識別関数の値より大きなクラスインデックスの集合
m
• x iが正しく識別される条件
g j ( x; )  gi ( x; ),j  i

 d i ( x)  0 xが d i ( x) の度合いで正しく識別


d i ( x)  0 xが d i ( x)の度合いで誤識別
Juang & katagiriの提案
 1

di ( x)   g i ( x; )  
( gi ( x; ) 

 c  1 j i

1

 : 正定数
•  が大きくなるにつれ右辺第2項は g j ( x; ),j  i
中最も値の大きなものが支配的となる
•    のとき
di ( x; )   gi ( x; )  gk ( x; )
g k ( x; )  max g j ( x; )
j i
滑らかさの設定
• 誤分類尺度を導入する事により、x の識別の良さ、悪さ
の度合いが得られ、損失に反映させることが出来る
• 損失として次式に示す関数が提案されている
1
l ( ( x)  i ) 
1  exp(di )
 : 正定数
d i ( x)  大 , 損失  1

d i ( x)  小 , 損失  0
d ( x)  0近辺 , 損失  1 2
 i
• クラス境界付近に位置しクラスラベルがベイズ決定と異
なる学習パターンにも適切な損失が与えられ0-1損失
より滑らかな識別境界が得られる(滑らかさはパラメータ
に依存)
• 滑らかさの度合いは問題に対して適切に設計する必要
がある
未知パターンに対する識別性能に関係す
る実用上極めて重要な問題
coffee break
*過ぎたるは及ばざるが如し
(1)
・与えられた学習パターンで識別機を学習
徹底的に学習
識別性能悪化
理由ー徹底的な学習により、ベイズ決定則で求め
た境界よりもかなり複雑なクラス境界が作ら
れるため
過学習
識別機のモデルの自由度が高い
学習パターンが少ない
特徴ベクトルの次元が高い


顕著


coffee break
*過ぎたるは及ばざるが如し
(2)
解決法 early stopping
1、学習パターンの一部をテストパターンとして取る
2、テストパターンの識別結果を学習の途中で評価
3、識別性能が悪化し始めたら学習を停止
学習の本質
データの背後にある確率構造の推定
・手元の学習パターンだけでなく未知のパターンも
考慮した学習方が事実上極めて重要
coffee break
*毒りんごにあたらない方法(1)
白雪姫は毒りんごを食べて死んでしまったが、白
雪姫がパターン認識を学んでいたらどうなった
か?
二つの判定法を仮定
・判定法A:すべてのりんごを普通のりんごと仮定
・判定法B:りんごの特徴を抽出し、それに基づい
て毒かどうかを識別するパターン認識法により
判定を行う。このパターン認識法は、普通のり
んごの99%を正しく識別し、毒りんごの99%を
正しく識別できる能力を有しているとする
coffee break
*毒りんごにあたらない方法(2)
• 10000個のりんごの中に毒りんごが1%含まれて
いたと仮定
• 誤り率で評価
・毒死率
判定法A 1%
判定法A 100人
判定法B 1%
判定法B 1人
判定法Bの方が優れている
毒にあたる損失>>普通のりんごを捨てる損失
coffee break
*毒りんごにあたらない方法(3)
• 誤り率
0-1損失基準を採用したときの
期待損失
• 平均二乗誤差基準や連続損失基準はクラスご
とに異なる損失を与えているが主観を考慮した
損失関数となっていない点は0ー1損失基準と同
様
• 0-1損失基準 高度化 平均二乗誤差基準
連続損失基準
識別関数の出力値に基
づいて誤判定の度合い
を考慮している点
coffee break
*毒りんごにあたらない方法(4)
•
損失の設定の問題
1. 損失の度合いが大きく異なる
例:医療診断、数字が金銭を表す場合
2. 立場によって損失の度合いは変わる
例:医療診断における患者と病院経営者
・損失関数を一般的に定義することは困難
1.客観的損失基準で識別機を設計
2.主観的な損失を反映した修正を施す
例:医療診断において疑わしきものは全て以上とみなす
よう識別境界をずらすなどの処理
coffee break
*毒りんごにあたらない方法(5)
・以上を学んだ白雪姫のその後
ある判定法Cを仮定
判定法C:すべてのりんごを毒りんごと判定
毒りんごを普通のりんごと誤判定する損失
∞
・しかしどのように食物の中からりんごを見分ける
かという新たな問題に直面
・白雪姫の取った手段
一切の食事をしない
これは正しいか?その評価は難しい
・餓死する期待損失と毒りんごを食べて毒死する
期待損失の比較はそれほど容易ではないため