- SlideBoom

Pattern Recognition
and Machine Learning
1.5 決定理論
2010.11.25
多田 圭佑
目次
0. 決定理論とは
1. 誤識別率の最小化
2. 期待損失の最小化
3. 棄却オプション
4. 推論と決定
5. 回帰のための損失関数
6. まとめ
決定理論とは
適切な確率が与えられた(推論された)時に,
最適な決定をするための理論
例:患者のX線画像からその患者が癌かどうかの診断の決定方法は?
入力ベクトルx :画像のピクセル強度
出力変数t :癌であるクラスC1か,癌でないクラスC2 どちらかを表す
同時分布 p(x, Ck ) を求める:推論の問題
これが分かった上で患者にどのような診断を下すか:決定の段階
※ここでは,推論の問題は解決できる(同時分布が求まる)として,決定理論の
話をする.しばらくはこの癌に診断の例を用いる.
ベイズの定理 (確認)
p(x, Ck ) が求まるとき,ベイズの定理により,
p(Ck | x) (新たな患者のX線画像xが得られた
時,修正された事後確率)を求めることができ
る.
※今から述べる決定理論では,p(Ck | x) が得
られると適切なクラス分類ができる.
誤識別率の最小化 (1/2)
誤ったクラスに分類する可能性を最小にしたい
→事後確率 p(Ck | x) が最大となるクラスにxを割
り当てる
直感的には正しそうだが,本当に正しいか?
誤識別率の最小化 (2/2)
領域 Rk 上の点は全てクラスCk を割り当てるとする.
誤りが起きる確率は,
p(mistake)  p(x  R1 , C2 )  p(x  R2 , C1 )
  p(x, C2 )dx   p(x, C1 )dx
R1
R2
となる.これを最小にするには, p(x, C1 )  p(x, C2 ) ならxにはクラスC1
を割り当てる必要がある(図1.24参照).
p(x, Ck )  p(Ck | x) p(x) であり,p(x)はどちらのクラスでも共通なので,
誤り確率を最小にするのは,各xを事後確率 p(Ck | x) が最大となるクラ
スに割り当てる時である.
期待損失の最小化 (1/3)
単に誤識別率を減らすだけでは十分でない
ケースがある(例えば,癌であるのに健康と診
断するのは,癌でないのに癌であると診断す
るより罪が重い).
→損失関数を導入しそれを最小化する
(損失関数は未知である真のクラスの不確実
性 p(x, Ck ) に依存するため,損失の平均を考
える.)
期待損失の最小化 (2/3)
新たなxに対し,真のクラスが Ck で,xをクラスC j に割り当てたとする.そ
の時の損失をLkj で表すと,それをk,j成分とする損失行列を考えることが
癌 正常
できる.
癌  0 1000 
損失の平均(期待損失)は,


正常 1
0 

E[ L] 
L p(x,C )dx
 
k
j
Rj
kj
k
で,これを最小化したい.
→各xごとに  L kj p(x,C k ) を最小化すればよい.
k
→ p(x, Ck )  p(Ck | x) p(x) を用いて共通因子p(x)を取り除く
→新たなxを以下の量が最小になるようなクラスjに割り当てればよい.
L
kj
p(C k | x)
k
これは事後確率 p(Ck | x) が分かっていれば求まる.
期待損失の最小化 (3/3)
 L kj p(C k | x) の直感的な理解
癌
正常
 0 1000 


k
正常 1
0 

i)新たなxをj=1のクラスに割り当てるとすると(癌であると診断すると)
癌
L11 p(C1| x)  L21 p(C 2| x)  0  p(C1| x)  1 p(C 2| x)
ii)新たなxをj=2のクラスに割り当てるとすると(正常であると診断すると)
L12 p(C1| x)  L22 p(C 2| x)  1000  p(C1| x)  0  p(C 2| x)
i)とii)の小さくなるほうのjのクラスをこのxに割り当てればよい.
棄却オプション
p(Ck | x) の最大値が1よりかなり小さい場合
→どのクラスに属するか不確か.決定を避ける
ほうがいい場合もある.
→ p(Ck | x) の最大値がθ以下だったら棄却する.
推論と決定
決定までに3つの方法がある.
a) p(x, Ck ) の推論問題を解き,ベイズの定理か
ら事後確率 p(Ck | x)を求め,決定理論を用いる.
b)事後確率 p(Ck | x) の推論問題を解き,決定理
論を用いる.
c)推論と決定の問題を同時に解いて入力xから
直接クラスラベルに写像する識別関数f(x)を
求める.
a)が一番大変でc)が一番楽.
c)だと事後確率が出せない(事後確率が知りたい場合は数多くある).
回帰のための損失関数 (1/3)
クラス分類問題ではなく,回帰問題の場合を
考える.
目標:入力ベクトルxと対応する目標変数tがあ
り,新たなxの値に対するtを予測する.
前提:同時確率分布p(x,t)は推論問題を解くこと
で求まっているとする.
決定段階でやること:各入力xに対して,目標変
数tの値に対する良い推定値y(x)を選ぶ.
回帰のための損失関数 (2/3)
損失関数 L(t , y (x)) の期待損失を考える.
E[ L]   L(t , y (x)) p (x, t )dxdt
目標:E[L]を最小にするy(x)を選ぶこと
2
L
(
t
,
y
(
x
))

{
y
(
x
)

t
}
二乗誤差
の場合,変分法で,
E[ L]
 2 y (x)  tp(x, t )dt  0
y (x)
となり,これより,
tp(x, t )dt

y ( x) 

p ( x)
 tp(t | x)dt  E [t | x]
t
を得る. y(x)の最適解は条件付き平均となる.
回帰のための損失関数 (3/3)
期待二乗誤差を最小にする回帰関数y(x)は,条件付き分布
p(t|x)の平均で与えられる.
まとめ
•
•
•
•
推論→決定
決定の仕方(誤識別率,期待損失,棄却)
決定までの3通りのアプローチ
クラス分類問題と回帰問題