Pattern Recognition and Machine Learning 1.5 決定理論 2010.11.25 多田 圭佑 目次 0. 決定理論とは 1. 誤識別率の最小化 2. 期待損失の最小化 3. 棄却オプション 4. 推論と決定 5. 回帰のための損失関数 6. まとめ 決定理論とは 適切な確率が与えられた(推論された)時に, 最適な決定をするための理論 例:患者のX線画像からその患者が癌かどうかの診断の決定方法は? 入力ベクトルx :画像のピクセル強度 出力変数t :癌であるクラスC1か,癌でないクラスC2 どちらかを表す 同時分布 p(x, Ck ) を求める:推論の問題 これが分かった上で患者にどのような診断を下すか:決定の段階 ※ここでは,推論の問題は解決できる(同時分布が求まる)として,決定理論の 話をする.しばらくはこの癌に診断の例を用いる. ベイズの定理 (確認) p(x, Ck ) が求まるとき,ベイズの定理により, p(Ck | x) (新たな患者のX線画像xが得られた 時,修正された事後確率)を求めることができ る. ※今から述べる決定理論では,p(Ck | x) が得 られると適切なクラス分類ができる. 誤識別率の最小化 (1/2) 誤ったクラスに分類する可能性を最小にしたい →事後確率 p(Ck | x) が最大となるクラスにxを割 り当てる 直感的には正しそうだが,本当に正しいか? 誤識別率の最小化 (2/2) 領域 Rk 上の点は全てクラスCk を割り当てるとする. 誤りが起きる確率は, p(mistake) p(x R1 , C2 ) p(x R2 , C1 ) p(x, C2 )dx p(x, C1 )dx R1 R2 となる.これを最小にするには, p(x, C1 ) p(x, C2 ) ならxにはクラスC1 を割り当てる必要がある(図1.24参照). p(x, Ck ) p(Ck | x) p(x) であり,p(x)はどちらのクラスでも共通なので, 誤り確率を最小にするのは,各xを事後確率 p(Ck | x) が最大となるクラ スに割り当てる時である. 期待損失の最小化 (1/3) 単に誤識別率を減らすだけでは十分でない ケースがある(例えば,癌であるのに健康と診 断するのは,癌でないのに癌であると診断す るより罪が重い). →損失関数を導入しそれを最小化する (損失関数は未知である真のクラスの不確実 性 p(x, Ck ) に依存するため,損失の平均を考 える.) 期待損失の最小化 (2/3) 新たなxに対し,真のクラスが Ck で,xをクラスC j に割り当てたとする.そ の時の損失をLkj で表すと,それをk,j成分とする損失行列を考えることが 癌 正常 できる. 癌 0 1000 損失の平均(期待損失)は, 正常 1 0 E[ L] L p(x,C )dx k j Rj kj k で,これを最小化したい. →各xごとに L kj p(x,C k ) を最小化すればよい. k → p(x, Ck ) p(Ck | x) p(x) を用いて共通因子p(x)を取り除く →新たなxを以下の量が最小になるようなクラスjに割り当てればよい. L kj p(C k | x) k これは事後確率 p(Ck | x) が分かっていれば求まる. 期待損失の最小化 (3/3) L kj p(C k | x) の直感的な理解 癌 正常 0 1000 k 正常 1 0 i)新たなxをj=1のクラスに割り当てるとすると(癌であると診断すると) 癌 L11 p(C1| x) L21 p(C 2| x) 0 p(C1| x) 1 p(C 2| x) ii)新たなxをj=2のクラスに割り当てるとすると(正常であると診断すると) L12 p(C1| x) L22 p(C 2| x) 1000 p(C1| x) 0 p(C 2| x) i)とii)の小さくなるほうのjのクラスをこのxに割り当てればよい. 棄却オプション p(Ck | x) の最大値が1よりかなり小さい場合 →どのクラスに属するか不確か.決定を避ける ほうがいい場合もある. → p(Ck | x) の最大値がθ以下だったら棄却する. 推論と決定 決定までに3つの方法がある. a) p(x, Ck ) の推論問題を解き,ベイズの定理か ら事後確率 p(Ck | x)を求め,決定理論を用いる. b)事後確率 p(Ck | x) の推論問題を解き,決定理 論を用いる. c)推論と決定の問題を同時に解いて入力xから 直接クラスラベルに写像する識別関数f(x)を 求める. a)が一番大変でc)が一番楽. c)だと事後確率が出せない(事後確率が知りたい場合は数多くある). 回帰のための損失関数 (1/3) クラス分類問題ではなく,回帰問題の場合を 考える. 目標:入力ベクトルxと対応する目標変数tがあ り,新たなxの値に対するtを予測する. 前提:同時確率分布p(x,t)は推論問題を解くこと で求まっているとする. 決定段階でやること:各入力xに対して,目標変 数tの値に対する良い推定値y(x)を選ぶ. 回帰のための損失関数 (2/3) 損失関数 L(t , y (x)) の期待損失を考える. E[ L] L(t , y (x)) p (x, t )dxdt 目標:E[L]を最小にするy(x)を選ぶこと 2 L ( t , y ( x )) { y ( x ) t } 二乗誤差 の場合,変分法で, E[ L] 2 y (x) tp(x, t )dt 0 y (x) となり,これより, tp(x, t )dt y ( x) p ( x) tp(t | x)dt E [t | x] t を得る. y(x)の最適解は条件付き平均となる. 回帰のための損失関数 (3/3) 期待二乗誤差を最小にする回帰関数y(x)は,条件付き分布 p(t|x)の平均で与えられる. まとめ • • • • 推論→決定 決定の仕方(誤識別率,期待損失,棄却) 決定までの3通りのアプローチ クラス分類問題と回帰問題
© Copyright 2024 ExpyDoc