スライド - 名古屋工業大学 竹内研究室

ニューラル情報処理第 07 回
分類問題とベイズ決定理論
竹内一郎
名古屋工業大学
Ichiro Takeuchi, Nagoya Institute of Technology
1/16
前回の課題の解答
Ichiro Takeuchi, Nagoya Institute of Technology
2/16
クラス分類 (=パターン認識) 問題とは
▶
▶
特徴ベクトル x ∈ Rd からクラスラベル y を決定する
例 1: 文字認識
▶
▶
▶
x ∈ R16×16 : 画素値
y ∈ {0, 1, . . . , 9}: 文字コード
例 2: 遺伝子診断の例
▶
▶
x ∈ R10000 : 遺伝子発現量
y ∈ { 健康, 病気 }
Ichiro Takeuchi, Nagoya Institute of Technology
3/16
クラス分類問題の定式化
▶
誤った決定をすればコストが生じる
▶
▶
▶
クラス分類問題はなぜ難しいのか?
▶
▶
▶
郵便番号認識の失敗 → 誤配達
遺伝子診断の失敗 → 副作用, 症状の悪化
パターン x にはバラツキがある
パターンのバラツキを確率を使って表現する
ベイズ決定理論
Ichiro Takeuchi, Nagoya Institute of Technology
4/16
例題: 鮭と鱈を分類せよ
鮭
Ichiro Takeuchi, Nagoya Institute of Technology
鱈
5/16
事象、確率、事前確率
▶
▶
鮭, 鱈を観測する事象をそれぞれ ω1 , ω2 とする
事前確率
▶
▶
▶
P (ω1 ) = 0.4: 鮭が穫れる確率が 40%
P (ω2 ) = 0.6: 鱈が穫れる確率が 60%
P (ω1 ), P (ω2 ) などを事前確率 (prior probability) という
あとで, 事後確率 (poteroir probability) と呼ばれるもの
も出てくる
Ichiro Takeuchi, Nagoya Institute of Technology
6/16
魚を見ないで認識したら
▶
▶
▶
▶
▶
P (ω1 ) = 0.4, P (ω2 ) = 0.6
どのような決定規則が最適か?
誤分類率 = (誤分類数)/(すべての分類した数)
誤分類率が最小になる決定規則
{
ω1 if P (ω1 ) > P (ω2 )
ω=
ω2 if P (ω1 ) < P (ω2 )
誤分類率 = 0.4
Ichiro Takeuchi, Nagoya Institute of Technology
7/16
特徴量とクラス条件付確率
▶
事前確率のみを用いて分類するのは現実的でない
▶
特徴量 x (長さ, 色, 眼の位置, ヒレの位置, etc)
▶
特徴量 x にはバラツキがある:
▶
特徴量 x の確率分布 p(x) を考える
▶
特徴量の確率分布が鮭と鱈で異なっている
Ichiro Takeuchi, Nagoya Institute of Technology
8/16
確率の復習
▶
確率の復習
▶
▶
▶
▶
確率 P (ω1 ), P (ω2 ), p(x)
同時確率 P (ω1 , x), P (ω2 , x)
条件付確率 P (ω1 | x), P (ω2 | x), P (x | ω1 ), P (x | ω2 )
同時確率と条件付確率の関係
P (ω1 , x) = P (ω1 | x)p(x) = P (x | ω1 )P (ω1 )
P (ω2 , x) = P (ω2 | x)p(x) = P (x | ω2 )P (ω2 )
▶
例題に戻って
▶
▶
鮭の特徴量の分布 p(x | ω1 )
鱈の特徴量の分布 p(x | ω2 )
Ichiro Takeuchi, Nagoya Institute of Technology
9/16
事後確率とベイズの公式
▶
▶
事後確率 P (ω1 |x), P (ω2 |x)
事前確率を用いたクラス分類
{
ω1 if P (ω1 ) > P (ω2 )
ω=
ω2 if P (ω1 ) < P (ω2 )
▶
事後確率を用いたクラス分類
{
ω1 if P (ω1 |x) > P (ω2 |x)
ω=
ω2 if P (ω1 |x) < P (ω2 |x)
▶
ベイズの公式
P (ωj |x) =
Ichiro Takeuchi, Nagoya Institute of Technology
p(x|ωj )P (ωj )
, j = 1, 2
p(x)
10/16
練習問題
▶
ベイズの公式を導出せよ
Ichiro Takeuchi, Nagoya Institute of Technology
11/16
ベイズの公式の意味
▶
ベイズの公式
P (ωj |x) =
▶
▶
▶
▶
事前確率 P (ωj ) から事後確率 P (ωj |x) を求める方法
特徴量 x を観察する前後で鮭と鱈の確率がどのように
変わるか?
ベイズ決定規則
{
ω1 if P (ω1 |x) > P (ω2 |x)
ω=
ω2 if P (ω1 |x) < P (ω2 |x)
誤分類率
P (error|x) =
▶
p(x|ωj )P (ωj )
, j = 1, 2
p(x)
{
P (ω1 |x) if we decide ω = ω2
P (ω2 |x) if we decide ω = ω1
ベイズ決定規則は誤分類率を最小にする
Ichiro Takeuchi, Nagoya Institute of Technology
12/16
ベイズ決定規則による分類
▶
ベイズ決定規則により分類を行うだけなら, 特徴量の確
率 P (X) を知る必要はない
⇐⇒
⇐⇒
▶
P (ω1 |x) > P (ω2 |x)
p(x|ω1 )P (ω1 )
p(x|ω2 )P (ω2 )
>
p(x)
p(x)
p(x|ω1 )P (ω1 ) > p(x|ω2 )P (ω2 )
ベイズ決定規則の誤分類率は以下のように計算される
∫
P (x) min{P (ω1 |xk ), P (ω2 |xk )}dx
x
▶
特徴量が離散値 x1 , x2 , . . . , xK をとる場合,
K
∑
P (xk ) min{P (ω1 |xk ), P (ω2 |xk )}
k=1
Ichiro Takeuchi, Nagoya Institute of Technology
13/16
最終課題 (その 1)
▶
鮭と鱈である事象をそれぞれ ω1 , ω2 とし、それぞれの
事前確率が
P (ω1 ) = 0.4, P (ω2 ) = 0.6
であるとする. また, それぞれのクラス条件付き確率は
以下のように与えられているとする
0.6
Salmon
0.5
0.5
0.4
0.4
Frequency
Frequency
0.6
0.3
0.3
0.2
0.2
0.1
0.1
0
Tilesius
0
20
25
30
35
Length
Ichiro Takeuchi, Nagoya Institute of Technology
40
45
20
25
30
35
40
45
Length
14/16
最終課題 (その 2)
1. この問題に事前確率のみを用いた分類を行ったときの
誤分類率を求めよ.
2. x = 20, 25, 30, 35, 40, 45 それぞれにおいて, ベイズ識別
規則を用いると鮭と鱈どちらに分類されるか答えよ.
3. x = 20, 25, 30, 35, 40, 45 それぞれに対する事後確率
P (ω1 |x), P (ω2 |x) を求めよ.
4. この問題にベイズ決定規則を用いた分類を行ったとき
の誤分類率を求めよ.
Ichiro Takeuchi, Nagoya Institute of Technology
15/16