Document

はじめてのパターン認識
第4章(後半)
ソフトウェアシステム研究G
B4 廣田 健敏
概要
• 4.2 確率モデル
• 正規分布関数
• 正規分布から導かれる識別関数
• 4.3 確率モデルパラメータの最尤推定
確率モデル
• パラメトリックモデル
→ 学習データから推定した統計量を用いて
構成した確率モデルで分布を表現
• ノンパラメトリックモデル
→ 特定のモデルを仮定せず,学習データそ
のものを用いてデータの分布を表現
確率モデル
• ノンパラメトリックモデル
• ヒストグラム法
• K最近傍法(第5章)
• パルツェン密度推定法
確率モデル
• パラメトリックモデル
• 離散的なモデル
• 二項分布
• 多項分布
• ポアソン分布
• 連続的なモデル
• 一様分布
• 指数分布
• 正規分布
正規分布関数の性質(p45,p46)
• 多くの観測データが正規分布に従う
• 正規分布と仮定することにより解析的な解が得られる
• データが正規分布をしていなくても,標本平均の分布は
正規分布になる(中心極限定理)
• 確率分布が平均値と共分散の二つのパラメータで決まる
• 正規分布をしているデータの線形変換で得られる分布は,
再び正規分布になる
• 正規分布をする複数の確率変数の線形和は,正規分布と
なる.(再生性)
• 正規分布の周辺分布も正規分布となる
• 正規分布に限り,無相関であることと統計的に独立であ
ることが等価である.よって,共分散行列を対角化でき,
統計的に独立な要素に分解できる.
正規分布関数
• 1 次元正規分布関数
𝑁 𝒙 𝝁, 𝜎 2
1
𝑥−𝜇
=
exp −
2𝜎 2
2π𝜎
2
• 多次元正規分布関数
𝑁 𝒙 𝝁, 𝜮 =
1
2π 𝑑 2 𝜮 1
2 exp −
1
2
𝒙 − 𝝁 𝑇 𝜮−1 𝒙 − 𝝁
𝜎 2 → 𝜮,1/ 𝜎 2 →𝜮−1 , 𝑥 − 𝜇 2 → 𝒙 − 𝝁
𝑇
𝒙−𝝁
正規分布関数
• マハラノビス距離
𝑑 𝒙, 𝝁 =
𝒙 − 𝝁 𝑇 𝜮−1 𝒙 − 𝝁
• 共分散行列により重みが付き,
方向によって距離が違う
正規分布から導かれる識別関数
• クラス条件付き確率
p 𝒙 𝝁, 𝜮 =
1
2π 𝑑 2 𝜮𝑖 1
2 exp
1
−
2
𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊
• 事後確率
𝑃 𝐶𝑖 𝒙 =
𝑃
∝
𝒙 𝐶𝑖
𝑃(𝐶𝑖 )
𝑝(𝒙)
P(𝐶𝑖 )
2π d 2 𝜮𝑖 1 2
exp
1
−
2
𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊
正規分布から導かれる識別関数
𝑃 𝐶𝑖 𝒙 ∝
𝑃(𝐶𝑖 )
2π d 2 𝜮𝑖 1 2
exp −
1
2
𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊
対数をとると
ln 𝑃 𝐶𝑖 −ln(2𝜋) −
1
2
ln|𝜮𝑖 |−
1
2
𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊
これを最大化する
• 簡単化するため(-2)倍したものを評価関数とする
𝑔𝑖 𝒙 = 𝒙 −
−1
𝑇
𝝁𝒊 𝜮𝑖
𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
この関数を最小化,つまり
識別クラス= arg min 𝑔𝑖 𝒙
𝑖
正規分布から導かれる識別関数
• クラスiとjの識別境界
• 𝑔𝑖 𝒙 > 𝑔𝑗 𝒙 のときクラスi
• 𝑔𝑖 𝒙 < 𝑔𝑗 𝒙 のときクラスj
• 𝑓𝑖𝑗 𝒙 = 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 = 0 を解けばよい
• (4.32)式を解く
(4.32)
𝑔𝑖 𝒙 − 𝑔𝑗 𝒙
−1
𝑇
= 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
−1
𝑇
− 𝒙 − 𝝁𝒋 𝜮𝑗
𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗
−1
𝑇
= 𝒙 (𝜮𝑖
+
−𝜮𝑗
−1
𝑇
𝝁𝑖 𝜮𝑖
−1
𝝁𝑖 −
)𝒙+2
−1
𝑇
(𝝁𝑗 𝜮𝑗
−1
𝑇
𝝁𝑗 𝜮𝑗
= 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
−1
𝑇
−𝝁𝑖 𝜮𝑖 )
𝒙
|𝜮𝑖 |
𝑃 𝐶𝑖
𝝁𝑗 + ln
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
(4.32)
𝑔𝑖 𝒙 − 𝑔𝑗 𝒙
−1
𝑇
= 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
−1
𝑇
− 𝒙 − 𝝁𝒋 𝜮𝑗
𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗
−1
𝑇
= 𝒙 (𝜮𝑖
+
−𝜮𝑗
−1
𝑇
𝝁𝑖 𝜮𝑖
−1
𝝁𝑖 −
)𝒙+2
−1
𝑇
(𝝁𝑗 𝜮𝑗
−1
𝑇
𝝁𝑗 𝜮𝑗
= 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
−1
𝑇
−𝝁𝑖 𝜮𝑖 )
𝒙
|𝜮𝑖 |
𝑃 𝐶𝑖
𝝁𝑗 + ln
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
(4.32)
𝑔𝑖 𝒙 − 𝑔𝑗 𝒙
−1
𝑇
= 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
−1
𝑇
− 𝒙 − 𝝁𝒋 𝜮𝑗
𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗
−1
𝑇
= 𝒙 (𝜮𝑖
+
−𝜮𝑗
−1
𝑇
𝝁𝑖 𝜮𝑖
−1
𝝁𝑖 −
)𝒙+2
−1
𝑇
(𝝁𝑗 𝜮𝑗
−1
𝑇
𝝁𝑗 𝜮𝑗
= 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
−1
𝑇
−𝝁𝑖 𝜮𝑖 )
𝒙
|𝜮𝑖 |
𝑃 𝐶𝑖
𝝁𝑗 + ln
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
(4.32)
𝑔𝑖 𝒙 − 𝑔𝑗 𝒙
−1
𝑇
= 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
−1
𝑇
− 𝒙 − 𝝁𝒋 𝜮𝑗
𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗
−1
𝑇
= 𝒙 (𝜮𝑖
+
−𝜮𝑗
−1
𝑇
𝝁𝑖 𝜮𝑖
−1
𝝁𝑖 −
)𝒙+2
−1
𝑇
(𝝁𝑗 𝜮𝑗
−1
𝑇
𝝁𝑗 𝜮𝑗
= 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
−1
𝑇
−𝝁𝑖 𝜮𝑖 )
𝒙
|𝜮𝑖 |
𝑃 𝐶𝑖
𝝁𝑗 + ln
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
二次曲面
識別二次曲面のイメージ
分布の大きさや向きはバラバラであり
識別関数は二次形式になる
(4.32)
𝑔𝑖 𝒙 − 𝑔𝑗 𝒙
−1
𝑇
= 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖
−1
𝑇
− 𝒙 − 𝝁𝒋 𝜮𝑗
𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗
−1
𝑇
= 𝒙 (𝜮𝑖
+
−𝜮𝑗
−1
𝑇
𝝁𝑖 𝜮𝑖
−1
𝝁𝑖 −
)𝒙+2
−1
𝑇
(𝝁𝑗 𝜮𝑗
−1
𝑇
𝝁𝑗 𝜮𝑗
𝒙
|𝜮𝑖 |
𝑃 𝐶𝑖
𝝁𝑗 + ln
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
ミス
= 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
−1
𝑇
−𝝁𝑖 𝜮𝑖 )
線形識別関数(1次式)
• 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
• S =𝜮𝑖 −1 −𝜮𝑗 −1 = 0
のとき(𝜮𝑖 =𝜮𝑗 )
• 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0 (4.33)
線形識別関数
線形識別関数のイメージ
𝜮𝑖 =𝜮𝑗 共分散行列が等しいとき各クラスの分布
(大きさ,向き)が等しくなり線形識別関数となる
さらに…
• 𝜮=𝜎𝐈 (𝜮−1 =𝜎 −1 𝐈)
• 2つのクラスの共分散行列が同じ等方性分散
• かつ事前確率𝑃 𝐶𝑖 =𝑃 𝐶𝑗
𝑓𝑖𝑗 𝒙 =2 (𝝁𝑗 𝑇 𝜮𝑗 −1 −𝝁𝑖 𝑇 𝜮𝑖
+ 𝝁𝑖 𝑇 𝜮𝑖
−1
−1
)𝒙
| 𝜮𝑖 |
𝑃 𝐶𝑖
−2ln
𝑃 𝐶𝑗
|𝜮𝑗 |
𝒙 + 𝜎 −1 (𝝁𝑖 𝑇 𝝁𝑖 − 𝝁𝑗 𝑇 𝝁𝑗 )=0
𝝁𝑖 − 𝝁𝑗 𝑇 𝜮𝑗
=2 𝜎 −1 𝝁𝑗 𝑇 − 𝝁𝑖 𝑇
−1
𝝁𝑗 + ln
2 𝝁𝑗 𝑇 − 𝝁𝑖 𝑇 𝒙 + (𝝁𝑖 𝑇 𝝁𝑖 − 𝝁𝑗 𝑇 𝝁𝑗 )
= 𝒙𝑇 𝒙 - 2𝝁𝑖 𝑇 𝒙 + 𝝁𝑖 𝑇 𝝁𝑖 - 𝒙𝑇 𝒙 + 2𝝁𝑗 𝑇 𝒙 - 𝝁𝑗 𝑇 𝝁𝑗
= 𝒙 − 𝝁𝑖
𝑇
𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗
𝑇
𝒙 − 𝝁𝑗
=𝟎
等方性分散
•
𝒙 − 𝝁𝑖
𝑇
𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗
𝑇
𝒙 − 𝝁𝑗
=𝟎
―これは何を表す??
𝒙 − 𝝁𝑖 𝑇 𝒙 − 𝝁𝑖 はデータ𝒙 と
iクラス平均とのユークリッド距離
• 等方性分散を持つとき2クラスの識別境界は
ユークリッド距離を用いて示される(最近傍法)
識別関数のイメージ
𝜮=𝜎𝐈(対角成分以外が0)のとき,
共分散は 0となり方向による距離の重みがなくなる
等方性分散を持つ
(2次で考えると円)
正規分布から導かれる識別関数(まとめ)
• 𝑓𝑖𝑗 𝒙 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
• 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0
• 𝑓𝑖𝑗 𝒙 = 𝒙 − 𝝁𝑖
𝜮=𝜎𝐈
𝑇
基本形
𝜮𝑖 =𝜮𝑗 のとき
𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗
かつ
𝑇
𝒙 − 𝝁𝑗
𝑃 𝐶𝑖 =𝑃 𝐶𝑗 のとき
=𝟎
𝜮𝑖 =𝜮𝑗 となるか?
• 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0
• S =𝜮𝑖 −1 −𝜮𝑗 −1 = 0
• 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0
のとき
線形識別関数
• 実際には𝜮𝑖 ≠ 𝜮𝑗 のことがほとんど!!
• 事前確率を重みとした共分散行列を考える
新しい𝜮(𝜮𝑖 , 𝜮𝑗 の代わり)を考える
• 𝜮pool = 𝑃 𝐶𝑖 𝜮𝑖 +𝑃 𝐶𝑗 𝜮𝑗
事前確率を重みとした共分散行列
1
• 𝜮𝑖 =
𝑁𝑖
𝑁𝑖
𝑗=1
𝒙 − 𝝁𝒋
𝒙 − 𝝁𝒊
𝑇
1
= 𝑺𝑖
𝑁𝑖
∴ 𝑁𝑖 𝜮𝑖 = 𝑺𝑖 ( 𝑺𝑖 : クラス内変動行列)
• 2クラスで考えるとき
• 𝜮pool =
𝑁1
𝑁2
1
𝜮1 + 𝜮2 = (𝑺1 +𝑺2 )
𝑁
𝑁
𝑁
なぜ簡単にするのか?
• モデルが複雑なほど良い汎化能力が得
られるわけではない
確率モデルパラメータの最尤推定
• 学習データ𝒙𝑖 (i= 1,…,N)は真の分布f 𝒙
から独立にサンプルされたもの
f 𝒙 をパラメータ𝜃を用いた
確率モデル f 𝒙 𝜃 であらわす
• f 𝒙 𝜃 に従うN個のデータの同時分布
• サンプルの独立性より
f 𝒙𝟏 , … , 𝒙𝑵 𝜃 =
𝑁
𝑖=1 f
𝒙𝑖 𝜃
確率モデルパラメータの最尤推定
• L(𝜃)=f 𝒙𝟏 , … , 𝒙𝑵 𝜃 であらわす
• 尤度を最大にする𝜃を求める(最尤推定法)
• 簡単化のため対数尤度関数 ℒ(𝜃)
• 微分して0となる𝜃を求める
1 変数の正規分布の場合
• L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2
𝒙𝑖 −𝜇 2
=
−
2𝜎 2
−𝑁
1
2
= (2𝜋𝜎 2 ) 2 exp(− 2 𝑁
𝒙
−
𝜇
)
𝑖=1 𝑖
2𝜎
𝑁
𝑁
1
2
2
2
ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁
𝒙
−
𝜇
𝑖=1 𝑖
2
2
2𝜎
1
𝑁
𝑖=1 2π𝜎 exp
•
•
•
•
𝜕ℒ(𝜇,𝜎 2 )
𝜕𝜇
=
1
𝜎2
𝑁
𝑖=1
𝒙𝑖 − 𝜇 = 0
𝜕ℒ(𝜇,𝜎 2 )
1 1
1
=− 2− 2 2
𝜕𝜎 2
𝑁𝜎
(2𝜎 )
2
𝜎2 = 𝑁
𝑖=1 𝒙𝑖 − 𝜇
𝑁
𝑖=1
𝜇=
𝒙𝑖 − 𝜇
2
1
𝑁
=0
𝑁
𝑖=1 𝒙𝑖
1 変数の正規分布の場合
• L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2
𝒙𝑖 −𝜇 2
=
−
2𝜎 2
−𝑁
1
対数をとる
2
= (2𝜋𝜎 2 ) 2 exp(− 2 𝑁
𝒙
−
𝜇
)
𝑖=1 𝑖
2𝜎
𝑁
𝑁
1
2
2
2
ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁
𝒙
−
𝜇
𝑖=1 𝑖
2
2
2𝜎
1
𝑁
𝑖=1 2π𝜎 exp
•
•
•
•
𝜕ℒ(𝜇,𝜎 2 )
𝜕𝜇
=
1
𝜎2
𝑁
𝑖=1
𝒙𝑖 − 𝜇 = 0
𝜕ℒ(𝜇,𝜎 2 )
1 1
1
=− 2− 2 2
𝜕𝜎 2
𝑁𝜎
(2𝜎 )
2
𝜎2 = 𝑁
𝑖=1 𝒙𝑖 − 𝜇
𝑁
𝑖=1
𝜇=
𝒙𝑖 − 𝜇
2
1
𝑁
=0
𝑁
𝑖=1 𝒙𝑖
1 変数の正規分布の場合
• L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2
𝒙𝑖 −𝜇 2
=
−
2𝜎 2
−𝑁
1
2
= (2𝜋𝜎 2 ) 2 exp(− 2 𝑁
𝒙
−
𝜇
)
𝑖=1 𝑖
2𝜎
𝑁
𝑁
1
2
2
2
で微分して平均を求める
ℒ(𝜇, 𝜎 )= − ln(2𝜋) − 𝜇ln
𝜎 − 2 𝑁
𝒙
−
𝜇
𝑖=1 𝑖
2
2
2𝜎
1
𝑁
𝑖=1 2π𝜎 exp
•
•
•
•
𝜕ℒ(𝜇,𝜎 2 )
𝜕𝜇
=
1
𝜎2
𝑁
𝑖=1
𝒙𝑖 − 𝜇 = 0
𝜕ℒ(𝜇,𝜎 2 )
1 1
1
=− 2− 2 2
𝜕𝜎 2
𝑁𝜎
(2𝜎 )
2
𝜎2 = 𝑁
𝑖=1 𝒙𝑖 − 𝜇
𝑁
𝑖=1
𝜇=
𝒙𝑖 − 𝜇
2
1
𝑁
=0
𝑁
𝑖=1 𝒙𝑖
1 変数の正規分布の場合
• L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2
𝒙𝑖 −𝜇 2
=
−
2𝜎 2
−𝑁
1
2
= (2𝜋𝜎 2 ) 2 exp(− 2 𝑁
𝒙
−
𝜇
)
𝑖=1 𝑖
2𝜎
𝑁
𝑁
1
2
2
2
ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁
𝒙
−
𝜇
𝑖=1 𝑖
2
2
2𝜎
1
𝑁
𝑖=1 2π𝜎 exp
•
•
•
•
𝜕ℒ(𝜇,𝜎 2 )
𝜕𝜇
=
1
𝜎2
𝑁
𝑖=1
2
1 𝑁
𝜎
で微分して平均を求める
𝒙𝑖 − 𝜇 = 0
𝜇=
𝑖=1 𝒙𝑖
𝜕ℒ(𝜇,𝜎 2 )
1 1
1
=− 2− 2 2
𝜕𝜎 2
𝑁𝜎
(2𝜎 )
2
𝜎2 = 𝑁
𝑖=1 𝒙𝑖 − 𝜇
𝑁
𝑁
𝑖=1
𝒙𝑖 − 𝜇
2
=0