はじめてのパターン認識 第4章(後半) ソフトウェアシステム研究G B4 廣田 健敏 概要 • 4.2 確率モデル • 正規分布関数 • 正規分布から導かれる識別関数 • 4.3 確率モデルパラメータの最尤推定 確率モデル • パラメトリックモデル → 学習データから推定した統計量を用いて 構成した確率モデルで分布を表現 • ノンパラメトリックモデル → 特定のモデルを仮定せず,学習データそ のものを用いてデータの分布を表現 確率モデル • ノンパラメトリックモデル • ヒストグラム法 • K最近傍法(第5章) • パルツェン密度推定法 確率モデル • パラメトリックモデル • 離散的なモデル • 二項分布 • 多項分布 • ポアソン分布 • 連続的なモデル • 一様分布 • 指数分布 • 正規分布 正規分布関数の性質(p45,p46) • 多くの観測データが正規分布に従う • 正規分布と仮定することにより解析的な解が得られる • データが正規分布をしていなくても,標本平均の分布は 正規分布になる(中心極限定理) • 確率分布が平均値と共分散の二つのパラメータで決まる • 正規分布をしているデータの線形変換で得られる分布は, 再び正規分布になる • 正規分布をする複数の確率変数の線形和は,正規分布と なる.(再生性) • 正規分布の周辺分布も正規分布となる • 正規分布に限り,無相関であることと統計的に独立であ ることが等価である.よって,共分散行列を対角化でき, 統計的に独立な要素に分解できる. 正規分布関数 • 1 次元正規分布関数 𝑁 𝒙 𝝁, 𝜎 2 1 𝑥−𝜇 = exp − 2𝜎 2 2π𝜎 2 • 多次元正規分布関数 𝑁 𝒙 𝝁, 𝜮 = 1 2π 𝑑 2 𝜮 1 2 exp − 1 2 𝒙 − 𝝁 𝑇 𝜮−1 𝒙 − 𝝁 𝜎 2 → 𝜮,1/ 𝜎 2 →𝜮−1 , 𝑥 − 𝜇 2 → 𝒙 − 𝝁 𝑇 𝒙−𝝁 正規分布関数 • マハラノビス距離 𝑑 𝒙, 𝝁 = 𝒙 − 𝝁 𝑇 𝜮−1 𝒙 − 𝝁 • 共分散行列により重みが付き, 方向によって距離が違う 正規分布から導かれる識別関数 • クラス条件付き確率 p 𝒙 𝝁, 𝜮 = 1 2π 𝑑 2 𝜮𝑖 1 2 exp 1 − 2 𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊 • 事後確率 𝑃 𝐶𝑖 𝒙 = 𝑃 ∝ 𝒙 𝐶𝑖 𝑃(𝐶𝑖 ) 𝑝(𝒙) P(𝐶𝑖 ) 2π d 2 𝜮𝑖 1 2 exp 1 − 2 𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊 正規分布から導かれる識別関数 𝑃 𝐶𝑖 𝒙 ∝ 𝑃(𝐶𝑖 ) 2π d 2 𝜮𝑖 1 2 exp − 1 2 𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊 対数をとると ln 𝑃 𝐶𝑖 −ln(2𝜋) − 1 2 ln|𝜮𝑖 |− 1 2 𝒙 − 𝝁𝒊 𝑇 𝜮𝑖 −1 𝒙 − 𝝁𝒊 これを最大化する • 簡単化するため(-2)倍したものを評価関数とする 𝑔𝑖 𝒙 = 𝒙 − −1 𝑇 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 この関数を最小化,つまり 識別クラス= arg min 𝑔𝑖 𝒙 𝑖 正規分布から導かれる識別関数 • クラスiとjの識別境界 • 𝑔𝑖 𝒙 > 𝑔𝑗 𝒙 のときクラスi • 𝑔𝑖 𝒙 < 𝑔𝑗 𝒙 のときクラスj • 𝑓𝑖𝑗 𝒙 = 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 = 0 を解けばよい • (4.32)式を解く (4.32) 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 −1 𝑇 = 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 −1 𝑇 − 𝒙 − 𝝁𝒋 𝜮𝑗 𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗 −1 𝑇 = 𝒙 (𝜮𝑖 + −𝜮𝑗 −1 𝑇 𝝁𝑖 𝜮𝑖 −1 𝝁𝑖 − )𝒙+2 −1 𝑇 (𝝁𝑗 𝜮𝑗 −1 𝑇 𝝁𝑗 𝜮𝑗 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 −1 𝑇 −𝝁𝑖 𝜮𝑖 ) 𝒙 |𝜮𝑖 | 𝑃 𝐶𝑖 𝝁𝑗 + ln −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | (4.32) 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 −1 𝑇 = 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 −1 𝑇 − 𝒙 − 𝝁𝒋 𝜮𝑗 𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗 −1 𝑇 = 𝒙 (𝜮𝑖 + −𝜮𝑗 −1 𝑇 𝝁𝑖 𝜮𝑖 −1 𝝁𝑖 − )𝒙+2 −1 𝑇 (𝝁𝑗 𝜮𝑗 −1 𝑇 𝝁𝑗 𝜮𝑗 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 −1 𝑇 −𝝁𝑖 𝜮𝑖 ) 𝒙 |𝜮𝑖 | 𝑃 𝐶𝑖 𝝁𝑗 + ln −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | (4.32) 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 −1 𝑇 = 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 −1 𝑇 − 𝒙 − 𝝁𝒋 𝜮𝑗 𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗 −1 𝑇 = 𝒙 (𝜮𝑖 + −𝜮𝑗 −1 𝑇 𝝁𝑖 𝜮𝑖 −1 𝝁𝑖 − )𝒙+2 −1 𝑇 (𝝁𝑗 𝜮𝑗 −1 𝑇 𝝁𝑗 𝜮𝑗 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 −1 𝑇 −𝝁𝑖 𝜮𝑖 ) 𝒙 |𝜮𝑖 | 𝑃 𝐶𝑖 𝝁𝑗 + ln −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | (4.32) 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 −1 𝑇 = 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 −1 𝑇 − 𝒙 − 𝝁𝒋 𝜮𝑗 𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗 −1 𝑇 = 𝒙 (𝜮𝑖 + −𝜮𝑗 −1 𝑇 𝝁𝑖 𝜮𝑖 −1 𝝁𝑖 − )𝒙+2 −1 𝑇 (𝝁𝑗 𝜮𝑗 −1 𝑇 𝝁𝑗 𝜮𝑗 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 −1 𝑇 −𝝁𝑖 𝜮𝑖 ) 𝒙 |𝜮𝑖 | 𝑃 𝐶𝑖 𝝁𝑗 + ln −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | 二次曲面 識別二次曲面のイメージ 分布の大きさや向きはバラバラであり 識別関数は二次形式になる (4.32) 𝑔𝑖 𝒙 − 𝑔𝑗 𝒙 −1 𝑇 = 𝒙 − 𝝁𝒊 𝜮𝑖 𝒙 − 𝝁𝒊 + ln|𝜮𝑖 |−2 ln 𝑃 𝐶𝑖 −1 𝑇 − 𝒙 − 𝝁𝒋 𝜮𝑗 𝒙 − 𝝁𝒋 − ln|𝜮𝑗 |+2 ln 𝑃 𝐶𝑗 −1 𝑇 = 𝒙 (𝜮𝑖 + −𝜮𝑗 −1 𝑇 𝝁𝑖 𝜮𝑖 −1 𝝁𝑖 − )𝒙+2 −1 𝑇 (𝝁𝑗 𝜮𝑗 −1 𝑇 𝝁𝑗 𝜮𝑗 𝒙 |𝜮𝑖 | 𝑃 𝐶𝑖 𝝁𝑗 + ln −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | ミス = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 −1 𝑇 −𝝁𝑖 𝜮𝑖 ) 線形識別関数(1次式) • 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 • S =𝜮𝑖 −1 −𝜮𝑗 −1 = 0 のとき(𝜮𝑖 =𝜮𝑗 ) • 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0 (4.33) 線形識別関数 線形識別関数のイメージ 𝜮𝑖 =𝜮𝑗 共分散行列が等しいとき各クラスの分布 (大きさ,向き)が等しくなり線形識別関数となる さらに… • 𝜮=𝜎𝐈 (𝜮−1 =𝜎 −1 𝐈) • 2つのクラスの共分散行列が同じ等方性分散 • かつ事前確率𝑃 𝐶𝑖 =𝑃 𝐶𝑗 𝑓𝑖𝑗 𝒙 =2 (𝝁𝑗 𝑇 𝜮𝑗 −1 −𝝁𝑖 𝑇 𝜮𝑖 + 𝝁𝑖 𝑇 𝜮𝑖 −1 −1 )𝒙 | 𝜮𝑖 | 𝑃 𝐶𝑖 −2ln 𝑃 𝐶𝑗 |𝜮𝑗 | 𝒙 + 𝜎 −1 (𝝁𝑖 𝑇 𝝁𝑖 − 𝝁𝑗 𝑇 𝝁𝑗 )=0 𝝁𝑖 − 𝝁𝑗 𝑇 𝜮𝑗 =2 𝜎 −1 𝝁𝑗 𝑇 − 𝝁𝑖 𝑇 −1 𝝁𝑗 + ln 2 𝝁𝑗 𝑇 − 𝝁𝑖 𝑇 𝒙 + (𝝁𝑖 𝑇 𝝁𝑖 − 𝝁𝑗 𝑇 𝝁𝑗 ) = 𝒙𝑇 𝒙 - 2𝝁𝑖 𝑇 𝒙 + 𝝁𝑖 𝑇 𝝁𝑖 - 𝒙𝑇 𝒙 + 2𝝁𝑗 𝑇 𝒙 - 𝝁𝑗 𝑇 𝝁𝑗 = 𝒙 − 𝝁𝑖 𝑇 𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗 𝑇 𝒙 − 𝝁𝑗 =𝟎 等方性分散 • 𝒙 − 𝝁𝑖 𝑇 𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗 𝑇 𝒙 − 𝝁𝑗 =𝟎 ―これは何を表す?? 𝒙 − 𝝁𝑖 𝑇 𝒙 − 𝝁𝑖 はデータ𝒙 と iクラス平均とのユークリッド距離 • 等方性分散を持つとき2クラスの識別境界は ユークリッド距離を用いて示される(最近傍法) 識別関数のイメージ 𝜮=𝜎𝐈(対角成分以外が0)のとき, 共分散は 0となり方向による距離の重みがなくなる 等方性分散を持つ (2次で考えると円) 正規分布から導かれる識別関数(まとめ) • 𝑓𝑖𝑗 𝒙 = 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 • 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0 • 𝑓𝑖𝑗 𝒙 = 𝒙 − 𝝁𝑖 𝜮=𝜎𝐈 𝑇 基本形 𝜮𝑖 =𝜮𝑗 のとき 𝒙 − 𝝁𝑖 − 𝒙 − 𝝁𝑗 かつ 𝑇 𝒙 − 𝝁𝑗 𝑃 𝐶𝑖 =𝑃 𝐶𝑗 のとき =𝟎 𝜮𝑖 =𝜮𝑗 となるか? • 𝒙𝑇 S𝒙 + 2 𝒄𝑇 𝒙 + F = 0 • S =𝜮𝑖 −1 −𝜮𝑗 −1 = 0 • 𝑓𝑖𝑗 𝒙 =2 𝒄𝑇 𝒙 + F = 0 のとき 線形識別関数 • 実際には𝜮𝑖 ≠ 𝜮𝑗 のことがほとんど!! • 事前確率を重みとした共分散行列を考える 新しい𝜮(𝜮𝑖 , 𝜮𝑗 の代わり)を考える • 𝜮pool = 𝑃 𝐶𝑖 𝜮𝑖 +𝑃 𝐶𝑗 𝜮𝑗 事前確率を重みとした共分散行列 1 • 𝜮𝑖 = 𝑁𝑖 𝑁𝑖 𝑗=1 𝒙 − 𝝁𝒋 𝒙 − 𝝁𝒊 𝑇 1 = 𝑺𝑖 𝑁𝑖 ∴ 𝑁𝑖 𝜮𝑖 = 𝑺𝑖 ( 𝑺𝑖 : クラス内変動行列) • 2クラスで考えるとき • 𝜮pool = 𝑁1 𝑁2 1 𝜮1 + 𝜮2 = (𝑺1 +𝑺2 ) 𝑁 𝑁 𝑁 なぜ簡単にするのか? • モデルが複雑なほど良い汎化能力が得 られるわけではない 確率モデルパラメータの最尤推定 • 学習データ𝒙𝑖 (i= 1,…,N)は真の分布f 𝒙 から独立にサンプルされたもの f 𝒙 をパラメータ𝜃を用いた 確率モデル f 𝒙 𝜃 であらわす • f 𝒙 𝜃 に従うN個のデータの同時分布 • サンプルの独立性より f 𝒙𝟏 , … , 𝒙𝑵 𝜃 = 𝑁 𝑖=1 f 𝒙𝑖 𝜃 確率モデルパラメータの最尤推定 • L(𝜃)=f 𝒙𝟏 , … , 𝒙𝑵 𝜃 であらわす • 尤度を最大にする𝜃を求める(最尤推定法) • 簡単化のため対数尤度関数 ℒ(𝜃) • 微分して0となる𝜃を求める 1 変数の正規分布の場合 • L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2 𝒙𝑖 −𝜇 2 = − 2𝜎 2 −𝑁 1 2 = (2𝜋𝜎 2 ) 2 exp(− 2 𝑁 𝒙 − 𝜇 ) 𝑖=1 𝑖 2𝜎 𝑁 𝑁 1 2 2 2 ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁 𝒙 − 𝜇 𝑖=1 𝑖 2 2 2𝜎 1 𝑁 𝑖=1 2π𝜎 exp • • • • 𝜕ℒ(𝜇,𝜎 2 ) 𝜕𝜇 = 1 𝜎2 𝑁 𝑖=1 𝒙𝑖 − 𝜇 = 0 𝜕ℒ(𝜇,𝜎 2 ) 1 1 1 =− 2− 2 2 𝜕𝜎 2 𝑁𝜎 (2𝜎 ) 2 𝜎2 = 𝑁 𝑖=1 𝒙𝑖 − 𝜇 𝑁 𝑖=1 𝜇= 𝒙𝑖 − 𝜇 2 1 𝑁 =0 𝑁 𝑖=1 𝒙𝑖 1 変数の正規分布の場合 • L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2 𝒙𝑖 −𝜇 2 = − 2𝜎 2 −𝑁 1 対数をとる 2 = (2𝜋𝜎 2 ) 2 exp(− 2 𝑁 𝒙 − 𝜇 ) 𝑖=1 𝑖 2𝜎 𝑁 𝑁 1 2 2 2 ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁 𝒙 − 𝜇 𝑖=1 𝑖 2 2 2𝜎 1 𝑁 𝑖=1 2π𝜎 exp • • • • 𝜕ℒ(𝜇,𝜎 2 ) 𝜕𝜇 = 1 𝜎2 𝑁 𝑖=1 𝒙𝑖 − 𝜇 = 0 𝜕ℒ(𝜇,𝜎 2 ) 1 1 1 =− 2− 2 2 𝜕𝜎 2 𝑁𝜎 (2𝜎 ) 2 𝜎2 = 𝑁 𝑖=1 𝒙𝑖 − 𝜇 𝑁 𝑖=1 𝜇= 𝒙𝑖 − 𝜇 2 1 𝑁 =0 𝑁 𝑖=1 𝒙𝑖 1 変数の正規分布の場合 • L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2 𝒙𝑖 −𝜇 2 = − 2𝜎 2 −𝑁 1 2 = (2𝜋𝜎 2 ) 2 exp(− 2 𝑁 𝒙 − 𝜇 ) 𝑖=1 𝑖 2𝜎 𝑁 𝑁 1 2 2 2 で微分して平均を求める ℒ(𝜇, 𝜎 )= − ln(2𝜋) − 𝜇ln 𝜎 − 2 𝑁 𝒙 − 𝜇 𝑖=1 𝑖 2 2 2𝜎 1 𝑁 𝑖=1 2π𝜎 exp • • • • 𝜕ℒ(𝜇,𝜎 2 ) 𝜕𝜇 = 1 𝜎2 𝑁 𝑖=1 𝒙𝑖 − 𝜇 = 0 𝜕ℒ(𝜇,𝜎 2 ) 1 1 1 =− 2− 2 2 𝜕𝜎 2 𝑁𝜎 (2𝜎 ) 2 𝜎2 = 𝑁 𝑖=1 𝒙𝑖 − 𝜇 𝑁 𝑖=1 𝜇= 𝒙𝑖 − 𝜇 2 1 𝑁 =0 𝑁 𝑖=1 𝒙𝑖 1 変数の正規分布の場合 • L(𝜇, 𝜎 2 ) = f 𝒙𝟏 , … , 𝒙𝑵 𝜇, 𝜎 2 𝒙𝑖 −𝜇 2 = − 2𝜎 2 −𝑁 1 2 = (2𝜋𝜎 2 ) 2 exp(− 2 𝑁 𝒙 − 𝜇 ) 𝑖=1 𝑖 2𝜎 𝑁 𝑁 1 2 2 2 ℒ(𝜇, 𝜎 )= − ln(2𝜋) − ln 𝜎 − 2 𝑁 𝒙 − 𝜇 𝑖=1 𝑖 2 2 2𝜎 1 𝑁 𝑖=1 2π𝜎 exp • • • • 𝜕ℒ(𝜇,𝜎 2 ) 𝜕𝜇 = 1 𝜎2 𝑁 𝑖=1 2 1 𝑁 𝜎 で微分して平均を求める 𝒙𝑖 − 𝜇 = 0 𝜇= 𝑖=1 𝒙𝑖 𝜕ℒ(𝜇,𝜎 2 ) 1 1 1 =− 2− 2 2 𝜕𝜎 2 𝑁𝜎 (2𝜎 ) 2 𝜎2 = 𝑁 𝑖=1 𝒙𝑖 − 𝜇 𝑁 𝑁 𝑖=1 𝒙𝑖 − 𝜇 2 =0
© Copyright 2024 ExpyDoc