パターン認識における 特異モデルの役割について 東京工業大学 渡辺澄夫 2015/10/1 Singularities in HMM 1 学習理論とは・・・ 時系列 未知の 情報源 x ={ x(1), x(2), .., x(T)} 時系列のたくさんの例 学習 確率モデル p(x | w) 2015/10/1 Singularities in HMM 2 学習理論の目的 1.順問題 情報源 例 ? モデル アルゴリズム 2.逆問題 不明 2015/10/1 例 最小 Singularities in HMM モデル アルゴリズム 最適化 3 特定可能性 x : 1個の時系列 p(x | w) 確率モデル p(x | w) が特定可能であるとは p(x| w1)= p(x| w2) (∀x) ⇒ w1=w2 特定可能でないとき、特定不能という 2015/10/1 Singularities in HMM 4 隠れマルコフモデル Start 時系列 0.7 a : 0.8, b:0.2 0.1 0.2 内部の状態は外からは不明 b : 0.5, c:0.5 c : 1.0 2015/10/1 Singularities in HMM a a b b c b c c 5 隠れマルコフモデルは特定不能 Start Start 0.5 1.0 a a q b 1-q 1-p p 0.5 b r q a r b 1-r 1 q = 0.5, p=0, r:自由 q = 0.5, r = 0.5, p:自由 p 2015/10/1 Singularities in HMM 6 構造⇔特定不能 W0 W 2015/10/1 W W0 Singularities in HMM 小さなモデルは 大きなモデルの中の 特異点を持つ解析的集合 7 特異モデルの性質 W=Rd: パラメータ全体の集合 W/~ 同値関係 w1~w2⇔「p(x|w1)= p(x|w2) (∀x)」 W/~ は特異点を持つ集合 2015/10/1 Singularities in HMM 8 統計的正則モデルと特異モデル 正則モデル 正規分布 指数分布 多項式回帰 特異モデル 隠れマルコフモデル 神経回路網 混合正規分布 ベイズネットワーク 縮小ランク回帰 ボルツマンマシン 隠れた部分がある学習モデルは特異モデルになる 2015/10/1 Singularities in HMM 9 なぜ特異モデルが必要か 1.データから構造を取り出したい 2.潜在(隠れ)変数を導入したい 3.未知の分布を効率よく近似したい 2015/10/1 Singularities in HMM 10 正則モデル:特異点なし 事後分布も最尤推定量の分布も正規分布に近づきます。 w0 パラメータ集合 ⇒ AIC, BIC, MDL などモデル選択, 検定法 2015/10/1 Singularities in HMM 11 特異モデルの問題 p(x|w0) D(w0||w) = ∫p(x|w0) log dx p(x|w) カルバック情報量 D(w0||w) =0 : 解析的集合 W 特異点 事後分布も最尤推定量の分布も正規分布には漸近しません。 2015/10/1 Singularities in HMM 12 最尤推測 真: q(x) 例{x1 ,x1 …xn} 学習者 : p(x|w) n w* = argmax Π p(xi|w) i=1 最尤推測「きっと p(x|w*) は q(x) と似ているだろう」 2015/10/1 Singularities in HMM 13 ベイズ推測 真: q(x) 例{x1 ,x1 …xn} 学習者 : p(x|w) , 事前分布φ(w) 1 n r(w) = Z Π p(xi|w)φ(w) i=1 p*(x) = ∫p(x|w) r(w) dw ベイズ推測「きっと p*(x) は q(x) と似ているだろう」 2015/10/1 Singularities in HMM 14 学習誤差と汎化誤差 真 q(x) 推測 p(x) n q(xi) 1 学習誤差 T(n) = E[ ∑ log ] p(xi) n i=1 汎化誤差 G(n) = E[∫q(x) log 2015/10/1 Singularities in HMM q(x) dx ] p(x) 15 漸近理論 *Hartigan (1985), 萩原(1998),福水(2002) ** まだ証明はされていない 最尤推測 正則モデル 学習 誤差 汎化 誤差 学習 誤差 汎化 誤差 -d 2n d 2n -d 2n d 2n * ** -c1log n c2log n 特異モデル n n 2015/10/1 ベイズ推測 Singularities in HMM ** -μ 2n λ 2n 16 ベイズ推測の理論 Neural Computation, 13(4),899-933,2001 真の分布 p(x|w0) ゼータ関数 ζ(z) = ∫ z φ(w) dw D(w0||w) Im(z) n :例数 極:-λ 2015/10/1 Re(z) 汎化誤差=λ/n Singularities in HMM 17 特異モデル ◎定数λは、特異点の解消により計算できる。 特異モデル 隠れマルコフモデル (実は、まだ不明) 神経回路網 ( 渡辺, IEEE NN, 2001) 混合正規分布 (山崎 & 渡辺, Neural Networks, to appear) ベイズネットワーク (Rusakov & Geiger, UAI’02) 縮小ランク回帰 (渡辺&渡辺, 信学誌,2003年3月, to appear) ボルツマンマシン (山崎& 渡辺, 投稿準備中) 2015/10/1 Singularities in HMM 18 真の分布がモデルの外にあるとき Neural Networks, 14(8),1049-1060. 真の分布 G(n) ベイズ 汎化 誤差 n:学習例数 パラメータ空間 2015/10/1 Singularities in HMM 19 特異モデルの選択 理論:人工知能学会誌, 16(2),2001 検証:西上, 渡辺, 信学誌, 2003, 1月号 n 確率的複雑さ F = -log ∫Π p(xi|w)φ(w) dw i=1 F F Jeffreys Jeffreys Uniform Uniform モデルの複雑さ 真の分布が含まれているとき 2015/10/1 モデルの複雑さ 真の分布が含まれていないとき Singularities in HMM 20 まとめ ◎情報学で使われている確率モデルは、たいてい特異モデル ◎隠れマルコフモデルも特異モデル ◎特異モデルでは、最尤よりもベイズが適する ◎特異モデルでは、正則モデルの理論・方法論は利用できない ◎特異モデルの理論・方法論は、現在、急速に発展している 2015/10/1 Singularities in HMM 21
© Copyright 2024 ExpyDoc