PowerPoint プレゼンテーション

パターン認識における
特異モデルの役割について
東京工業大学
渡辺澄夫
2015/10/1
Singularities in HMM
1
学習理論とは・・・
時系列
未知の
情報源
x ={ x(1), x(2), .., x(T)}
時系列のたくさんの例
学習
確率モデル
p(x | w)
2015/10/1
Singularities in HMM
2
学習理論の目的
1.順問題
情報源
例
?
モデル
アルゴリズム
2.逆問題
不明
2015/10/1
例
最小
Singularities in HMM
モデル
アルゴリズム
最適化
3
特定可能性
x : 1個の時系列
p(x | w)
確率モデル
p(x | w) が特定可能であるとは
p(x| w1)= p(x| w2) (∀x) ⇒ w1=w2
特定可能でないとき、特定不能という
2015/10/1
Singularities in HMM
4
隠れマルコフモデル
Start
時系列
0.7
a : 0.8, b:0.2
0.1
0.2
内部の状態は外からは不明
b : 0.5, c:0.5
c : 1.0
2015/10/1
Singularities in HMM
a
a
b
b
c
b
c
c
5
隠れマルコフモデルは特定不能
Start
Start
0.5
1.0
a
a
q
b
1-q
1-p
p
0.5
b
r
q
a
r
b
1-r
1
q = 0.5, p=0, r:自由
q = 0.5, r = 0.5, p:自由
p
2015/10/1
Singularities in HMM
6
構造⇔特定不能
W0
W
2015/10/1
W
W0
Singularities in HMM
小さなモデルは
大きなモデルの中の
特異点を持つ解析的集合
7
特異モデルの性質
W=Rd: パラメータ全体の集合
W/~
同値関係
w1~w2⇔「p(x|w1)= p(x|w2) (∀x)」
W/~ は特異点を持つ集合
2015/10/1
Singularities in HMM
8
統計的正則モデルと特異モデル
正則モデル
正規分布
指数分布
多項式回帰
特異モデル
隠れマルコフモデル
神経回路網
混合正規分布
ベイズネットワーク
縮小ランク回帰
ボルツマンマシン
隠れた部分がある学習モデルは特異モデルになる
2015/10/1
Singularities in HMM
9
なぜ特異モデルが必要か
1.データから構造を取り出したい
2.潜在(隠れ)変数を導入したい
3.未知の分布を効率よく近似したい
2015/10/1
Singularities in HMM
10
正則モデル:特異点なし
事後分布も最尤推定量の分布も正規分布に近づきます。
w0
パラメータ集合
⇒ AIC, BIC, MDL などモデル選択, 検定法
2015/10/1
Singularities in HMM
11
特異モデルの問題
p(x|w0)
D(w0||w) = ∫p(x|w0) log
dx
p(x|w)
カルバック情報量
D(w0||w) =0
: 解析的集合
W
特異点
事後分布も最尤推定量の分布も正規分布には漸近しません。
2015/10/1
Singularities in HMM
12
最尤推測
真: q(x)
例{x1 ,x1 …xn}
学習者 : p(x|w)
n
w* = argmax Π p(xi|w)
i=1
最尤推測「きっと p(x|w*) は q(x) と似ているだろう」
2015/10/1
Singularities in HMM
13
ベイズ推測
真: q(x)
例{x1 ,x1 …xn}
学習者 : p(x|w) , 事前分布φ(w)
1 n
r(w) = Z Π p(xi|w)φ(w)
i=1
p*(x) = ∫p(x|w) r(w) dw
ベイズ推測「きっと p*(x) は q(x) と似ているだろう」
2015/10/1
Singularities in HMM
14
学習誤差と汎化誤差
真 q(x)
推測 p(x)
n
q(xi)
1
学習誤差 T(n) = E[
∑ log
]
p(xi)
n i=1
汎化誤差 G(n) = E[∫q(x) log
2015/10/1
Singularities in HMM
q(x)
dx ]
p(x)
15
漸近理論
*Hartigan (1985), 萩原(1998),福水(2002)
** まだ証明はされていない
最尤推測
正則モデル
学習
誤差
汎化
誤差
学習
誤差
汎化
誤差
-d
2n
d
2n
-d
2n
d
2n
*
**
-c1log n c2log n
特異モデル
n
n
2015/10/1
ベイズ推測
Singularities in HMM
**
-μ
2n
λ
2n
16
ベイズ推測の理論
Neural Computation, 13(4),899-933,2001
真の分布 p(x|w0)
ゼータ関数 ζ(z) =
∫
z
φ(w) dw
D(w0||w)
Im(z)
n :例数
極:-λ
2015/10/1
Re(z)
汎化誤差=λ/n
Singularities in HMM
17
特異モデル
◎定数λは、特異点の解消により計算できる。
特異モデル
隠れマルコフモデル (実は、まだ不明)
神経回路網 ( 渡辺, IEEE NN, 2001)
混合正規分布 (山崎 & 渡辺, Neural Networks, to appear)
ベイズネットワーク (Rusakov & Geiger, UAI’02)
縮小ランク回帰 (渡辺&渡辺, 信学誌,2003年3月, to appear)
ボルツマンマシン (山崎& 渡辺, 投稿準備中)
2015/10/1
Singularities in HMM
18
真の分布がモデルの外にあるとき
Neural Networks, 14(8),1049-1060.
真の分布
G(n)
ベイズ
汎化
誤差
n:学習例数
パラメータ空間
2015/10/1
Singularities in HMM
19
特異モデルの選択
理論:人工知能学会誌, 16(2),2001
検証:西上, 渡辺, 信学誌, 2003, 1月号
n
確率的複雑さ F = -log ∫Π p(xi|w)φ(w) dw
i=1
F
F
Jeffreys
Jeffreys
Uniform
Uniform
モデルの複雑さ
真の分布が含まれているとき
2015/10/1
モデルの複雑さ
真の分布が含まれていないとき
Singularities in HMM
20
まとめ
◎情報学で使われている確率モデルは、たいてい特異モデル
◎隠れマルコフモデルも特異モデル
◎特異モデルでは、最尤よりもベイズが適する
◎特異モデルでは、正則モデルの理論・方法論は利用できない
◎特異モデルの理論・方法論は、現在、急速に発展している
2015/10/1
Singularities in HMM
21