ベイズ事後分布の最適近似法の
提案と有効性について
永田賢二 渡辺澄夫
東京工業大学知能システム科学専攻
東京工業大学精密工学研究所
背景①:特異モデル
ニューラルネットワーク
混合正規分布
ベイズネットワーク
これらのモデルは特異モデルと呼ばれ、パターン認識、
システム制御、時系列予測などの応用に用いられている。
背景①:特異モデル
フィッシャー情報行列が縮退するため統計的
正則モデルの漸近理論を適用することができない。
代数幾何学的手法
ニューラルネットワーク
<ベイズ学習では>
•過学習を起こしにくい
•正則モデルより汎化能力に優れている
背景②:ベイズ事後分布の実現
n
ベイズ事後分布:
p( w | X n ) ( w) p( X i | w)
i 1
<正則モデル>
<特異モデル>
MCMC法を適用すると
サンプル系列が法則収束するまでの時間が正則
モデルと比較すると非常に大きくなる[Nakano,2004]。
目的
特異モデルのベイズ事後分布を比較的実装
しやすい単純な確率分布を用いて近似する
方法を提案する。
提案手法の近似精度が確率的複雑さを用い
て評価できることを示し、その有効性を実験
的に明らかにする。
ベイズ学習
q(x)
(w)
X n {X1, X 2 ,, X n}
p( x | w)
1 n q( X i )
経験カルバック距離: H n ( w)
n i 1 p( X i | w)
1
exp(nHn ( w)) ( w)
ベイズ事後分布: p( w | X )
n
Z0 ( X )
n
規格化定数: Z 0 ( X n ) exp( nH n ( w)) ( w)dw
n
n
p
(
x
|
X
)
p
(
x
|
w
)
p
(
w
|
X
)dw
ベイズ予測分布:
ベイズ事後分布の近似
<特異モデルのベイズ学習>
規格化定数: Z 0 ( X n ) exp( nH n ( w)) ( w)dw
n
ベイズ予測分布: p ( x | X )
n
p
(
x
|
w
)
p
(
w
|
X
)dw
<近似手法>
MCMC法
変分ベイズ法
・・・事後分布に法則収束する
サンプル系列を生成するアルゴリズム
・・・パラメータ間の独立性を仮定して
事後分布の近似を得る手法
提案手法
n
確率分布 h(w | X n ) で事後分布 p(w | X )を近似することを考える
<カルバック距離>
h( w | X n )
n
n
D(h || p) h( w | X ) log
dw
0
(等号成立は
h
(
w
|
X
)
p
(
w
|
X
))
n
p( w | X )
n
log Z 0 ( X n ) h( w | X n )Q( w)dw fˆ
関数 h(w | X n ) についての
最小化を考えることで
事後分布の近似が得られる
Q( w) log h( w | X n ) nHn ( w) log ( w)
確率的複雑さ・・・代数幾何学的手法により、
その振る舞いが解明され始めている。
提案手法
h(w | X n )
として、以下の混合正規分布を用いた場合を考える。
1 K 1
h(w | X ) d
K k 1
n
w wk r (w) :標準正規分布
r
d :パラメータ w の次元数
ハイパーパラメータ: {K , , wk : k 1,, K}
fˆ h( w | X n )Q( w)dw
1 K 1 w wk
d r
Q( w)dw
K k 1
1 K
r (u ) Q(u wk )du
K k 1
確率分布
w wk
u
r (u ) による の期待値計算
計算アルゴリズム
1.学習データ数 n 、コンポーネント数 K を設定する。
2.ハイパーパラメータ , wk の初期値を設定する。
⇒メトロポリス法
3.標準正規分布 r (w) からのサンプル系列{ui : i 1,, N}を用いて
N
K
1
1
fˆ Q(ui wk )
N i 1 K k 1
と各パラメータの勾配 fˆ / wk 、 fˆ / を計算する。
4.各パラメータの勾配をもとに
fˆ
wk : wk
wk
fˆ
:
によりパラメータの更新を行う。
5.手続き3.4.を関数 fˆ の値が収束するまで繰り返す。
実験
学習データの出方について平均した場合を考える。
q ( x)
dx
カルバック距離: H ( w) q( x) log
p( x | w)
1
exp(nH ( w)) ( w)
ベイズ事後分布: p( w)
Z0
確率的複雑さ: log Z 0 log exp( nH ( w)) ( w)dw
<学習モデル(w
( s, t ))>
H ( s, t ) s 2t 2
s2 t 2
1
( s, t )
exp
2
2
実験結果(K=1の場合)
fˆ r (u )Q(u w1 )du
1
1
n 4 (ns12 nt12 1) 2 2 log ns12t12 s12 t12 1
2
2
1 8n 1
2
fˆ の最小化
( s1 , t1 ) (0,0),
S .C.
1
ˆ
min f log n C
2
1
log Z 0 log n log log n C0
2
4n
K=1
logZ0
log n
実験結果(K>1の場合)
K
N
K
1
1
1
fˆ r (u) Q(u wk )du Q(ui wk )
K k 1
N i 1 K k 1
{ui : i 1,, N} ~ r (u )
n 100, ,10000
K 5,15,50
N 1000
<ハイパーパラメータの初期値>
S .C.
K=1
K=5
K=15
K=50
logZ0
1
n
wkはメトロポリス法で生成
log n
実験結果(K>1の場合)
n 100
事後分布
近似した分布
K 50
n 10000
考察
•確率的複雑さ
log Z0 log n (m 1) loglog n O(1)
Im
( z ) H ( w) z ( w)dw
Re
:極(有理数) m:位数(自然数)
•提案手法
log Z 0 h( w | n)Q ( w)dw fˆ
①ベイズ事後分布の近似精度の評価法
②確率的複雑さの上限値の計算法
考察
<他手法との比較について>
・提案手法
D(h || p) を用いて
近似精度を評価できる。
・MCMC法
得られるものが
サンプル系列であるため
近似精度を評価できない。
まとめ・今後の課題
特異モデルのベイズ事後分布を比較的実装し
やすい単純な分布で近似する方法を提案した。
提案手法の近似精度が確率的複雑さを用いて
評価できることを示し、有効性を実験的に明らか
にした。
今後の課題
より複雑なモデルへの適用
ハイパーパラメータの設定を変えて近似精度の改善
他手法の精度評価法の考案
実際に予測を行ったときの性質の解明
© Copyright 2026 ExpyDoc