特異モデルにおけるベイズ事後分布の 最適近似に 関す

ベイズ事後分布の最適近似法の
提案と有効性について
永田賢二 渡辺澄夫
東京工業大学知能システム科学専攻
東京工業大学精密工学研究所
背景①:特異モデル
ニューラルネットワーク
混合正規分布
ベイズネットワーク
これらのモデルは特異モデルと呼ばれ、パターン認識、
システム制御、時系列予測などの応用に用いられている。
背景①:特異モデル
フィッシャー情報行列が縮退するため統計的
正則モデルの漸近理論を適用することができない。
代数幾何学的手法
ニューラルネットワーク
<ベイズ学習では>
•過学習を起こしにくい
•正則モデルより汎化能力に優れている
背景②:ベイズ事後分布の実現
n
ベイズ事後分布:
p( w | X n )   ( w) p( X i | w)
i 1
<正則モデル>
<特異モデル>
MCMC法を適用すると
サンプル系列が法則収束するまでの時間が正則
モデルと比較すると非常に大きくなる[Nakano,2004]。
目的

特異モデルのベイズ事後分布を比較的実装
しやすい単純な確率分布を用いて近似する
方法を提案する。

提案手法の近似精度が確率的複雑さを用い
て評価できることを示し、その有効性を実験
的に明らかにする。
ベイズ学習
q(x)
 (w)
X n  {X1, X 2 ,, X n}
p( x | w)
1 n q( X i )
経験カルバック距離: H n ( w)  
n i 1 p( X i | w)
1
exp(nHn ( w)) ( w)
ベイズ事後分布: p( w | X ) 
n
Z0 ( X )
n

規格化定数: Z 0 ( X n )  exp( nH n ( w)) ( w)dw
n
n
p
(
x
|
X
)

p
(
x
|
w
)
p
(
w
|
X
)dw
ベイズ予測分布:

ベイズ事後分布の近似
<特異モデルのベイズ学習>

規格化定数: Z 0 ( X n )  exp( nH n ( w)) ( w)dw
n
ベイズ予測分布: p ( x | X ) 
n
p
(
x
|
w
)
p
(
w
|
X
)dw

<近似手法>
MCMC法
変分ベイズ法
・・・事後分布に法則収束する
サンプル系列を生成するアルゴリズム
・・・パラメータ間の独立性を仮定して
事後分布の近似を得る手法
提案手法
n
確率分布 h(w | X n ) で事後分布 p(w | X )を近似することを考える
<カルバック距離>
h( w | X n )
n
n
D(h || p)   h( w | X ) log
dw

0
(等号成立は
h
(
w
|
X
)

p
(
w
|
X
))
n
p( w | X )
n
 log Z 0 ( X n )   h( w | X n )Q( w)dw  fˆ
関数 h(w | X n ) についての
最小化を考えることで
事後分布の近似が得られる
Q( w)  log h( w | X n )  nHn ( w)  log ( w)
確率的複雑さ・・・代数幾何学的手法により、
その振る舞いが解明され始めている。
提案手法
h(w | X n )
として、以下の混合正規分布を用いた場合を考える。
1 K 1
h(w | X )   d
K k 1 
n
 w  wk  r (w) :標準正規分布
r

d :パラメータ w の次元数
  
ハイパーパラメータ: {K ,  , wk : k  1,, K}
fˆ   h( w | X n )Q( w)dw
1 K 1  w  wk 
   d r
Q( w)dw
K k 1    
1 K

  r (u )  Q(u  wk )du
 K k 1

確率分布
w  wk 

u



 

r (u ) による  の期待値計算
計算アルゴリズム
1.学習データ数 n 、コンポーネント数 K を設定する。
2.ハイパーパラメータ  , wk の初期値を設定する。
⇒メトロポリス法
3.標準正規分布 r (w) からのサンプル系列{ui : i  1,, N}を用いて
N
K
1
1
fˆ    Q(ui  wk )
N i 1 K k 1
と各パラメータの勾配 fˆ / wk 、 fˆ /  を計算する。
4.各パラメータの勾配をもとに
fˆ
wk : wk  
wk
fˆ
 :   

によりパラメータの更新を行う。
5.手続き3.4.を関数 fˆ の値が収束するまで繰り返す。
実験
学習データの出方について平均した場合を考える。
q ( x)
dx
カルバック距離: H ( w)   q( x) log
p( x | w)
1
exp(nH ( w)) ( w)
ベイズ事後分布: p( w) 
Z0

確率的複雑さ:  log Z 0   log exp(  nH ( w)) ( w)dw
<学習モデル(w
 ( s, t ))>
H ( s, t )  s 2t 2
 s2  t 2 
1

 ( s, t ) 
exp 
2
2 

実験結果(K=1の場合)
fˆ   r (u )Q(u  w1 )du
1
1
 n 4  (ns12  nt12  1) 2  2 log  ns12t12  s12  t12  1
2
2
1  8n  1
2
fˆ の最小化 
( s1 , t1 )  (0,0), 

S .C.
1
ˆ
min f  log n  C
2
1
 log Z 0  log n  log log n  C0
2
4n


K=1
 logZ0
log n
実験結果(K>1の場合)
K
N
K
1
1
1
fˆ   r (u)  Q(u  wk )du    Q(ui  wk )
K k 1
N i 1 K k 1
{ui : i  1,, N} ~ r (u )
n  100,  ,10000
K  5,15,50
N  1000
<ハイパーパラメータの初期値>

S .C.
K=1
K=5
K=15
K=50
 logZ0
1
n
wkはメトロポリス法で生成
log n
実験結果(K>1の場合)
n  100
事後分布
近似した分布
K  50
n  10000
考察
•確率的複雑さ
 log Z0   log n  (m 1) loglog n  O(1)
Im
 ( z )   H ( w) z  ( w)dw
Re
 :極(有理数) m:位数(自然数)

•提案手法
 log Z 0   h( w | n)Q ( w)dw  fˆ
①ベイズ事後分布の近似精度の評価法
②確率的複雑さの上限値の計算法
考察
<他手法との比較について>
・提案手法
D(h || p) を用いて
近似精度を評価できる。
・MCMC法
得られるものが
サンプル系列であるため
近似精度を評価できない。
まとめ・今後の課題



特異モデルのベイズ事後分布を比較的実装し
やすい単純な分布で近似する方法を提案した。
提案手法の近似精度が確率的複雑さを用いて
評価できることを示し、有効性を実験的に明らか
にした。
今後の課題




より複雑なモデルへの適用
ハイパーパラメータの設定を変えて近似精度の改善
他手法の精度評価法の考案
実際に予測を行ったときの性質の解明