特異モデルにおけるベイズ事後分布の 最適近似に関す

確率的複雑さを用いたベイズ事後分布
の最適近似法の提案と有効性
永田賢二 渡辺澄夫
東京工業大学知能システム科学専攻
東京工業大学精密工学研究所
背景①:特異モデル
ニューラルネットワーク
混合正規分布
ベイズネットワーク
これらのモデルは特異モデルと呼ばれ、パターン認識、
システム制御、時系列予測などの応用に用いられている。
背景①:特異モデル
フィッシャー情報行列が縮退するため統計的
正則モデルの漸近理論を適用することができな
い。
代数幾何学的手法
ニューラルネットワーク
<ベイズ学習では>
•過学習を起こしにくい
•正則モデルより汎化能力に優れている
背景②:ベイズ学習
q(x)
 (w)
X n  {X1, X 2 ,, X n}
p( x | w)
n
1
p( X i | w) ( w)
ベイズ事後分布: p( w | X ) 
n 
Z 0 ( X ) i 1
n
規格化定数: Z 0 ( X n ) 
n
  p( X
i
| w) ( w)dw
i 1
n
ベイズ予測分布: p ( x | X ) 
n
p
(
x
|
w
)
p
(
w
|
X
)dw

解析的な計算が困難⇒実際には近似手法が広く用いられている
背景③:ベイズ事後分布の近似
<MCMC法>
<変分ベイズ法>
<本研究の目的>
変分ベイズ法よりも近似能力の高い確率分布族により
特異モデルの事後分布を近似する手法を提案
提案手法
事後分布
p( w | X n )
近似
h(w)
試験分布
<カルバック距離>
h( w)
n
D(h || p)   h( w) log
dw

0
h
(
w
)

p
(
w
|
X
))
(等号成立は
n
p( w | X )
 log Z 0 ( X n )   h( w)Q( w)dw  fˆ
n
h(w)についての最小化を考える
Q( w)  log h( w)   log p( X i | w)  log ( w)
i 1
<確率的複雑さ>
その振る舞いが一部の特異モデルで解明され始めている。
提案手法
h(w | X n )
として、以下の混合正規分布を用いた場合を考える。
1 K 1
h(w | X )   d
K k 1 
n
 w  wk  r (w) :標準正規分布
r

d :パラメータ w の次元数
  
ハイパーパラメータ:{ , wk : k  1,, K}
fˆ   h( w)Q( w)dw
w  wk 

u



 

1 K

  r (u )  Q(u  wk )du
 K k 1
 確率分布 r (u ) による期待値計算
1 N 1 K
   Q(ui  wk )
N i 1 K k 1
{ui : i  1,, N} ~ r (u )
実験①(近似精度)
学習データの出方について平均した場合を考える。
1
exp(nH ( w)) ( w)
ベイズ事後分布: p( w) 
Z0
<学習モデル(w
 ( s, t ))>
H ( w)   q( x) log
q ( x)
dx
p( x | w)
H ( s, t )  s 2t 2
 s2  t 2 
1

 ( s, t ) 
exp 
2
2 


確率的複雑さ:  log Z 0   log exp( nH ( w)) ( w) dw
1
 log n  log log n  O1
2
実験結果①
N
K
1
1
fˆ    Q(ui  wk ) {ui : i  1,, N} ~ r (u )
N i 1 K k 1
S .C.
n  100,  ,10000
K  1,5,15,50
N  1000
K=1
K=5
K=15
K=50
 logZ0
パラメータ  , wk を
最急降下法により
最適化
log n
実験結果①
n  100
事後分布
近似した分布
K  50
n  10000
実験②(予測精度)
x1 ,, x N
<縮小ランク回帰モデル>
入力 x  R M
出力
パラメータ AM  H 
y  RN
N
BH  N 
H
としたとき以下で表される。
y  BAx  ε
(ε:雑音)
M
……
…
……
確率分布は次のようになる。
p(y | x, w) 
1
2 2
N
exp(
1
2
y  BAx )
2
2
y1 ,, y M
一般に、真の中間ユニット数 H 0 、学習モデルの中間ユニット数 H
に対し H  H 0 として学習を行う。
実験結果②
テストデータ
X n  {X1, X 2 ,, X n} に対してn
<実験条件>
N  10, M  10
H 0  0, H  1
n  200
汎化誤差 G( X n ) 
q( X i)
1
を計算
log

n
n i 1
p( X i | X )
Theoretical in VB
200セットの
学習データ平均
<理論値>
ベイズ学習:0.023426
変分ベイズ学習:0.038075
Theoretical in Bayes
考察
<提案手法と他手法との比較>
<変分ベイズ法>
cost
accuracy
<提案手法>
<MCMC法>
変分ベイズ
提案手法
MCMC
◎
○
△
△
○
◎
まとめ・今後の課題



特異モデルのベイズ事後分布を比較的実装し
やすい単純な分布で近似する方法を提案した。
提案手法の近似精度が確率的複雑さを用いて
評価できることを示し、有効性を実験的に明らか
にした。
今後の課題



より複雑なモデルへの適用
ハイパーパラメータの設定を変えて近似精度の改善
他手法との精度の定量的な比較