ベイズ事後分布の最適近似法の 提案と有効性について 永田賢二 渡辺澄夫 東京工業大学知能システム科学専攻 東京工業大学精密工学研究所 背景①:特異モデル ニューラルネットワーク 混合正規分布 ベイズネットワーク これらのモデルは特異モデルと呼ばれ、パターン認識、 システム制御、時系列予測などの応用に用いられている。 背景①:特異モデル フィッシャー情報行列が縮退するため統計的 正則モデルの漸近理論を適用することができない。 代数幾何学的手法 ニューラルネットワーク <ベイズ学習では> •過学習を起こしにくい •正則モデルより汎化能力に優れている 背景②:ベイズ事後分布の実現 n ベイズ事後分布: p( w | X n ) ( w) p( X i | w) i 1 <正則モデル> <特異モデル> MCMC法を適用すると サンプル系列が法則収束するまでの時間が正則 モデルと比較すると非常に大きくなる[Nakano,2004]。 目的 特異モデルのベイズ事後分布を比較的実装 しやすい単純な確率分布を用いて近似する 方法を提案する。 提案手法の近似精度が確率的複雑さを用い て評価できることを示し、その有効性を実験 的に明らかにする。 ベイズ学習 q(x) (w) X n {X1, X 2 ,, X n} p( x | w) 1 n q( X i ) 経験カルバック距離: H n ( w) n i 1 p( X i | w) 1 exp(nHn ( w)) ( w) ベイズ事後分布: p( w | X ) n Z0 ( X ) n 規格化定数: Z 0 ( X n ) exp( nH n ( w)) ( w)dw n n p ( x | X ) p ( x | w ) p ( w | X )dw ベイズ予測分布: ベイズ事後分布の近似 <特異モデルのベイズ学習> 規格化定数: Z 0 ( X n ) exp( nH n ( w)) ( w)dw n ベイズ予測分布: p ( x | X ) n p ( x | w ) p ( w | X )dw <近似手法> MCMC法 変分ベイズ法 ・・・事後分布に法則収束する サンプル系列を生成するアルゴリズム ・・・パラメータ間の独立性を仮定して 事後分布の近似を得る手法 提案手法 n 確率分布 h(w | X n ) で事後分布 p(w | X )を近似することを考える <カルバック距離> h( w | X n ) n n D(h || p) h( w | X ) log dw 0 (等号成立は h ( w | X ) p ( w | X )) n p( w | X ) n log Z 0 ( X n ) h( w | X n )Q( w)dw fˆ 関数 h(w | X n ) についての 最小化を考えることで 事後分布の近似が得られる Q( w) log h( w | X n ) nHn ( w) log ( w) 確率的複雑さ・・・代数幾何学的手法により、 その振る舞いが解明され始めている。 提案手法 h(w | X n ) として、以下の混合正規分布を用いた場合を考える。 1 K 1 h(w | X ) d K k 1 n w wk r (w) :標準正規分布 r d :パラメータ w の次元数 ハイパーパラメータ: {K , , wk : k 1,, K} fˆ h( w | X n )Q( w)dw 1 K 1 w wk d r Q( w)dw K k 1 1 K r (u ) Q(u wk )du K k 1 確率分布 w wk u r (u ) による の期待値計算 計算アルゴリズム 1.学習データ数 n 、コンポーネント数 K を設定する。 2.ハイパーパラメータ , wk の初期値を設定する。 ⇒メトロポリス法 3.標準正規分布 r (w) からのサンプル系列{ui : i 1,, N}を用いて N K 1 1 fˆ Q(ui wk ) N i 1 K k 1 と各パラメータの勾配 fˆ / wk 、 fˆ / を計算する。 4.各パラメータの勾配をもとに fˆ wk : wk wk fˆ : によりパラメータの更新を行う。 5.手続き3.4.を関数 fˆ の値が収束するまで繰り返す。 実験 学習データの出方について平均した場合を考える。 q ( x) dx カルバック距離: H ( w) q( x) log p( x | w) 1 exp(nH ( w)) ( w) ベイズ事後分布: p( w) Z0 確率的複雑さ: log Z 0 log exp( nH ( w)) ( w)dw <学習モデル(w ( s, t ))> H ( s, t ) s 2t 2 s2 t 2 1 ( s, t ) exp 2 2 実験結果(K=1の場合) fˆ r (u )Q(u w1 )du 1 1 n 4 (ns12 nt12 1) 2 2 log ns12t12 s12 t12 1 2 2 1 8n 1 2 fˆ の最小化 ( s1 , t1 ) (0,0), S .C. 1 ˆ min f log n C 2 1 log Z 0 log n log log n C0 2 4n K=1 logZ0 log n 実験結果(K>1の場合) K N K 1 1 1 fˆ r (u) Q(u wk )du Q(ui wk ) K k 1 N i 1 K k 1 {ui : i 1,, N} ~ r (u ) n 100, ,10000 K 5,15,50 N 1000 <ハイパーパラメータの初期値> S .C. K=1 K=5 K=15 K=50 logZ0 1 n wkはメトロポリス法で生成 log n 実験結果(K>1の場合) n 100 事後分布 近似した分布 K 50 n 10000 考察 •確率的複雑さ log Z0 log n (m 1) loglog n O(1) Im ( z ) H ( w) z ( w)dw Re :極(有理数) m:位数(自然数) •提案手法 log Z 0 h( w | n)Q ( w)dw fˆ ①ベイズ事後分布の近似精度の評価法 ②確率的複雑さの上限値の計算法 考察 <他手法との比較について> ・提案手法 D(h || p) を用いて 近似精度を評価できる。 ・MCMC法 得られるものが サンプル系列であるため 近似精度を評価できない。 まとめ・今後の課題 特異モデルのベイズ事後分布を比較的実装し やすい単純な分布で近似する方法を提案した。 提案手法の近似精度が確率的複雑さを用いて 評価できることを示し、有効性を実験的に明らか にした。 今後の課題 より複雑なモデルへの適用 ハイパーパラメータの設定を変えて近似精度の改善 他手法の精度評価法の考案 実際に予測を行ったときの性質の解明
© Copyright 2024 ExpyDoc