カルバック情報量の分割による 特異モデルの学習係数の 計算アルゴリズム 永田賢二 渡辺澄夫 東京工業大学工学部情報工学科 東京工業大学精密工学研究所 1 (w) 背景 順問題 q(x) X 1 , X 2 ,, X n 逆問題 ? p ( x | w) p ( x | w) X 1 , X 2 ,, X n p ( x | w) 2 背景 統計的正則モデル 順問題について解明されている ⇒AIC,BIC,MDLなど 特異モデル 未だ順問題が解明されていない ⇒モデル選択のアルゴリズムが 確立されていない 3 目的 特異モデルの順問題について、 カルバック情報量を分割することにより、 確率的複雑さを分解する方法を提案 その有効性をいくつかの実験により検証 4 (w) ベイズ学習 q(x) X n ( X 1 , X 2 ,, X n ) p ( x | w) n 1 n p ( w | X ) ( w) p( X i | w) 事後分布: n Z(X ) i 1 ベイズ予測分布: p ( x | X ) n p( x | w) p(w | X n )dw 予測分布と真の分布の違いは、サンプルが増え るにつれて、どのような早さで小さくなってゆくか 5 カルバック情報量 カルバック情報量 q ( x) H ( w) q( x) log dx p( x | w) 汎化誤差 q ( x) G(n) E X n [ q( x) log dx] n p( x | X ) 1 o( ) ( :学習係数) n n 6 学習係数の特徴 (1) ( ) は、ゼータ関数 ( z ) H ( w) ( w)dw z の最も原点に近い極に等しい。 (2) lim n log exp( nH ( w)) ( w)dw log n log( V (t ) / V (t )) (3) lim t0 log ( V (t ) H ( w )t ( w)dw ) 7 提案方法と基礎定理 提案方法 H (w) H1 (w) H 2 (w) ? 1は既知数 定理 1 lim n log exp( nH 2 ( w)) n ( w)dw log n [ n (w) exp( nH1 (w)) ( w)] 8 定理の証明 Z (n) exp( nH ( w)) ( w)dw exp( nH1 ( w)) exp( nH 2 ( w)) ( w)dw exp( nH ( w)) exp( nH ( w)) ( w)dw exp( nH ( w)) ( w)dw exp( nH (w)) (w)dw 2 1 1 1 exp( nH1 ( w)) ( w)dw exp( nH 2 ( w)) n ( w)dw log exp( nH 2 ( w)) n ( w)dw log Z (n) lim 1 lim n n log n log n 9 計算アルゴリズム 1、n として幾つかの値を設定する。 2、 n (w) に従うサンプル {wk : k 1,2,, K } を取り出す ⇒メトロポリス法 1 y ( n ) log{ 3、 K K exp( nH k 1 2 ( wk ))} を計算する。 4、幾つかの n について組み合わせ (log n, y (n)) を求めて 回帰曲線 y 2 x b を最小二乗法で当てはめることにより 2 を求める。 5、 1 2 を目的の値とする。 10 メトロポリス法 n (w) exp( nH1 (w)) (w) exp( Hˆ (w)) とする 1、 w の初期値を設定する。 2、 w' w (乱数)により、 w'を得る。 3、① ② Hˆ ( w) Hˆ ( w' ) w' を採択 Hˆ ( w) Hˆ ( w' ) 確率 P で w'を採択し 確率 1 P で w を採択 [ P exp( nHˆ ( w' ) nHˆ ( w))] 4、1の手続きに戻る。 11 実験(1) <条件> H (a, b, c, d ) H1 (a, b, c, d ) H 2 (a, b, c, d ) H1 (a, b, c, d ) (ab cd ) 2 H 2 (a, b, c, d ) (ab3 cd 3 ) 2 <理論値> 2 / 3, 1 1 / 2 2 1 / 6 0.1666 <結果> y 0.1358 log n 0.2821 12 実験(2) <条件> H (a, b, c, d ) H1 (a, b, c, d ) H 2 (a, b, c, d ) H1 (a, b, c, d ) (ab cd ) 2 1 / n(ab3 cd 3 ) 2 H 2 (a, b, c, d ) (1 1 / n)( ab3 cd 3 ) 2 <理論値> 2 / 3, 1 1 / 2 2 1 / 6 0.1666 <結果> y 0.1325 log n 0.3385 13 実験(3) <条件> H (a, b, c, d , e, f ) H1 (a, b, c, d , e, f ) H 2 (a, b, c, d , e, f ) H1 (a, b, c, d , e, f ) (ab cd ef ) 2 H 2 (a, b, c, d , e, f ) (ab3 cd 3 ef 3 ) 2 (ab5 cd 5 ef 5 ) 2 <理論値> 5 / 6, 1 1 / 2 2 1 / 3 0.3333 <結果> y 0.2817 log n 0.5071 14 考察 H (w) を分割せずに を計算する方法 f (t ) log exp( ntH ( w)) ( w)dw df f (1) dt 0 dt 1 nH ( w) exp( ntH ( w)) ( w)dw dt exp( ntH (w)) (w)dw 1 0 確率分布 exp( ntH ( w)) による nH (w) の平均値 15 考察 分割しないと・・・ あるnに対してtについての 積分区間[0,1]を細かく分割 分割すると・・・ あるnに対して一回のMCMC法 分割すると演算量が遥かに少ない! 16 改善案 新たな計算法 g (t ) log exp( ntH 2 ( w)) n ( w)dw とすると 1 dg g (1) dt 0 dt nH 2 ( w) exp( ntH 2 ( w)) n ( w)dw 1 dt 0 exp( ntH 2 (w)) n (w)dw 確率分布 exp( ntH2 ( w)) n ( w) による nH 2 (w)の 平均値を 2 とし、 1 2 により目的の値を計算 17 結論 カルバック情報量を分割して、学習係数を 計算するアルゴリズムを提案し、その有効 性を実験的に確認 今後の課題として、より正確な学習係数が 求められるようなカルバック情報量の分割 の仕方の最適化の問題がある。 18
© Copyright 2024 ExpyDoc