最急降下法による情報量規準WBICの安定的計算法 渡辺

最急降下法による情報量規準WBICの安定的計算法
渡辺研究室 玉井雄介
1.背景
3.数値実験
学習=データに様々な確率分布を当てはめ,最適なものを探す.
学習データの生成= 𝑥𝑖 , 𝑦𝑖
500
𝑖=1
事前に 確率分布の集合 を用意する.
⇒ その集合を 学習モデル と呼ぶ.
通常 𝒑(𝒙|𝒘)
𝒘
のように,パラメータ付き 𝑝(𝑥|𝑤) の集合として表記.
自由エネルギー:
𝑛
1
𝐹𝑛 1 = − log
𝛽
𝜑 𝑤
𝑝 𝑋𝑖 𝑤 𝑑𝑤.
𝑖=1
自由エネルギーを小さくするモデルほど,与えられた学習データ 𝑥𝑖 を得る
実験=上記[↑]のモデルを選択できるか?
確率が高い(I. J. Good, 1965).⇒モデルの評価.
ベイズ事後分布を正規近似できる場合,自由エネルギーはBICによって
実験1 … 従来法99回 提案法100回全てで真のモデルを選択
近似できる(G. Schwarz, 1978) .
•
𝑛
𝑖=1 log 𝑝
定義:BIC = −
𝑋𝑖 𝑤 +
𝑑
log 𝑛 .
2
WBIC:
BICの導出は,漸近正規性の使用を前提としている.
1回目 … 従来法70回,提案法100回
実験2
 𝑛 → ∞ のとき,ベイズ事後分布が正規分布に収束すること.
そのため,( 𝑛 が充分大きいときでも)事後分布を正規分布で近似でき
ない場合,BICの利用は適切ではない.
これに対し、漸近正規性を前提としない規準WBICを導入する.
•

定義:WBIC =
𝛽
𝔼𝑤
−
𝑛
𝑖=1 log 𝑝
𝑋𝑖 𝑤 , 𝛽 =
1
.
log 𝑛
WBIC値の計算には,事後分布による平均操作が必要.
2回目 … 従来法,提案法ともに100回全て
を再度生成.
2.問題と提案手法
WBICの利用:
WBIC値の計算には,事後分布による平均操作が必要.
実験3 … 従来法96回 提案法99回真のモデルを選択
事後分布が正規でない場合,この平均を解析的に計算することは困難.
そこで,離散平均で近似.
𝛽
𝔼𝑤
1
𝑔 ≈
𝐾
𝐾
𝑔 𝑤𝑘 .
𝑘=1
ここで𝑤𝑘 は, (逆温度𝛽 の)事後分布に従うサンプル.⇒MCMC
学習データを減らした場合
真のモデルを選択した回数
バーンイン:
MCMCでは,初期値によって
結果が大きく変動してしまう.
𝑛
従来法
提案法
50
83回
97回
100
92回
100回
300
96回
99回
500
96回
99回
∵ 裾野では高低差が小さく,停滞.
そのため,開始から一定回数分の
サンプルを破棄し,そこから再度
混合正規分布での実験でも,似た結果を得られた.
サンプリングする.
⇒ どの程度破棄すればよいか不明
提案手法=より確実に初期値の影響を排除.
 そこで,バーンイン → 最適化 と置換える.
 初期値を変えて複数回の最急降下を行い,尤度最大のものを選択.
⇒この点からメトロポリス法によるサンプリング.
4.まとめ
提案手法が安定した計算精度をもたらすことを,実験において示した.
学習モデルと真の情報源が一致しているとき,従来法は不安定になる傾
向があり,提案法が特に有効と考えられる.
真のパラメータ値によって,必要となるバーンインの長さが大きく変動し得る.
これに対し,提案法はある程度まで安定した精度を実現可能と考えられる.