最急降下法による情報量規準WBICの安定的計算法 渡辺研究室 玉井雄介 1.背景 3.数値実験 学習=データに様々な確率分布を当てはめ,最適なものを探す. 学習データの生成= 𝑥𝑖 , 𝑦𝑖 500 𝑖=1 事前に 確率分布の集合 を用意する. ⇒ その集合を 学習モデル と呼ぶ. 通常 𝒑(𝒙|𝒘) 𝒘 のように,パラメータ付き 𝑝(𝑥|𝑤) の集合として表記. 自由エネルギー: 𝑛 1 𝐹𝑛 1 = − log 𝛽 𝜑 𝑤 𝑝 𝑋𝑖 𝑤 𝑑𝑤. 𝑖=1 自由エネルギーを小さくするモデルほど,与えられた学習データ 𝑥𝑖 を得る 実験=上記[↑]のモデルを選択できるか? 確率が高い(I. J. Good, 1965).⇒モデルの評価. ベイズ事後分布を正規近似できる場合,自由エネルギーはBICによって 実験1 … 従来法99回 提案法100回全てで真のモデルを選択 近似できる(G. Schwarz, 1978) . • 𝑛 𝑖=1 log 𝑝 定義:BIC = − 𝑋𝑖 𝑤 + 𝑑 log 𝑛 . 2 WBIC: BICの導出は,漸近正規性の使用を前提としている. 1回目 … 従来法70回,提案法100回 実験2 𝑛 → ∞ のとき,ベイズ事後分布が正規分布に収束すること. そのため,( 𝑛 が充分大きいときでも)事後分布を正規分布で近似でき ない場合,BICの利用は適切ではない. これに対し、漸近正規性を前提としない規準WBICを導入する. • 定義:WBIC = 𝛽 𝔼𝑤 − 𝑛 𝑖=1 log 𝑝 𝑋𝑖 𝑤 , 𝛽 = 1 . log 𝑛 WBIC値の計算には,事後分布による平均操作が必要. 2回目 … 従来法,提案法ともに100回全て を再度生成. 2.問題と提案手法 WBICの利用: WBIC値の計算には,事後分布による平均操作が必要. 実験3 … 従来法96回 提案法99回真のモデルを選択 事後分布が正規でない場合,この平均を解析的に計算することは困難. そこで,離散平均で近似. 𝛽 𝔼𝑤 1 𝑔 ≈ 𝐾 𝐾 𝑔 𝑤𝑘 . 𝑘=1 ここで𝑤𝑘 は, (逆温度𝛽 の)事後分布に従うサンプル.⇒MCMC 学習データを減らした場合 真のモデルを選択した回数 バーンイン: MCMCでは,初期値によって 結果が大きく変動してしまう. 𝑛 従来法 提案法 50 83回 97回 100 92回 100回 300 96回 99回 500 96回 99回 ∵ 裾野では高低差が小さく,停滞. そのため,開始から一定回数分の サンプルを破棄し,そこから再度 混合正規分布での実験でも,似た結果を得られた. サンプリングする. ⇒ どの程度破棄すればよいか不明 提案手法=より確実に初期値の影響を排除. そこで,バーンイン → 最適化 と置換える. 初期値を変えて複数回の最急降下を行い,尤度最大のものを選択. ⇒この点からメトロポリス法によるサンプリング. 4.まとめ 提案手法が安定した計算精度をもたらすことを,実験において示した. 学習モデルと真の情報源が一致しているとき,従来法は不安定になる傾 向があり,提案法が特に有効と考えられる. 真のパラメータ値によって,必要となるバーンインの長さが大きく変動し得る. これに対し,提案法はある程度まで安定した精度を実現可能と考えられる.
© Copyright 2025 ExpyDoc