A Stochastic approximation method for inference in probabilistic graphical models 機械学習勉強会 2010/05/20 森井正覚 1 紹介する論文 • A Stochastic approximation method for inference in probabilistic graphical models (P. Carbonetto, M. King, F. Hamze NIPS 2009) 2 概要 • 確率モデルの推論の新たな枠組み. • 近似分布は扱い易いクラスに限定されない. • 逐次モンテカルロ法とみなすこともできるが, 人工的な分布の列を設計する必要がない. • LDAの推論と関連がある集団遺伝学の推定 問題で実験した. 3 目次 1. 2. 3. 4. 5. 導入 潜在的ディリクレ配分法 アルゴリズムの説明 集団遺伝学への応用 まとめ 4 確率モデルの近似推論法 1. MCMCによるモンテカルロ推定 2. 重点サンプリングによるモンテカルロ推定 3. 変分推論法 – 解析的に”良い”性質を持っている近似分布族を 見つける. – いい近似分布を見つけるため,KL情報量を最適 化する. – 最もいい近似分布が,真の分布より大きくずれ るかもしれない. 5 提案手法 • 扱い易い近似分布のクラスを制限しない変分 推論法を提案する. 6 提案手法の特徴 • KL情報量の勾配が直接計算できないため最 適化するのが難しい. • 勾配をモンテカルロ推定し,それを逐次モン テカルロ法により更新する. タイトルが確率推論の確率的近似法 • 勾配降下のステップ幅が大きいと,縮退して しまうので,それを防ぐ仕組みを導入. 7 目次 1. 2. 3. 4. 5. 導入 潜在的ディリクレ配分法 アルゴリズムの説明 集団遺伝学への応用 まとめ 8 2 潜在的ディリクレ配分法(Latent Dirichlet allocation) • 文書集合の生成モデル – 文書 d ∈ {1,…,D} – 単語 wdi ∈ {1,…,W} – トピック zdi ∈{1,…,K} – トピック集合で k 番目のトピックで,語彙集合で j 番目の単語が現れる確率は βkj. – τdk ≡ p(zdi = k | τd) 9 潜在的ディリクレ配分法(Latent Dirichlet allocation) • 観測データ w と未知の β,τ,z の確率は, K D k 1 d 1 D N p ( w, , , z | , ) p ( k | ) p ( d | ) p ( wdi | z di , ) p ( z di | d ) d 1 i 1 10 目次 1. 2. 3. 4. 5. 導入 潜在的ディリクレ配分法 アルゴリズムの説明 集団遺伝学への応用 まとめ 11 重点サンプリング • 目標とする分布 p(x) について,φ(x) の期待値 E p () [ ( X )] ( x) p( x)dx を求めたい. • 重点サンプリングは.提案分布 q(x) と重要度 重み w(x) = p(x)/ q(x) を用いると,モンテカル ロ推定量は, n (s) (s) 1 E p () [ ( X )] n s 1 w( x ) ( x ) • 提案分布をうまく設計しないと,大きな誤差が 生じてしまう. 12 3. アルゴリズムの説明 • p(x) を p^(x;θ) で置き換えたモンテカルロ推定 をする. • この推定量は偏りがあるが,変分問題を解く ことにより,偏りを最小化する. • 確率的近似ステップと逐次モンテカルロス テップを反復する. • p^(x;θk) → p(x) a.s. なら,モンテカルロ推定量 は目標の期待値にほとんど確実に収束する. 13 アルゴリズムの概要 3.1 • Draw samples from initial density p^(x;θ1). • for k = 2, 3, 4, . . . 3.3 3.2 – Stochastic approximation step: take gradient descent step θk = θk-1 – αk gk where gk is a Monte Carlo estimate of the gradient of the K-L divergence, and αk is the variance safeguarded step size. 3.5 – SMC step: update samples and importance weights to reflect new density p^(x;θk). 3.4 14 3.1 The family of approximating distributions • θでパラメータ化された近似分布族 p^(x;θ) を作 る. • 以下の条件を満たす近似分布族を考える. p^(x;θ1) からサンプリングできるような θ1 が1つ以上 存在する. 2. p^(x;θ*) = p(x) となるような θ* が存在する. 3. 以下で表される指数型分布族である. 1. pˆ ( x; ) exp a( x), c( ) +. 常に p^(xA|xB;θ) と p^(xB|xA;θ) からサンプリングでき るように,x を2つの集合に分割できる. 15 3.1 The family of approximating distributions • LDAでは,以下の近似分布族を用いた. D K K W pˆ ( x; ) expd 1 k 1 ( k ndk 1) log dk k 1 j 1 (ˆkj 1) log kj K W K W k 1 j 1 mkj log kj k 1 j 1 (c j mkj ) log kj c( ) • mkj は,j 番目の単語が k 番目のトピックに割り当てら れた数. • ndk は,k 番目のトピックが d 番目の文書に割り当てら れた数. • cj は j 番目の単語が観測された数. – 自然母数 θ = {η^, φ, γ} ≧ 0. – φ = 1,γ = 0, η^ = η とすると p(x) が復元できる. 16 3.2 The variational objective • p(x) =p^(x;θ*) と p^(x;θ) の KL情報量は, F ( ) E pˆ (; ) [a( X )], * c( *) c( ) F ( ) Var pˆ (; ) [a( X )]( *) • ∇F(θ) にある積分を計算するが難しい. • 標本 x(s) と重要度重み w(s) から,モンテカル ロ推定をする. F ( ) s 1 w( s ) (a( x( s ) ) a )(a( x( s ) ) a )T ( *) n a n (s) (s) w a ( x ) s 1 17 3.3 Stochastic approximation • “平均して”前進することが求められる. • 次式で探索方向を更新する. k 1 k k Bk1 g k – Bk は準ニュートン法(BFGS)で用いられるヘッセ行列 を減衰(?)した行列,gk は ∇F(θk-1) のモンテカルロ推 定量. • θ≧0 の条件があるため,確率内点法を用いる. • ステップ後,標本は新しい分布 を反映するよう 更新する. 18 3.4 Sequential Monte Carlo • 最初のステップでは,標本 x1(s) は, q1(x) =p^(x;θ1) からサンプリングする. • kステップ後の提案分布は, q~k ( x1:k ) K k ( xk | xk 1 ) K 2 ( x2 | x1 ) pˆ ( x1;1 ) • p~k(x1:k) をうまく選べば,重要度重みは, ~ (x ) ~ ~ (x ) w p ( x ) / q k 1:k k 1:k k 1:k • 重要度重みを以下のように更新する. ~ (x ) ~ ~ ~ (x ) w p ( x ; ) / p ( x ; ) w k 1:k A k A k 1 k 1 1:k 1 19 3.5 Safeguarding the variance • ステップ幅が大きいと,縮退してしまうので, 次の尺度を用いてステップ幅を抑える. ~ ( x( s ) ) 1 )2 Sk ( k ) s 1 (w k 1:k n n S k ( k ) S k 1 ( k 1 ) • 保護ステップ幅 αk は次式を解いて得る. 1 2 kT 2 Sk (k 1 )k k2 kT Sk (k 1 ) k 1 Sk 1 (k 1 ) – Δθk は反復kにおける探索方向. – Sk(θk) の微分は線形時間で計算できる. • ESS(有効サンプルサイズ) も用いる. 20 21 目次 1. 2. 3. 4. 5. 導入 潜在的ディリクレ配分法 アルゴリズムの説明 集団遺伝学への応用 まとめ 22 4 集団遺伝学への応用 • LDAと同じPrichardらのモデル LDA population structure 文書 個体 単語 遺伝子 トピック 個体群 • 右図のような過程 を考える. – 個体 60 – 遺伝子 30 – 個体群 4 23 実験の目標 • 次の2つの統計量を復元することが目標 – d と d’ の admixture distance 1 K ( d , d ' ) dk d 'k 2 k 1 2つの個体の祖 先の非類似度 – admixture level K K 1 ( d ) 1 dk 2( K 1) k 1 K 0・・・個人の遺伝子 が1つの集団から来 ている. 1・・・祖先が K の集 団に等しく分けられ ている. 24 実験手法 • 以下の3つの手法を比較する. – Stochastic approximation (SA) ・・・提案手法 – MCMC – Annealed importance sample (AIS) • 2つのデータセットに対し,K を 2~6まで. • 各手法は独立な試行を 20 回行った. • 公平のためサンプリング事象の数は同じに. – MCMC・・・50000のマルコフ連鎖,10000のburn-in. – SMC・・・100粒子,反復数500回. 25 admixture distance と admixture level の推定 • E ( d , d ' ), E ( d ) の推定値からの最も大きい 差をプロット. • Stochastic approximation は,ほぼすべての 場合で最も良い. 26 結果の分析 • 突然変異率 1/2,K = 4 と 突然変異率 2,K=3 の 場合でシミュレーション結果を詳しく見てみる. • 平均行列(60次正方行列,集団ごとに整列) – 黒い要素は共通の祖先を持つことを意味し,白 い要素は共通の祖先を持たないことを意味する. • 標準偏差行列 – 要素が黒いほど,分散が大きいことを意味する. (結果が疑わしい.) 27 admixture distance の平均と分散(突 然変異率1/2,K=4) 28 admixture distance の平均と分散(突 然変異率1/2,K=4) • MCMC – 試行1では,集団を正しく4つに区別した. – 試行2では,集団3と集団4を区別するのに失敗し, 集団2もおかしい. • AIS – MCMCと似た振る舞いをした. • Stochastic approximation – 集団3と集団4を区別するのに失敗した. – 結果に一致性がある. 29 admixture distance の平均と分散(突 然変異率2,K=3) 30 admixture distance の平均と分散(突 然変異率2,K=3) • 先程の設定,突然変異率1/2,K=4 より難しい. • MCMC – 試行1はとても正確だった. – 試行2では,集団1と集団2を区別するのに失敗し, 集団3と集団4を正しく割り当てるのに失敗した. • Stochastic approximation – いくつか不一致なところがあるが,結果にばらつ きがあるMCMCとは違い,結果に一致性がある. 31 目次 1. 2. 3. 4. 5. 導入 潜在的ディリクレ配分法 アルゴリズムの説明 集団遺伝学への応用 まとめ 32 5 まとめ • 変分推論,モンテカルロ法と確率的近似法に 基づく新しい確率推論手法を提案した. • 確率推論の問題で一致性と信頼性のある結 果を得た. • 提案手法の成功は,変分近似の選び方にか かっている. – LDA以外のモデルに対してはまだよく分からない. • 反復数に敏感であることを改善したい. 33
© Copyright 2024 ExpyDoc