生命機能数理モデル検討会@免疫学フロンティア研究センター [email protected] 時系列モデルの無情報事前分布 ~理論的な観点から~ 2014年11月26日 公開版 田中冬彦(Tanaka Fuyuhiko) 所属:大阪大学 基礎工学研究科 1.統計理論の位置づけ 研究対象は統計モデル! 実社会 具体的 遺伝子解析;情報理論;信号処理 AGCTAG CGACCT 脳計測;経済時系列 など 統計モデルの応用 個別の統計モデルを導入 M = { p ( x | θ );θ ∈ Θ ⊂ R k } (脳波の時系列モデル、DNAの隠れマルコフモデルなど) ココ 統計の基礎理論 抽象的 統計モデルの全体 {M } を扱う 発表の流れ 1.統計理論の位置づけ 2.ベイズの公式 3.ベイズ統計入門 4.無情報事前分布 5.ARモデルでの優調和事前分布 2.ベイズの公式 ベイズの公式 (1/2) ベイズの公式 P( A | B) P( B) P( B | A) = P( A) P ( A) Aが成立している確率 P( B | A) P( B ∩ A) = P( A ∩ B) Aが成立している条件の下でのBが成立する確率(条件付き確率) AとBが両方成立している確率 条件付き確率の定義 P( A ∩ B) = P( B | A) P( A) = P( A | B) P( B) ※ベイズの「公式」と呼ばれるが数学的には上の定義の書き換えにすぎない 例:モンティ・ホール問題 (オープンキャンパスより) 1. TVのショーで参加者に3つのドアから1つを選んでもらう. 正解のドアが1つだけあり, ドアの向こうには豪華賞品. 2. 参加者が1つ選んだあとで, 司会者は残り2つのうちハズレのド アを開けて見せる. (もし2つともハズレならランダムに1つ選ぶ) ハ ズ レ 3. 司会者は参加者にドアを選び直してもよいという もともと選んだドアをそのまま選ぶか それとも, 残っているもう一つのドアを選ぶか 豪華賞品が当たる確率が高いのはどっち? 答え もうひとつのドアを選ぶ方がよい 豪華賞品を得る確率は 2/3(約66.7パーセント) ・・・・ 1. TVのショーで参加者に 3000のドアから1つを選んでもらう. 正解のドアが1つだけあり, ドアの向こうには豪華賞品. 2. 参加者が1つ選んだあとで, 司会者は残り 2999のうちハズレのド ア(2998個)を開けて見せる. ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ハ ズ レ ・・・・ 3. 司会者は参加者にドアを選び直してもよいという もともと選んだドアをそのまま選ぶか それとも, 残っているもう一つのドアを選ぶか 豪華賞品が当たる確率が高いのはどっち? 答え もうひとつのドアを選ぶ方がよい 豪華賞品を得る確率は 2999/3000 (約99.97パーセント) ドアをあけてもらった → 2998個のドアは「ハズレ」という情報(データ)が手に入った → アタリ(豪華賞品)が2つのドアのどちらにあるかは依然として 不明だが、あらたなデータを利用できる 統計学 データをうまく利用して、知りたいことを推測する方法論、 これらを探究する学問 次に直観がきかない問題を紹介 例:がん診断 (松原望「入門ベイズ統計」より) 問 (以下は架空のものです) がんの有無を95%の確率で判別できる診断法があります 検査を受ける人の中でがんである割合は年間 0.5% Aさんの診断結果は陽性でした → Aさんががんの確率は? 予想される選択肢 1.95%でがんだから, 家族と今後について話し合う 2.所詮は半分半分 3.統計的にはがんの人は0.5%程度だろ? Aさんががんである確率は 約 9パーセント 問 (以下は架空のものです) がんの有無を95%の確率で判別できる診断法が2つあります それらは互いに独立な診断法です 検査を受ける人の中でがんである割合は年間 0.5% Aさんの診断結果は両方とも陽性でした → Aさんががんの確率は? 予想される選択肢 1.95%でがんだから, 家族と今後について話し合う 2.先の結果よりちょっと高い10%程度 3.統計的にはがんの人は0.5%程度だろ? Aさんががんである確率は 約 64パーセント がん診断の例 → 数値データはあるが, 下手な直観は危険! → 数学(確率・統計)をうまく使うことが重要 統計学 データと数式を用いて推測する方法論を探究する学問 3.ベイズ統計入門 ベイズ統計の概観 1.統計モデルの設定 2.事前分布の設定 3.事後分布に基いた推測 統計モデル (1/2) 統計モデル(確率モデル) データを発生させている源に関して数学的に記述したもの 1. 試行的なモデル;現象論的なモデル(e.g., 駅からの距離と土地の値段の相関) 2. 物理法則など厳格なモデル(e.g., 物理定数の測定実験;真値+観測誤差) 意識のギャップ ・工学、経済 → 1を想定 ・物理(実験)などの科学 → 2を想定 ・統計研究者 →1,2を柔軟に考察 統計モデル (2/2) 記法: データ x が確率分布(確率密度関数) p(x) に従う時 x ~ p( x) ∫ X p ( x)dx = 1, p ( x) ≥ 0 離散の時(以降はしばしば省略) ∑ p( x) = 1, p( x) ≥ 0 x∈ X 独立に同じ確率分布に従う時 (Independently identically distributed; i.i.d. ) i.i.d. y1 , , yn ~ p ( y ) 統計モデル 確率分布の有限次元パラメータ族を統計モデルと呼ぶ p ( x | θ ) ≥ 0, ∫ p ( x | θ )dx = 1 X θ ∀θ ∈ R k ← θ の動く範囲は扱う問題による 未知パラメータ で決まる真の確率分布が存在し, データxはそこから発生している とみなす(重要な仮定) 統計モデルの例(1/2) ・離散モデル X = {a1 , a2 , , ak +1} θ ∈ R k θi > 0 p ( x = ai | θ ) = θ i θ k +1 = 1 − θ1 − θ 2 − θ k k=1: ベルヌーイ試行(1回のコイン投げ) 表の出る確率 = θ 0 <θ <1 ・二項分布 n回投げて表がx回出る確率(独立性を仮定) n x pn ( x | θ ) = θ (1 − θ ) n − x 0 < θ < 1 x 統計モデルの例(2/2) ・平均未知の正規分布族(ガウスモデル) || x − θ ||2 1 p( x | θ ) = exp − k /2 ( 2π ) 2 θ ∈Rk 事前分布 事前分布の導入 θ 統計モデルに加えて, さらにパラメータ の確率分布 も仮定( 事前分布(prior distribution, prior )と呼ぶ) θ ~ π (θ ) π (θ ) ≥ 0, ∫ π (θ )dθ = 1 Θ 事前分布の例 k=1: ベルヌーイ試行(1回のコイン投げ) 表(H)の出る確率=p ( x = H | θ ) = θ π (θ ) = Cθ −1/ 2 (1 − θ ) −1/ 2 0 <θ <1 Jeffreys事前分布(Jeffreys prior) 事後分布の構成 事後分布 未知パラメータも確率分布をもつとみなすことで 条件付き分布がつくれる(ベイズの公式) p ( x | θ )π (θ ) = π (θ | x ) = p( x) p ( x | θ )π (θ ) ∫ p( x | θ )π (θ )dθ をパラメータの事後分布 (posterior distribution) と呼ぶ ベイズの公式 P( A | B) P( B) P( B | A) = P( A) P( A ∩ B) = P( B | A) P( A) = P( A | B) P( B) ベイズ統計の考え方 統計モデルに基いた推論 (統計モデル所与の下)データから未知パラメータが推測できれば, データを発生させる真の確率構造が把握できたことになる ベイズ統計の考え方 未知パラメータの確率分布(事前分布)を導入し、 事後分布に基いて系統的に推測を行う π (θ ) π (θ | x) θ B := ∫ θπ (θ | x)dθ 事前情報に基づいたパラメータの分布 事前情報+実データに基づいたパラメータの分布 パラメータのベイズ推定量(の例) 事後分布のイメージ ・事前分布=パラメータに関する不確かさを表現 ・事後分布=データ x を得た後の不確かさを表現 π (θ ) π (θ | x) Θ π (θ ) ≥ 0 ∫ π (θ )dθ = 1 Θ Θ π (θ | x) ≥ 0 ∫ π (θ | x)dθ = 1 Θ (独立同一分布の下)データ数を増やしていくと 真値の周りに鋭いピークをもつ事後分布になる がん診断の例 θ = 0,1 (0=がん無; 1=がん有) ・事前分布=がんの有無に関する事前の情報 ・事後分布=診断結果を得た後の確率を表現 π (0) π (1) π (θ | x1 , x2 ) π (θ | x1 ) π (θ ) Θ π (0 | x1 ) π (1 | x1 ) Θ π (0 | x1 , x2 ) π (1 | x1 , x2 ) Θ ベイズ統計による推定の例 (1/2) 例:新商品の売上予測 問題 試験販売: n = 100 人で30人購入 市場(10,000人)に出すとどれくらい売れるか? 統計モデル 潜在的な購入者の割合 θ 0 <θ <1 n 人のうち実際にx人が購入する確率 n x pn ( x | θ ) = θ (1 − θ ) n − x x ベイズ統計による推定の例 (1/2) 答え方(非ベイズ統計) n x n− x pn ( x | θ ) = θ (1 − θ ) x 0 <θ <1 x ˆ 最尤推定量 (MLE; Maximum Likelihood Estimator θ ( x) = ) n 30 ˆ θ (30) = = 0.3 100 過去の似たような商品での情報は一切反映しない結果! ベイズ統計による推定の例 (2/2) 答え方(ベイズ統計) 過去の似たような商品での購入者の割合の分布(事前分布) 1 π (θ ) = 2 θ 0 <θ <1 パラメータの事後分布 1 π (θ | x) = θ 30−1/ 2 (1 − θ ) 70 Be(30 + 1 / 2,71) 事後分布に基いて, 期待値やメディアン、MAP(事 後確率が最大の値)などでパラメータを推定できる ベイズ統計が有効なケース 実用上のニーズ ・厳格な法則よりも近似的なルールを与えたい(データマイニング;Amazonなどのおすすめ商品) ・過去のデータも踏まえて意思決定を行いたい(迷惑メールフィルタ;単語変換の予測;音声認識) ベイズ統計発展の背景 ・計算機の性能向上と事後分布計算のアルゴリズム開発(事後分布が計算可能) ・高次元の離散データの取り扱い(特にゲノムやWeb関係) ・人間行動のモデル化と予測に対するニーズ(ケータイ、カーナビ) ベイズ統計に対する誤解 客観的であるべき科学実験にベイズは使えない? 事前分布は形式的なものを使うことも(無情報事前分布) 頻度論(伝統的な統計学) vs ベイズ統計 という図式 実際にはベイズは頻度論の枠組みを広げたもの; 頻度論の結果は特定の事前分布を用いた推測に相当 (ベイズは包含している) 無情報事前分布の選択の問題は重箱のスミつつき? ベイズの問題ではなく、小標本での統計学が 昔から抱えていた問題 (頻度論は漸近理論に頼らざるを得なかった) 4. 無情報事前分布 無情報事前分布 無情報事前分布= パラメータに関する事前情報が全くない場合 に使う事前分布 統計モデルのみから決めたい M = { p( x | θ ) : θ ∈ Θ ⊆ R k } π ( dθ ) ? 注意点 1.いまだに議論があるが、望ましい条件などのコンセンサスもある(後述) 2.「無情報」は“noninformative”の訳語であり, objective prior, vague prior などと も言う 無情報事前分布の選択 歴史的には3段階 k Θ ⊆ R 1. パラメータの動く範囲のみを見る(Laplace’s criterion) 2. 確率分布の空間への埋め込まれ方を見る M = { p( x | θ ) : θ ∈ Θ ⊆ R k } 3. さらに、統計的決定理論の立場で眺める (統計理論の最先端) Laplace’s Criterion 素朴なアイディア 事前の情報が全くない = 異なるパラメータに同じ重み = 一様分布 π U (θ ) = const. πU Θ パラメータの取り方に依存した定義になっている 例:ゆがんだコイン コイン投げのモデル (H=表, T=裏) M = {( p ( H | θ ), p (T | θ )) = (θ ,1 − θ ) : θ ∈ Θ} Θ = (0,1) = {( p ( H | ξ ), p (T | ξ )) = (tan ξ ,1 − tan ξ ) : ξ ∈ Ξ} π Ξ = 0, 4 ある人の主張する「一様分布」 π U (θ ) = 1 別の人の主張する「一様分布」 π U (ξ ) = 4 ⋅ π −1 on Ξ → θ に変換すると・・・ π U (ξ (θ )) = 4 ⋅ π −1 on Θ dξ 1 = 4 ⋅ π −1 dθ 1+θ 2 ≠1 変換のヤコビアン 同じ統計モデルなのに「一様分布」が食い違ってしまう! 無情報事前分布の指針 望ましい条件 - パラメータの取り方に依存しない定義(一様分布はダメ) - 汎用性(対称性の低い複雑なモデルでも使える) - 得られる結果が望ましい性質をもつ、なんらかの解釈が可能 Jeffreys 事前分布 Jeffreys 事前分布 π J (θ ) π J (θ ) ∝ det( g ij ) g ij Fisher 情報行列 ∂ log p ( x | θ ) ∂ log p ( x | θ ) g ij := E X ∂θ i ∂θ j E X [⋅] := ∫ ⋅ p ( x | θ )dx - パラメータの取り方に依存しない -汎用性(適当な正則条件のもとで常に存在) → 他の事前分布との比較対象 - ただし, improper (積分発散)になるケースも多く 必ずしも良い選択肢とはいえない Jeffreys 事前分布よりもよい事前分布の提案が研究課題 例:ガウス分布族 ガウス分布族 (正規分布族)=平均と分散で特徴づけられる確率分布族 2 x µ ( ) − 2 exp− M = { p ( x | θ ) : θ ∈ Θ ⊂ R } p( x | θ ) = 2 2 2πσ 2σ 1 θ = (θ1 , θ 2 ) = ( µ , σ 2 ) 簡単のため分散=1とおくと π J (µ ) ∝ 1 µ ∈R 積分は発散 (improper とよばれる) ∫ dµπ J (µ ) = ∞ Θ = R × (0,+∞) 無情報事前分布の提案 さまざまな無情報事前分布 - Jeffreys prior - Maximum likelihood prior/Alpha parallel prior - Superharmonic prior - Reference prior/Latent information prior - Haar measure (on a unimodular group) 今もなお多くの議論有り (cf. 量子系特有の例はFT 2012, Physical Review A ) 今回注目する事前分布 優調和事前分布 (Komaki (2006), T and Komaki (2011)) ・Jeffreys事前分布に基いたベイズ予測密度の性能比較の観点から導出 ・優調和事前分布が存在 優調和事前分布に基いたベイズ予測が漸近的にジェフリー ズ事前分布より優れた推定ができる ・具体的な構成 とても難しい!! (しかし、ARモデル・MAモデルでは陽に与えることができる!) 以下、ARモデルの優調和事前分布を紹介 5.ARモデルでの 優調和事前分布 AR過程とそのスペクトル密度 AR ( p )過程 p xt = −∑ ai xt −i + ε t ε t ~ N (0, σ 2 ) 白色雑音 i =1 a1 , , a p をパラメータ → ARモデル AR( p ) 過程のスペクトル密度 2 σ 1 2 S (ω | a1 , , a p , σ ) = 2π | L a (e iω ) |2 L a ( z ) = 1 + a1 z −1 + + a p z − p 例:AR過程 AR(1)過程(自己回帰過程) xt = −0.35 xt −1 + ε t 定常Gauss過程 -4 -2 x 0 2 x (観測値) 0 200 400 600 800 1000 Index t (時刻) AR(1)過程+トレンド(決定論的) yt = xt + f (t ) 非定常 10 12 2 4 6 8 (Gauss過程) -2 0 0.001 * t^2 + x[900:1000] y (観測値) 0 20 40 60 t 80 100 t (時刻) 例:AR過程のスペクトル密度 AR(3)過程 xt = −0.18 xt −1 + 0.05 xt − 2 + 0.39 xt −3 + ε t ε t ~ N (0, 1) スペクトル密度 1 S (ω | a1 , a2 , a3 ) = | e 3ωi + 0.18e 2ωi − 0.05eωi − 0.39 |− 2 2π ピークや裾幅は S(ω) 0.6 0.4 0.2 0.0 ST 0.8 1.0 ARパラメータで決まる -3 -2 -1 0 omega 1 2 3 ω(周波数) AR(p)での優調和事前分布 定理 AR(p) ( p ≥ 2) 過程において 分散パラメータ固定で考える 1. Jeffreys 事前分布はimproper 2. 優調和事前分布(のひとつ)はproperであり、ARパラメータを用いると π H (a )da ∝ (1 + a1 + + a p )(1 − a1 + + (−1) a p ) p −1 / 2 da 系 上の優調和事前分布に基づいて構成したスペクトル密度のベイズ推定量は許容的 AR(3)過程での数値実験(1/3) AR(3)過程の事前分布(PACパラメタで表示) π J ( r ) dr ∝ dr (1 − r )(1 − r )(1 + r ) 2 1 2 3 2 2 AR(3)での数値実験 二つの推定スペクトル密度の性能比較 SˆJ (ω ) := ∫∫∫ S (ω | r )π J ( r | x)dr SˆH (ω ) := ∫∫∫ S (ω | r )π H ( r | x)dr π H (r )dr ∝ 1 − r32 dr 2 1 − r1 真のスペクトル密度 (任意にPACパラメータ固定) S 0 (ω ) := S (ω | r0 ) 観測データ(AR(3)過程から生成) x = ( x1 , x2 ,, xn ) データの発生を繰り返して D ( S 0 || SˆJ ) D ( S 0 || SˆH ) の分布を見る AR(3)過程での数値実験(2/3) * D( S 0 || SˆJ ) D( S 0 || SˆH ) のヒストグラム ( r1 , r2 , r3 ) = (0.2, - 0.4,-0.2) 20 10 10 20 Frequency 30 π H (θ ) is better!! D ( S 0 || SˆJ ) D ( S 0 || SˆH ) 0 0 Frequency 30 40 a1= -0.2 ; a2= 0.344 ; a3= 0.2 40 r1= 0.2 ; r2= -0.4 ; r3= -0.2 : 100 r 0.0 0.2 0.4 0.6 0.8 1.0 Risk for the Jeffreys 1.2 1.4 0.0 0.2 0.4 0.6 0.8 1.0 Risk for a superharmonic SˆH (ω ) の方が SˆJ (ω ) より S 0 (ω ) に集中している i.e., 良い推定 1.2 1.4 参考:MLE Plug-in との比較 * D( S 0 || SˆM ) のヒストグラムと比較 ( r1 , r2 , r3 ) = (-0.6, - 0.4,0.2) SˆJ(H) (ω ) := ∫∫∫ S (ω | r )π J(H) ( r | x)dr SˆM (ω ) := S (ω | rˆMLE ( x)) data090906/KLH_cnt_1_1.txt 30 25 20 10 15 20 D ( S 0 || SˆM ) 0 0 5 D ( S 0 || SˆH ) 5 10 15 Frequency Frequency 25 30 25 20 15 10 5 D ( S 0 || SˆJ ) 0 Frequency data090906/KLM_cnt_1_1.tx 30 data090906/KLJ_cnt_1_1.txt 0.0 0.5 1.0 1.5 2.0 2.5 Risk for Spectral Density based on the 0.0 0.5 1.0 1.5 2.0 2.5 Risk for Spectral Density based on a s 0.0 0.5 1.0 1.5 2.0 2.5 Risk for plug-in Spectral Density estim ベイズの方がMLEのPlug-inに比べて性能が良い まとめ ベイズ統計での事前分布の選択は難しい問題。特に非i.i.d. モデル は理論的な研究が少ない Jeffreys事前分布は一様分布をパラメタの取り方に対して不変な形に 拡張 → 推定量を構成する上では、もっとよい事前分布がとれる 今後の課題 シンプルなモデルでの理論解析と具体的(かつ複雑な)モデルでの実 証研究の二極化 → (時系列に限らず)シンプルでかつ応用上も重要なモデルが欲しい 文献 情報幾何のテキスト: S. Amari:Differential geometrical methods in statistics. Springer-Verlag, 1985. S. Amari and H. Nagaoka,: Methods of Information Geometry. AMS, Oxford, 2000. スライド後半で引用した文献 (見やすさを踏まえ省略された文献は原論文を参照; 主にnoninfo. prior と情報幾何関係) S. Amari: Differential geometry of a parametric family of invertible linear systems - Riemannian metric, dual affine connections, and divergence. Math. Syst. Theory, 20 (1987), 53-82. J. Berger and R. Y. Yang, Noninformative priors and Bayesian testing for the AR(1) model. Econometric Theory, 10 (1994), 461-482. J. M. Bernardo: Reference posterior distributions for Bayesian inference. J. R. Statist. Soc. B, 41, (1979), 113-147. J. A. Hartigan: The Maximum Likelihood Prior. Ann. Statist., 26 no.6 (1998), 2083-2103. F. Komaki: Shrinkage priors for Bayesian prediction. Ann. Statist., 34 (2006), 808-819. H. Matsuzoe, J. Takeuchi, and S. Amari, Equiaffine structures on statistical manifolds and Bayesian statistics. Differential Geom. Appl., 24 (2006), 567-578. J. Takeuchi and S. Amari, α-parallel prior and its properties. IEEE. Trans. Info. Theory, 51, no.3 (2005), 1011-1023. F. Tanaka, Superharmonic priors for autoregressive models. Mathematical Engineering Technical Reports, 2009-18, (2009) 1-20. F. Tanaka and F. Komaki:Asymptotic expansion of the risk difference of the Bayesian spectral density in the autoregressive moving average model, Sankhya Series A, Indian Statistical Institute, Vol.73-A (2011), pp. 162-184. F. Tanaka: Curvature form on statistical model manifolds and its application to Bayesian analysis, Journal of Statistics Applications and Probability, Natural Sciences Publishing, Vol.1 (2012), 35-43. F. Tanaka: Noninformative prior in the quantum statistical model of pure states. Phys. Rev. A, 85 (2012): 062305. これは量子情報でのprior
© Copyright 2024 ExpyDoc