小暮研究会2 第1章 ベイズのアルゴリズム 1.4.ベイズ定理の構成要素 1.4.2.事前情報確率 p( 1.4.3.事前後情報確率 p( | y ) 総合政策学部3年 堀慎太郎 ベイズ定理の復習 p y l ( y | p( ) 事後分布 尤度 事前分布 事前情報確率 p( 事前情報確率とは、確率分布形式に おいて、 に対する思いを表している よって、自分が気に入るものならば何 でも選んでしまう可能性がある!自分 の思うような分布だけを選んで使って もいいの? そこで・・・ ・技術的、歴史的な理由から有益にな るような事前分布ものを紹介する ・これらはベイズ的手法でよく使われる ものばかりである そこで・・・ 技術的、歴史的な理由から有益にな るような事前分布ものを紹介する これらはベイズ的手法でよく用いられ ることが多い主要な事前分布である 事前分布の種類 仮説事前分布 包括的事前分布 自然共役事前分布 非正則事前分布 ジェフリーズの事前分布 階層事前分布 多次元パラメータの事前分布 仮説事前分布 事前分布を1つに絞らない 事前分布を変更した時、事後分布が どのように変化するかを調べる(尤度 にも同様のことができる) =感度分析 事前分布 → データ → 事後分布 包括的事前分布 常識的に考えておかしくない事前分 布(「思い」)を用いること 漠然事前分布(一様分布、均一分布) パラメータ領域部分に確率0を割り当 てる事前分布は避けるべき どんな「思い」とも矛盾しない =「思い」を表さない! 一様分布の例 0 1 自然共役事前分布 事前分布に尤度を掛けたとき、同じ分 布族をもつ事後分布が得られるもの 事前分布 尤度=事後分布 同じ分布族に属する カーネルの考え方 ランダムな変数xに対して k・g( x) 1 となるような定数kが存在するとき、 g(x ) は関数のカーネル(核)という カーネルは、密度関数や確率関数の どの変数に注目するかで変化する EXAMPLE1.7ベルヌーイ試行パラメータの自然共役分布 乗法定数に従う一般式 s (1 n sをもつ ベルヌーイ試行において、θ の尤度を考え る。θ の事後密度関数が事前分布と尤度の a 1 b 1 積なので、 (1 に比例する事前分布 は、必ず同じ数式を持つ事後分布関数を導く。 よって、この問題における事前分布の自然 共役分布族はベータ関数である。 EXAMPLE1.7ベルヌーイ試行パラメータの自然共役分布 ベルヌーイ尤度関数:l ( y s (1 n s ,0 事前分布:p( a 1 (1 b1 事後分布は・・・ p( y | (1 ) ・ (1 ) s a 1 n s b 1 (1 ) B( s a , n s b) n s s B(a , b) 1 0 a 1 b 1 t a 1 (1 t )b 1 dt 非正則事前分布 θに対する確率分布を、標本分布Θに 関して積分しても収束しないような確 率分布 例:一様分布 p( ) 1, なぜ非正則事前分布が重要? 事前分布が非正則分布であっても適正な 事後分布が得られる →EXAMPLE1.8 非正則事前分布は正則事前分布の近似 とみなすことができる →EXAMPLE1.9 事前情報が非正則分布の場合、尤度関数 はほとんど無視できる →精密測定 EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布 結論 非正則な事前分布に尤度関数を掛け ると、その結果として得られる事後分 布は正則である! EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布 平均θ、精度(バラツキ)1の正規分布 で表される尤度関数を考える 1 2 l ( ; y ) e xp ( )( yi ) 2 i 1 n 1 2 e xp- ( ) ( yi ) 2 i 1 n EXAMPLE1.8非正則事前分布が与えられた時の正則事後分布 ここから、 n n i 1 i 1 n 2 2 ( y ) ( y y y ) i i n ( y i y ) ( y ) 2 よって、 i 1 2 i 1 n 2 l ( ; y ) e xp ( )( y ) 2 (1.21) EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布 n 2 l ( ; y ) e xp ( )( y ) 2 これは、平均y、精度nの正規分布 (のカーネル)である。n 0の値とyが 何であれ、これは正則な確率密度関数 である。 よって、正則事前分布に尤度を掛けると 正則な事後分布が得られることが分かる。 EXAMPLE1.9 精度がτに等しく平均0の正規分布に従うθの事 前分布に尤度を掛ける。(指数を修正し、無 意味な乗法定数を取り除く) n 2 2 p( | y ) e xp ( )( y ) e xp ( ) 2 2 ( n )( )2 e xp 2 (1.22) EXAMPLE1.9 式(1.22)は、 ny 平均 , 精度 n の正規分布カーネル。 (n ) 2 正の数 を 0 に近づけると、事前密度関数 e 2 が ny 定数に近づき、事後密度平均 は y に近づき、 (n ) 事後密度関数は n に近づく。 これは式(1.21)にある非正則で一様な事前分布 と同じ程度の事後分布になる。 EXAMPLE1.9 ここから、事前分布の思いが曖昧なと き、事前分布を一様であるかのように することによって、実際の事後分布の 思いに近似させられるということが分 かる。 精密測定 尺度についての精度の問題 ベイズ定理より、事前分布に0という確率分 布を割り当てた場合、事後分布は必ず0にな る。 1.4.2で分かったように、事前情報が一様分 布するときは、尤度関数はほとんど無視でき る。 このような領域では、0である尤度関数を掛 けても、事後分布は0となるため一様分布す るような事前分布はほとんど無視することが 客観確率と初期事前情報 任意のモデルの事前分布を得る規則 や、最低限、情報になりうるような規 則の調査がこれまで多くなされてきた その一人に、ジェフリーズ ジェフリーズの不変事前分布 パラメータを変換しても事後分布への 思いが不変になるように無情報事前 分布を定義 つまり、情報の平方根に比例する事 前分布を選択すること 2 logl ; y l E 2 2 (1.23) ジェフリーズの事前分布 式(1.23)より、ジェフリーズの事前分 布は、 yの繰り返し実現を平均した対 数尤度関数を二階微分し、期待値を 求めることで得られる 第二パラメータがh(θ)、例えばθがσ 1 となり、γ=h(θ)が となるものを 2 想定し、これを考える ジェフリーズの事前分布 2 logl ; y I E 2 2 ここで、 logl logl logl logl 2 logl ( ) 2 2 2 2 2 2 2 logl )0 I I ( ) (1.24) E ( ジェフリーズの事前分布 I r : に関する情報 I : に関する情報 (1.24)式より、 I I 1 2 r 1 2 l ( ) I l ( ) I 1 2 1 2 1 2 l ( ) I EXAMPLE1.10正規精度に対するジェフリーズの事前分布 p( y | ):平均 0 、標準偏差 の互いに独立な n個の正規分布の確率密 度関数 2 yi logl ( ) n log 2 2 二階微分すると、 yi2 2 log( ) n ( 2 ) 3 4 2 y の期待値が であるため、 に関する情報 I は 2 2 よって、ジェフリーズの事前分布は 1 2n 2 となる に比例する EXAMPLE1.10正規精度に対するジェフリーズの事前分布 ここで、 1 2 とすると、 の 対数尤度関数は yi2 n logl ( ) ( ) log 2 2 二階微分することにより、 に対する 1 ジェフリーズの事前分布は に比例する n よって、I 2 2 EXAMPLE1.10正規精度に対するジェフリーズの事前分布 σに関する事後分布 2 y ( n1) i p( | y ) ・e xp 2 2 τに関する事後分布 n 2 y i 2 1 p( | y ) ・e xp 2 2 τをσに置き換えると、 (1.25) 2 2 y n 2 i p( | y ) e xp 2 3 2 2 y ( n1) i e xp 2 2 これは(1.25)と同一 → 不変性を裏付けている! EXAMPLE1.11 ベルヌーイ試行に対するジェフリーズの事前分布 n回のベルヌーイ試行におけるθの尤度関数 l ( ) (1 ) s n s 対数尤度関数を二階微分し、期待値を求める L( ) s log (n s ) log(1 ) L s n s 1 2L s n s 2 2 (1 )2 EXAMPLE1.11 ベルヌーイ試行に対するジェフリーズの事前分布 n n n E( s | , n) n より、 I 1 (1 ) よって、ジェフリーズの事前分布は 1 P ( ) (1 ) これは、ベータ関数 B(0.5 , 0.5) の確率密度関数であり、 正則分布であるがUの形で表される。よって、ジェフリーズ の事前分布は一様分布にはならない! 階層事前分布 マルチレベル・モデルのように、グ ループや個人ごとにパラメータを同時 推定するようなランダム効果を持つモ デルを扱うときは、事前分布を階層的 に与えたほうがよい場合がある EXAMPLE1.12 階層事前分布 ( 1 , .... , n ):同一でないが同じ次 元をもつ精度の集合 パラメータ ( , )で与えられるガンマ分布 ( , ) 0 x e x dx, 0, , 0 (2.18)より事前分布p( | )を順番に選んでいく n p( , ) i e 1 i i 1 (1.26) 尤度関数は、 yi2 i l ( y | , ) e xp( ) 2 i 1 n 1 2 i (1.27) EXAMPLE1.12 階層事前分布 事後分布は、 p( , | y ) l ( y | , ) p( | ) p( ) 1 2 n n y 1 i i i 2 i e xp( ) i e p( ) 2 i 1 i 1 1 2 n yi 2 1 i e xp i ( ) p( ) 2 (1.28) i 1 あらゆる y の事前分布が同じ精度をもつため この事前分布はロバストベイズ分析の基礎 として用いられることが多い 階層事前分布の特徴 尤度と事前分布の間の関数が任意の性 質を持っている ex. パラメータθで書かれるモデルを考える ①θに対し、ハイパーパラメータψに依存す る事前分布を与える ②ψに未知のパラメータと無関係な事前分 布P(ψ)を与える 階層事前分布の特徴 ①の場合、 l ( ; y ) p( | ) p( ) ここでの事前分布は ( | ) p( ) p( , ) ②の場合、θを積分して l ( ; y ) p( ) 事前分布は l ( ; y ) l ( ; y ) p( | )d ①と②の場合のどちらの尤度が正しいかという ことはさほど問題ではない。むしろそこから得 られる事後分布がどのように変化するかが問題である 多次元パラメータの事前分布 スカラーパラメータについての言及はこれ まで多くなされてきたが、ベクトルパラメー タについてはあまり明らかにされていない 多次元パラメータにおいても、尤度関数を 積の形に因数分解することによって、事後 分布もk個の説明変数に分解できる EXAMPLE1.13 回帰モデルにおけるパラメータ分離 Exampe1.2においてθ=(α,β)となるようなαとβの二つのパラメータが 存在する場合を考える 消費と収入の関係は、 ci yi i , ~ n(0,1) (1.29) これは、i 1,2, .... , nに対して独立に 与えられるパラメータとyの分布である (1.6)を導くこの式より、尤度は 1 n 2 l ( , ) e xp (ci yi ) 2 i ! EXAMPLE1.13 回帰モデルにおけるパラメータ分離 これは(1.7 )を一般化した式として書ける 1 ˆ l ( , ) e xp ( )( ) (1.30) 2 ここで、 y y y c y c y n X X yi n yi i 2 i 1 i 2 i i i i (1.31) EXAMPLE1.13 回帰モデルにおけるパラメータ分離 (1.30)を見ても分かるように、これを割って純粋 にαやβごとに整理することはできない n しかし、X Xが対角行列で、 yi を 0 にすることはできる i 1 これを確認するために、モデルを以下のように書き換える ci ( y ) (yi y ) i * * yi i これは、 (1.29)と同じモデルだが、異なったパラメータをもっている つまり、θ (α,β)の代わりにθ の相関関数g(θ) ( * , )の観点で パラメータ化されている EXAMPLE1.13 回帰モデルにおけるパラメータ分離 これにより新しい X X 行列が得られる n 0 0 2 ˆ ( y y ) i (1.32) ここで0が現れるのは、平均から求めた計測値の合計が 完全に0となるからである この対角行列から、g( )における尤度は次のようになる l ( g ( ); y ) e ここで、ˆ * n ( )( * ˆ * ) 2 2 e ( y i*2 2 )( * ˆ * ) 2 ( c c ) ( y y ) c , ˆ ( y y) i i 2 i EXAMPLE1.13 回帰モデルにおけるパラメータ分離 再パラメータ化された尤度の第一要 素は、平均消費額を中心とした正規 曲線の形をもち、第二要素は、最小 二乗推定値のβを中心とした正規曲 線の形をもつ 情報の直行化 重要な特徴 情報行列におけるパラメータ変換の効果 ・尤度が何倍にも分離可能な場合は対数尤度関数 付加的に分離可能 ・対数尤度関数を対角に二階微分したものは完 全に0になる(ここではg(θ)の情報行列は (1.32)から得られる) つまり、情報行列を多角化するg(θ)関数 を探すことで、分離可能なパラメータを探 すことができる→情報の直行化という 事後分布 事後分布はθについての思いを表す θは事前分布の思いによって与えら れ、尤度によって具体化されている 自分のモデルの結果を示すためには 最終的に得られた事後分布をしめす 必要がある EXAMPLE1.14 ベルヌーイ試行 事前の思いが自然共役事前分布のβ族で あるとすると、形式上は p( ) a 1 (1 )b1 , 0 1 n回のベルヌーイ試行を行う上で、条件付き独立かつ (1.13 )で与えられたθと尤度を用いる場合、 p( | y) s a 1 (1 ) n s b1 (1.33) EXAMPLE1.14 ベルヌーイ試行 平均と分散をβ密度のカーネルとみなすと、 sa ( s a )(n s b) E ( | y ) , V ( | y ) nab ( n a b)2 ( n a b 1) (1.34) もしsとnが大きければ、これらは 比で E ( | y ) , V( | y ) (1 ) n EXAMPLE1.14 ベルヌーイ試行 s もしnが大きく、 が固定されているならば、 n 事後分散は小さくなり、全ての確率全体は s ほとんど に限定される n
© Copyright 2025 ExpyDoc