小暮研究会2 - 慶應義塾大学 湘南藤沢

小暮研究会2
第1章 ベイズのアルゴリズム
1.4.ベイズ定理の構成要素
1.4.2.事前情報確率 p( 
1.4.3.事前後情報確率 p( | y )
総合政策学部3年 堀慎太郎
ベイズ定理の復習
p y     l ( y |   p( )
事後分布
尤度
事前分布
事前情報確率 p( 


事前情報確率とは、確率分布形式に
おいて、 に対する思いを表している
よって、自分が気に入るものならば何
でも選んでしまう可能性がある!自分
の思うような分布だけを選んで使って
もいいの?
そこで・・・
・技術的、歴史的な理由から有益にな
るような事前分布ものを紹介する
・これらはベイズ的手法でよく使われる
ものばかりである
そこで・・・


技術的、歴史的な理由から有益にな
るような事前分布ものを紹介する
これらはベイズ的手法でよく用いられ
ることが多い主要な事前分布である
事前分布の種類







仮説事前分布
包括的事前分布
自然共役事前分布
非正則事前分布
ジェフリーズの事前分布
階層事前分布
多次元パラメータの事前分布
仮説事前分布
事前分布を1つに絞らない
 事前分布を変更した時、事後分布が
どのように変化するかを調べる(尤度
にも同様のことができる)
=感度分析
 事前分布 → データ → 事後分布

包括的事前分布
常識的に考えておかしくない事前分
布(「思い」)を用いること
 漠然事前分布(一様分布、均一分布)
パラメータ領域部分に確率0を割り当
てる事前分布は避けるべき
 どんな「思い」とも矛盾しない
=「思い」を表さない!

一様分布の例
0
1
自然共役事前分布

事前分布に尤度を掛けたとき、同じ分
布族をもつ事後分布が得られるもの
事前分布 尤度=事後分布
同じ分布族に属する
カーネルの考え方


ランダムな変数xに対して  k・g( x)  1
となるような定数kが存在するとき、
g(x ) は関数のカーネル(核)という
カーネルは、密度関数や確率関数の
どの変数に注目するかで変化する
EXAMPLE1.7ベルヌーイ試行パラメータの自然共役分布
乗法定数に従う一般式 s (1    n sをもつ
ベルヌーイ試行において、θ の尤度を考え
る。θ の事後密度関数が事前分布と尤度の
a 1
b 1
積なので、 (1    に比例する事前分布
は、必ず同じ数式を持つ事後分布関数を導く。
よって、この問題における事前分布の自然
共役分布族はベータ関数である。
EXAMPLE1.7ベルヌーイ試行パラメータの自然共役分布
ベルヌーイ尤度関数:l (  y    s (1    n s ,0  
事前分布:p(   
a 1
(1   
b1
事後分布は・・・
p( y |     (1   ) ・ (1   )
s  a 1
n  s  b 1

(1   )
 B( s  a , n  s  b)
n s
s
 B(a , b) 

1
0
a 1
b 1
t a 1 (1  t )b 1 dt
非正則事前分布

θに対する確率分布を、標本分布Θに
関して積分しても収束しないような確
率分布
例:一様分布
p( )  1,      
なぜ非正則事前分布が重要?



事前分布が非正則分布であっても適正な
事後分布が得られる →EXAMPLE1.8
非正則事前分布は正則事前分布の近似
とみなすことができる →EXAMPLE1.9
事前情報が非正則分布の場合、尤度関数
はほとんど無視できる →精密測定
EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布

結論
非正則な事前分布に尤度関数を掛け
ると、その結果として得られる事後分
布は正則である!
EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布

平均θ、精度(バラツキ)1の正規分布
で表される尤度関数を考える
 1
2
l ( ; y )   e xp  ( )( yi   ) 
 2

i 1
n
 1
2
 e xp- ( ) ( yi   ) 
 2 i 1

n
EXAMPLE1.8非正則事前分布が与えられた時の正則事後分布
ここから、
n
n
i 1
i 1
n
2
2
(
y


)

(
y

y

y


)
 i
 i
n
  ( y i  y )   (  y )
2
よって、
i 1
2
i 1
 n
2
l ( ; y )  e xp ( )(  y ) 
 2

(1.21)
EXAMPLE1.8非正則事前分布が与えられたときの正則事後分布
 n
2
l ( ; y )  e xp ( )(  y ) 
 2

これは、平均y、精度nの正規分布
(のカーネル)である。n  0の値とyが
何であれ、これは正則な確率密度関数
である。
よって、正則事前分布に尤度を掛けると
正則な事後分布が得られることが分かる。
EXAMPLE1.9

精度がτに等しく平均0の正規分布に従うθの事
前分布に尤度を掛ける。(指数を修正し、無
意味な乗法定数を取り除く)
 n
  2
2
p( | y )  e xp ( )(  y )  e xp ( ) 
 2

 2 
 ( n   )(   )2 
 e xp

2
(1.22)


EXAMPLE1.9
式(1.22)は、
ny
平均 
, 精度 n   の正規分布カーネル。
(n   )
2


正の数 を 0 に近づけると、事前密度関数 e 2 が
ny
定数に近づき、事後密度平均
は y に近づき、
(n   )
事後密度関数は n に近づく。
これは式(1.21)にある非正則で一様な事前分布
と同じ程度の事後分布になる。
EXAMPLE1.9

ここから、事前分布の思いが曖昧なと
き、事前分布を一様であるかのように
することによって、実際の事後分布の
思いに近似させられるということが分
かる。
精密測定



尺度についての精度の問題
ベイズ定理より、事前分布に0という確率分
布を割り当てた場合、事後分布は必ず0にな
る。
1.4.2で分かったように、事前情報が一様分
布するときは、尤度関数はほとんど無視でき
る。
このような領域では、0である尤度関数を掛
けても、事後分布は0となるため一様分布す
るような事前分布はほとんど無視することが
客観確率と初期事前情報


任意のモデルの事前分布を得る規則
や、最低限、情報になりうるような規
則の調査がこれまで多くなされてきた
その一人に、ジェフリーズ
ジェフリーズの不変事前分布


パラメータを変換しても事後分布への
思いが不変になるように無情報事前
分布を定義
つまり、情報の平方根に比例する事
前分布を選択すること
  2 logl  ; y  

l   E 
2
2


(1.23)
ジェフリーズの事前分布


式(1.23)より、ジェフリーズの事前分
布は、 yの繰り返し実現を平均した対
数尤度関数を二階微分し、期待値を
求めることで得られる
第二パラメータがh(θ)、例えばθがσ
1
となり、γ=h(θ)が
となるものを
2

想定し、これを考える
ジェフリーズの事前分布
  2 logl  ; y  

I   E 
2
2


ここで、
 logl  logl 


 
 logl  logl  2  logl  

( ) 
2
2



  2
2
2
2
 2
 logl
)0
I   I ( ) (1.24)  E (


ジェフリーズの事前分布
I r :  に関する情報
I :  に関する情報
(1.24)式より、

I  I

1
2
r
1
2

 
l ( ) I 
 l ( ) I

 
1
2
1
2
1
2
 l ( ) I
EXAMPLE1.10正規精度に対するジェフリーズの事前分布
p( y |  ):平均 0 、標準偏差 の互いに独立な
n個の正規分布の確率密
度関数
2
yi
logl ( )   n log  
2 2
二階微分すると、
yi2
 2 log( )
n
 ( 2 )  3 4
2



y の期待値が であるため、 に関する情報 I は
2
2
よって、ジェフリーズの事前分布は
1

2n

2
となる
に比例する
EXAMPLE1.10正規精度に対するジェフリーズの事前分布
ここで、 
1

2
とすると、 の 対数尤度関数は
yi2
n
logl ( )  ( ) log   
2
2
二階微分することにより、 に対する
1
ジェフリーズの事前分布は に比例する

n
よって、I  2
2
EXAMPLE1.10正規精度に対するジェフリーズの事前分布
σに関する事後分布
2


y
 ( n1)
i
p( | y )  
・e xp 2  2 

τに関する事後分布
n
2


y
i
2 1
p( | y )   ・e xp   2 
2



τをσに置き換えると、
(1.25)
2

 2
y
 n 2
i
p( | y )  
e xp  
2 
3
2




2


y
 ( n1)
i

e xp  
2 
2 

これは(1.25)と同一 → 不変性を裏付けている!
EXAMPLE1.11
ベルヌーイ試行に対するジェフリーズの事前分布
n回のベルヌーイ試行におけるθの尤度関数
l ( )   (1   )
s
n s
対数尤度関数を二階微分し、期待値を求める
L( )  s log  (n  s ) log(1   )
L s n  s
 
  1  
2L  s
n s
 2 
2


(1   )2
EXAMPLE1.11
ベルヌーイ試行に対するジェフリーズの事前分布
n
n
n

E( s |  , n)  n より、 I 
 1    (1   )
よって、ジェフリーズの事前分布は
1
P ( ) 
 (1   )
これは、ベータ関数 B(0.5 , 0.5) の確率密度関数であり、
正則分布であるがUの形で表される。よって、ジェフリーズ
の事前分布は一様分布にはならない!
階層事前分布

マルチレベル・モデルのように、グ
ループや個人ごとにパラメータを同時
推定するようなランダム効果を持つモ
デルを扱うときは、事前分布を階層的
に与えたほうがよい場合がある
EXAMPLE1.12
階層事前分布
  ( 1 , .... , n ):同一でないが同じ次
元をもつ精度の集合
パラメータ  ( ,  )で与えられるガンマ分布
( ,  )   0 x e  x dx,   0,  ,  0
(2.18)より事前分布p( |  )を順番に選んでいく
n
p( ,  )    i e
 1   i
i 1
(1.26)
尤度関数は、
 yi2 i
l ( y |  ,  )    e xp(
)
2
i 1
n
1
2
i
(1.27)
EXAMPLE1.12
階層事前分布
事後分布は、
p( ,  | y )  l ( y |  ,  ) p( |  ) p( )
1
2
n
n

y

 1   i
i i
2
   i e xp(
) i e
p( )
2
i 1
i 1
 1
2
n

yi 
2 1
   i e xp  i (   ) p( )
2 
(1.28)
i 1

あらゆる y の事前分布が同じ精度をもつため
この事前分布はロバストベイズ分析の基礎
として用いられることが多い
階層事前分布の特徴

尤度と事前分布の間の関数が任意の性
質を持っている
ex. パラメータθで書かれるモデルを考える
①θに対し、ハイパーパラメータψに依存す
る事前分布を与える
②ψに未知のパラメータと無関係な事前分
布P(ψ)を与える
階層事前分布の特徴
①の場合、
l ( ; y ) p( |  ) p( )
ここでの事前分布は ( |  ) p( )  p( ,  )
②の場合、θを積分して
l ( ; y ) p( )
事前分布は l ( ; y )   l ( ; y ) p( |  )d
①と②の場合のどちらの尤度が正しいかという
ことはさほど問題ではない。むしろそこから得
られる事後分布がどのように変化するかが問題である
多次元パラメータの事前分布


スカラーパラメータについての言及はこれ
まで多くなされてきたが、ベクトルパラメー
タについてはあまり明らかにされていない
多次元パラメータにおいても、尤度関数を
積の形に因数分解することによって、事後
分布もk個の説明変数に分解できる
EXAMPLE1.13
回帰モデルにおけるパラメータ分離
Exampe1.2においてθ=(α,β)となるようなαとβの二つのパラメータが
存在する場合を考える
消費と収入の関係は、
ci    yi   i ,  ~ n(0,1)
(1.29)
これは、i  1,2, .... , nに対して独立に
与えられるパラメータとyの分布である
(1.6)を導くこの式より、尤度は
 1 n
2
l ( ,  )  e xp  (ci    yi ) 
 2 i !

EXAMPLE1.13
回帰モデルにおけるパラメータ分離
これは(1.7 )を一般化した式として書ける
 1

ˆ
l ( ,  )  e xp  ( )(   )
(1.30)
 2

ここで、
 y 
y 
 y    c 
 y   c y 
 n
X X  
 yi
 n
 
 yi
i
2
i
1
i
2
i
i
i
i
(1.31)
EXAMPLE1.13
回帰モデルにおけるパラメータ分離
(1.30)を見ても分かるように、これを割って純粋
にαやβごとに整理することはできない
n
しかし、X Xが対角行列で、 yi を 0 にすることはできる
i 1
これを確認するために、モデルを以下のように書き換える
ci  (   y )   (yi  y )   i
*
*
    yi   i
これは、
(1.29)と同じモデルだが、異なったパラメータをもっている
つまり、θ (α,β)の代わりにθ の相関関数g(θ)  ( * ,  )の観点で
パラメータ化されている
EXAMPLE1.13
回帰モデルにおけるパラメータ分離
これにより新しい X X 行列が得られる
n
 0
0

2
ˆ

(
y

y
)
 i
(1.32)
ここで0が現れるのは、平均から求めた計測値の合計が
完全に0となるからである
この対角行列から、g( )における尤度は次のようになる
l ( g ( ); y )  e
ここで、ˆ
*
n
 ( )( * ˆ * ) 2
2
e
(

y i*2
2
)(  *  ˆ * ) 2
(
c

c
)
(
y

y
)

 c , ˆ 
 ( y  y)
i
i
2
i
EXAMPLE1.13

回帰モデルにおけるパラメータ分離
再パラメータ化された尤度の第一要
素は、平均消費額を中心とした正規
曲線の形をもち、第二要素は、最小
二乗推定値のβを中心とした正規曲
線の形をもつ
情報の直行化

重要な特徴
情報行列におけるパラメータ変換の効果
・尤度が何倍にも分離可能な場合は対数尤度関数
付加的に分離可能
・対数尤度関数を対角に二階微分したものは完
全に0になる(ここではg(θ)の情報行列は
(1.32)から得られる)

つまり、情報行列を多角化するg(θ)関数
を探すことで、分離可能なパラメータを探
すことができる→情報の直行化という
事後分布


事後分布はθについての思いを表す
θは事前分布の思いによって与えら
れ、尤度によって具体化されている
自分のモデルの結果を示すためには
最終的に得られた事後分布をしめす
必要がある
EXAMPLE1.14
ベルヌーイ試行
事前の思いが自然共役事前分布のβ族で
あるとすると、形式上は
p( )   a 1 (1   )b1 , 0    1
n回のベルヌーイ試行を行う上で、条件付き独立かつ
(1.13 )で与えられたθと尤度を用いる場合、
p( | y)  
s  a 1
(1   )
n s  b1
(1.33)
EXAMPLE1.14
ベルヌーイ試行
平均と分散をβ密度のカーネルとみなすと、
sa
( s  a )(n  s  b)
E ( | y ) 
, V ( | y ) 
nab
( n  a  b)2 ( n  a  b  1) (1.34)
もしsとnが大きければ、これらは  比で
E ( | y )   , V( | y ) 
 (1   )
n
EXAMPLE1.14
ベルヌーイ試行
s
もしnが大きく、  が固定されているならば、
n
事後分散は小さくなり、全ての確率全体は
s
ほとんど に限定される
n