スライド 1 - Top Page | 中川研究室

クラシックな機械学習の入門
2. Bayes統計に基づく推論
Bayesによる確率分布推定の考え方
多項分布、ディリクレ分布
事前分布としてのディリクレ分布の意味
正規分布と事後分布
多次元正規分布と条件付き分布
指数型分布族
自然共役事前分布の最尤推定
by 中川裕志(東京大学)
Bayesによる確率分布推定の考え方
事前分布 とはパラメター
(i.e. μ)自体の分布
観測データ
or 教師データ:X
μ
p(μ|X)=p(X|μ) p(μ)
観測データを事前分布にBayes
の定理で組み合わせる
μ
Xを観測した後に得た
パラメターμの
事後分布
パラメター μは点では
なく、分布として与えら
れる点に注意!
多項分布:Mult
 複数の離散データが独立に出現する場合の確率分
布の定番
 個々の離散データ間に相関がない場合に使うもの
で基本的分布。
 以下はK種類の離散データ(例えば、語彙数がKでN単語
からなるテキストでの単語の出現分布)がある場合
N

 K mk
 k
Multm1 , m2 ,..,mK | μ, N   
 m1m2 ..mK  k 1
Emk   Nk
varmk   Nk 1  k  cov m j mk   N j k

ただし、
K

i 1
k
1

ディリクレ分布: Dir
多項分布では離散事象(たとえば単語)iの出
現回数 mi が確率変数だった。
しかし、逆に mi が観測値として既知の場合に
、単語 i の出現確率 μi が確率変数となる分
布も考えられる。すなわち、多項分布の事前
分布として使えるような分布。
ディリクレ分布:Dir
• K変数の場合。αはパラメターだが、以下の式
の分布を作るときに使った既知の観測回数
のデータと考えてもよいだろう。
 1 
 
μ   
 
 K
 1 
K
 
α       k  1 0  k  1
  k 1
 K
1    K  K k 1
Dir |   
k

1  K  k 1
Ek  
k
1    K
Γ 関数
4
2
1
0
1
2
4
ディリクレ分布の例
1  2  0.01
1  2  1
1  2  2
0μ1
1μ2
μ11
μ20
事前分布としてのディリクレ分布の意味
ディリクレ分布Dirを事前分布とみなして、観
測データが多項分布Multで与えられたときの
事後分布としてのディリクレ分布Dirを考える
観測データ iの出現回数
事後
観測
K
K
i 1
i 1
m:i X  (m1,...,mK ),  mi  M ,i 0
事前
K
Dir( | X , )  Mult X |  Dir( |  )   ii mi 1
i 1

K
0  M 
i  mi 1
Dir( | X , )  Dir( |   X ) 


1  m1  K  mK  i 1 i
こうして見ると、αiは事前分布を得るために想
定したiの(仮想的)観測回数と見做せる。
正規分布(1変数)と事後分布
 1変数正規分布:連続する数値データの確率分布の
定番
2




x


2
N x | ,  
exp
,
2 
2
2
 2 


1
Ex  ,
varx   2
 では、ここでMultからDirの事後分布を求めたと同じ
ように、Bayesの定理を用いて、正規分布において
、事前分布から事後分布を求めてみよう。
 次のページの例は簡単のため、分散は既知とし、事後分
布の期待値だけを求めることにする。
 分散の事後分布についてはWishart分布という分布が登場する
が、難しいのでここでは省略
事前分布: p   N (  | 0 , 02 )
K個の観測データが得られた場合の尤度: p( X |  )
 1 K
2


  pxi |   
exp

x




2  i
2 K /2
2

2 
i 1
i 1


Bayes事後
の定理から観測
事前
K
1
ただし は既知
2
 1 K






0
p | X   p( X |  ) p   exp 2 xi   2 

2
2

2

i 1
0


 K 1

K


  2  2 2  

x
p | X は正規分布

i
0
0
i 1


 exp
  2
    ( N10)
2


2

だからこの結果より



 0



 K個の観測データを得た後の事後分布: p | X   N  | K , K2 
1

2
K

1

2
0

K

,
2
2
 02
K  2
 
2 0
K 0  
K 02   2
事前分布からの寄与

K
x
i 1 i
観測データからの寄与
観測データ数Kと事後分布の例
  0.1
2
0
  0.1
2
0  0
1 K
   xi
K i1
Ex  0.5
K=10の事後分布
K=2の事後分布
K=1の事後分布
事前分布
-1.5
-1
-0.5
観測データにより事前分布の
パラメータμが修正されていく
0
0.5
1
1.5
多次元正規分布
 多次元正規分布:複数種類(つまり複数の確率変数)
を持つ数値データの確率分布
D次元の正規分布
 1 
 
Ex  μ    
 D 
 
 21
1D 


1
共分散行列:covx  Σ  



: 精度行列

2 
 D1

D


1
1
 1

T 1
N (x | μ, Σ) 
exp

(
x

μ
)
Σ
(
x

μ
)

 D
1
2
2
 2

(2 ) |  |
 x1 
 
x  
 xD 
 
||
1
 1

T

exp

(
x

μ
)

(
x

μ
)


D
2
2


(2 )
2
例題
多次元正規分布の共分散行列を推定する。
D次元の正規分布
1
N (x | μ,  ) 

1
 1

T
exp

(
x

μ
)

(
x

μ
)


D
2
2


(2 )
2
log N (x | μ, 1 )  log |  | (x  μ)T (x  μ)
この対数尤度を最大化するために で微分して0とおく
T
 log |  |
第1項の微分
 1  1

(x  μ)T (x  μ) trace (x  μ)(x  μ)T
第2項の微分



 



T T
 (x  μ)(x  μ)  (x  μ)(x  μ)T
ここで xに対して期待値をとる 、すなわち Ex []をすると
1  Ex [(x  μ)(x  μ)T ]  0
より Ex [(x  μ)(x  μ)T ]  1  

条件付正規分布
 変数ベクトルzをxとyに分割すると
P(y|x=a)
y
p(y)
X=a
 変数ベクトルzをxとyに分割する。
多次元正規分布 N ( z | μ, )
 μx 
 xx xy 
x

z    μ      
μ


yy 
 y
 y
 yx
where    T
xy   yxT
1
精度行列:   
とすると
  xx  xy 

  
  yx  yy 
 xyT   yx
 ここで多次元正規分布の指数の肩の項は次式
1
 (z  μ)T 1(z  μ) 
2
1
1
 (x  μx )T  xx (x  μx )  (x  μx )T  xy ( y  μ y )
2
2
1
1
 ( y  μ y )T  yx (x  μx ) 
( y  μ y )T  yy ( y  μ y )
2
2
-(G-10)
一般に正規分布 N (z | μ, ) の指数の肩は次式で書け、右
辺の第1項、第2項の係数の部分に着目すれば期待値、共分
散が求まる。
1
1 T 1
T 1
 (z  μ)  (z  μ)   z  z  zT 1μ  const
2
2
-(G-20)
条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を
(G-10)式に適用して求めよう。ー 問題
yを定数とみなしてxの分布を求めれば、条件付分布になるか
ら(G-10)の第1項のxの2次の項の係数が共分散。すなわち
1 T
 x xxx により x|y  xx1
2
一方、(G-10)においてxの1次の項がΣ -1 μ これは次式
xT  xxμx   xy ( y  μ y )
これにより
μx| y  x| y  xxμx   xy ( y  μ y )
x| y   xx1より
 μx   xx1 xy ( y  μ y )
次に、これらの結果を共分散行列を用いて書き直す
1
 xy 
 xx xy 


   xx
 において ( Matrix1 )を使えば
  yx  yy 
  yx  yy 
 xx  (xx  xyyy1 yx )1  xy  (xx  xyyy1 yx )1xyyy1

μx| y  μx  xyyy1 ( y  μ y )
x| y  xx  xyyy1 yx
exponential family:指数型分布族
事前分布と学習後の事後分布が同一タイプの分布(事前共役)
p(x | η)  h(x) exp(ηT u(x)  aη) EB1
ただし , x, u(x), ηは一般にはベクトル
また、 exp aη h(x) exp(ηT u(x))dx  1

a(η)  log  h( x) exp(ηT u( x))dx)

EB2
正規化項
iidの観測データX={x1, …, xN }に対しては以下の式
 N
  T N

p(X | η)    h(xn )  exp η u(xn )  Na(η) 
 n1
  n1

いくつかの確率密度関数のExponential family表現:ガウス分布
 x   2 
p( x | ,  ) 
exp
2 
2
 2 
2
 x 2  2 x   2 
1

exp

2
2
2
2




x
1
  1  2   2


exp 2 , 2  x  2  log 


2
     2  2

 12


1, 2 

 log 
 22

2
1
T
x
a( )
いくつかの確率密度関数のExponential family表現:多項分布
多項分布(Multinomial )のexponential family表現
K
K
 N  K xk
 k
p( x |  )  
k  1,  xk  Nを使うと

k 1
k 1
 x1x2 xK  k 1
K 1
 N  K 1

  K 1  
 exp xk log k   N   xk  log1   k  
 
k 1

  k 1  
 x1x2 xK   k 1






  K 1  
 N  K 1  k 
 explog
 
xk  N  log1   k  
K 1
 x1x2 xK   k 1  1   
  k 1  

k 



 k 1 
h( x)
T
x
a( )
自然共役事前分布の最尤推定
p(x | η)  h(x) exp(ηT u(x)  a(η))
における naturalparameterηの最尤推定をする。
1   p(x | η)dx   h(x) exp(ηT u(x)  a(η))dx
上の式をの第j成分 jで微分してゼロとおく と

a(η)
T
T
h
(
x
)
exp(
η
u
(
x
)

a
(
η
))
d
x

h
(
x
)
exp(
η
u(x)  a(η))u(x) j dx  0


η j
a(η)
 E[u(x) j ]
η j
2a(η)
2  V [u(x) j ]
η j
 1 EB3
EB4
 E[u(x) j ]
(EB3)(EB4)の応用例
ガウス分布に応用


 x  2
1

1




p( x | ,  2 ) 
exp 2 , 2  x 2   2  log 


2
     2  2

 12 1

T

  1, 2  x
a( )   
 log2 
 22 2

a(η)
 12 1
Eη1x 

 
η 1 η 1 22 2
 2a(η)
 1 1
2
Vη1x 




η 1 2 2
η12
(EB3)(EB4)の応用例 多項分布に応用
K 1


k  log k 1   k 
k 1


h( x)
 N  K xk
 k
p( x |  )  
x

x
K  k 1
 1
x
a( )






  K 1  
 N  K 1  k 
 explog
 
xk  N  log1   k  
K 1


x

x
K
 1
  k 1  
 k 1  1   k 


 k 1 
K
k
e 
k
K
e
K 1
1   k
k 1
k 1
k


k 1
K 1
k
1   k
k 1

1
K 1
1   k
k 1
K
1
 K 1 
a(k )   N log1   k    N log K
 N log ek
k 1
 k 1 
ek
k 1
k
K 1
1   k
a(k )
ek
k
k 1
 N K
N K

N
 Nk
k
K
k
k
ek
k



K 1
k 1
k

1
k 1
1   k
k 1
N
 a(k )

k 2
2
ek
K
e
k
k 1
k




k  1  k 
K
K
K 1
 K 1 
k 
k 
k k
k 
k
k 
e  e   e e
e  e  e 
1   k  1   k 
k 1
N
 k 1   N 1   
 N  k 1  2
 N  k 1
k
k
2
2
K
K
K 1






 ek 
 ek 
1   k 
 k 1 
 k 1 
 k 1 
2項分布の場合はおなじみの公式
N
N 


p( x |  )    x 1   N x    expx log
 N log1   
1 

x
2 
  

h( x)
  log
a( )
1  

e 
1 

e 1     


e   1 e



e

1  e


 1 

a( )   N log1      N log
   N log 1  e
1 e 
a( )
e
2a(η) 
e
e
Eη x 
N
Vη x 
 N
  N
2
 N

1 e
η
η 1  e
1  e


2
 N 1   
Exponential familyとベイズ統計:
共役分布と事後分布




ハイパーパラメター
: λ  λ1T , λ2 によって共役事前分 布を定義する


p(η |  )  h( ) exp λ1T η  λ2  aη  a 

 λ1T , λ2  η  
a   log  h( ) exp

d  ( EB22)

  aη 


さて、 p( x |  )に沿う K個のiidの観測データx1  xKが得られたときの
の事後分布は
K
p(η | x1,, xN ,  )  p(η |  ) pxi | 
i 1


 h( ) exp λ1T η  λ2  aη  a   expηT u( xi )  aη

 h( ) exp λ1 

仮想的な観測
データ
K
赤枠の中は事
後パラメター
i 1
T

u
(
x
)

i  η
i 1

K
実際の観測
データ
λ2 
仮想的
な観測
回数:1

K  aη  a 

実際の観測
回数
1変数正規分布の期待値に適用した例 その1
0
1
,


2
 02
2 02
事前分布: p |    N (  | 0 ,  02 )   1, 2 T , 1=


 0
2
02 
p |   
  λ2a   aλ  exp 2  


2
 0
2 0 2 02 
K個の観測データが得られた場合の尤度: p( X |  )
N (  | 0 ,  02 )  exp λ1
 1 K
2


  pxi |   
exp

x





i
K /2
2
2
2

i 1
i 1


2
K

1

ただし は既知


 x  1  2

1

1
1




p( x | ,  2 ) 
exp 2 , 2  x 2    2  log 2 


 
2
     2  2  

T
a( )
0 , 02 , 2は既知とする。
1変数正規分布の期待値に適用した例 その2
p(  | x1,, xN ,  )  p(  |  ) pxi |  
K
i 1
K


 h( ) expλ1  λ2a  exp ηTu( xi )  aη
i 1
1 
 
T   2 ,

2 



  
2


K
K



x  2
 h( ) exp λ1    xi ,  i     λ2a   Kaη
1


 i 1 i 1 2  2 


 
 0
1 K
 2 K   2
1 
 h( ) exp 2   2  xi 


log

 i 1
 2 
2 02 2   2
  0
  
K
 2  1
1
K 
0



 exp 2  2  xi  
 2 
2

2



i 1 
  0
 0  
前に求めた N10 に一致
Exponential family別表現とベイズ統計の続き:予測分布
K個の観測データも考慮したハイパーパラメタ ー
K
λˆ1  λ1  u( xi )
( EB21)
i 1
λˆ2  λ2  K
( EB22)
ハイパーパラメターが 与えられたときの事後 分布は次式のように でmarginalize
p( x |  )   p( x 
| ) p( | λ)d


 h( x) expT u( x)  a h( ) exp λ1T η  λ2  aη  a  d


 h( x) h( ) exp λ1  u( x)T η  λ2  1 aη d exp a 
 ハイパーパラメター と
K個のiidの観測データx1  xKが得られたときの
新規(あるいは未知) の xの予測分布は( EB23)において
K
λ1を λˆ1  λ1  u( xi )で
i 1
λ2を λˆ2  λ2  Kで 置き換えれば 得られる。
( EB23)
ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布
難しいので省略する予定
精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現
d
1
 1


p( x |  )  2 |  | 2 exp x   T 1 x      1 とおくと
2
 2

 1

 exp d log 2  d log |  | x   T x    
 2

 1

 exp d log 2  d log |  |  xT x  xT   T x  T  
 2

natural parameter: がまだ決めていなかっ た!


   
 1
 
p( x |  )  exp d log 2  d log |  |  x x  exp
2
   
1 T
以下も注意   
T
T

h( x)

1
  1
1 T 1 
x    
2


T
u( x)  ( x1,..,xd )T
a( )
事前分布のパラメターλから予測分布p(x| λ)を求める


1


p( |  )  exp 1T  2a   a   exp1T  2 T 1  a 
2


 1

 exp T 21  21T  2a  事前分布もガウス分布 として
 2

T
 1  









1
1
1
 2  
 とおくと
 exp   
2 
2  

 2  

T
 1

1

1 
T
1
T
1
1

 exp log | 2 |   2   21  
2
2 
 2
T
1
1

1
1 1
 a    d log 2  log |  | 
2
2 2



d次元の行列1に対しては、| 21 |  2d | 1 |


p(η |  )  h() exp λ1T η  λ2  aη  a 



 λ1T , λ2  η  
a   log  h() exp

d  ( EB22) および

  aη 


( EB3)(EB4)より が与えられたときの の十分統計量が以下のように求まる。
a    T 1
E 

1
22
( EB35)
a  d 1T 1
E a() 


2
22
22
( EB36)