クラシックな機械学習の入門
2. Bayes統計に基づく推論
Bayesによる確率分布推定の考え方
多項分布、ディリクレ分布
事前分布としてのディリクレ分布の意味
正規分布と事後分布
多次元正規分布と条件付き分布
指数型分布族
自然共役事前分布の最尤推定
by 中川裕志(東京大学)
Bayesによる確率分布推定の考え方
事前分布 とはパラメター
(i.e. μ)自体の分布
観測データ
or 教師データ:X
μ
p(μ|X)=p(X|μ) p(μ)
観測データを事前分布にBayes
の定理で組み合わせる
μ
Xを観測した後に得た
パラメターμの
事後分布
パラメター μは点では
なく、分布として与えら
れる点に注意!
多項分布:Mult
複数の離散データが独立に出現する場合の確率分
布の定番
個々の離散データ間に相関がない場合に使うもの
で基本的分布。
以下はK種類の離散データ(例えば、語彙数がKでN単語
からなるテキストでの単語の出現分布)がある場合
N
K mk
k
Multm1 , m2 ,..,mK | μ, N
m1m2 ..mK k 1
Emk Nk
varmk Nk 1 k cov m j mk N j k
ただし、
K
i 1
k
1
ディリクレ分布: Dir
多項分布では離散事象(たとえば単語)iの出
現回数 mi が確率変数だった。
しかし、逆に mi が観測値として既知の場合に
、単語 i の出現確率 μi が確率変数となる分
布も考えられる。すなわち、多項分布の事前
分布として使えるような分布。
ディリクレ分布:Dir
• K変数の場合。αはパラメターだが、以下の式
の分布を作るときに使った既知の観測回数
のデータと考えてもよいだろう。
1
μ
K
1
K
α k 1 0 k 1
k 1
K
1 K K k 1
Dir |
k
1 K k 1
Ek
k
1 K
Γ 関数
4
2
1
0
1
2
4
ディリクレ分布の例
1 2 0.01
1 2 1
1 2 2
0μ1
1μ2
μ11
μ20
事前分布としてのディリクレ分布の意味
ディリクレ分布Dirを事前分布とみなして、観
測データが多項分布Multで与えられたときの
事後分布としてのディリクレ分布Dirを考える
観測データ iの出現回数
事後
観測
K
K
i 1
i 1
m:i X (m1,...,mK ), mi M ,i 0
事前
K
Dir( | X , ) Mult X | Dir( | ) ii mi 1
i 1
K
0 M
i mi 1
Dir( | X , ) Dir( | X )
1 m1 K mK i 1 i
こうして見ると、αiは事前分布を得るために想
定したiの(仮想的)観測回数と見做せる。
正規分布(1変数)と事後分布
1変数正規分布:連続する数値データの確率分布の
定番
2
x
2
N x | ,
exp
,
2
2
2
2
1
Ex ,
varx 2
では、ここでMultからDirの事後分布を求めたと同じ
ように、Bayesの定理を用いて、正規分布において
、事前分布から事後分布を求めてみよう。
次のページの例は簡単のため、分散は既知とし、事後分
布の期待値だけを求めることにする。
分散の事後分布についてはWishart分布という分布が登場する
が、難しいのでここでは省略
事前分布: p N ( | 0 , 02 )
K個の観測データが得られた場合の尤度: p( X | )
1 K
2
pxi |
exp
x
2 i
2 K /2
2
2
i 1
i 1
Bayes事後
の定理から観測
事前
K
1
ただし は既知
2
1 K
0
p | X p( X | ) p exp 2 xi 2
2
2
2
i 1
0
K 1
K
2 2 2
x
p | X は正規分布
i
0
0
i 1
exp
2
( N10)
2
2
だからこの結果より
0
K個の観測データを得た後の事後分布: p | X N | K , K2
1
2
K
1
2
0
K
,
2
2
02
K 2
2 0
K 0
K 02 2
事前分布からの寄与
K
x
i 1 i
観測データからの寄与
観測データ数Kと事後分布の例
0.1
2
0
0.1
2
0 0
1 K
xi
K i1
Ex 0.5
K=10の事後分布
K=2の事後分布
K=1の事後分布
事前分布
-1.5
-1
-0.5
観測データにより事前分布の
パラメータμが修正されていく
0
0.5
1
1.5
多次元正規分布
多次元正規分布:複数種類(つまり複数の確率変数)
を持つ数値データの確率分布
D次元の正規分布
1
Ex μ
D
21
1D
1
共分散行列:covx Σ
: 精度行列
2
D1
D
1
1
1
T 1
N (x | μ, Σ)
exp
(
x
μ
)
Σ
(
x
μ
)
D
1
2
2
2
(2 ) | |
x1
x
xD
||
1
1
T
exp
(
x
μ
)
(
x
μ
)
D
2
2
(2 )
2
例題
多次元正規分布の共分散行列を推定する。
D次元の正規分布
1
N (x | μ, )
1
1
T
exp
(
x
μ
)
(
x
μ
)
D
2
2
(2 )
2
log N (x | μ, 1 ) log | | (x μ)T (x μ)
この対数尤度を最大化するために で微分して0とおく
T
log | |
第1項の微分
1 1
(x μ)T (x μ) trace (x μ)(x μ)T
第2項の微分
T T
(x μ)(x μ) (x μ)(x μ)T
ここで xに対して期待値をとる 、すなわち Ex []をすると
1 Ex [(x μ)(x μ)T ] 0
より Ex [(x μ)(x μ)T ] 1
条件付正規分布
変数ベクトルzをxとyに分割すると
P(y|x=a)
y
p(y)
X=a
変数ベクトルzをxとyに分割する。
多次元正規分布 N ( z | μ, )
μx
xx xy
x
z μ
μ
yy
y
y
yx
where T
xy yxT
1
精度行列:
とすると
xx xy
yx yy
xyT yx
ここで多次元正規分布の指数の肩の項は次式
1
(z μ)T 1(z μ)
2
1
1
(x μx )T xx (x μx ) (x μx )T xy ( y μ y )
2
2
1
1
( y μ y )T yx (x μx )
( y μ y )T yy ( y μ y )
2
2
-(G-10)
一般に正規分布 N (z | μ, ) の指数の肩は次式で書け、右
辺の第1項、第2項の係数の部分に着目すれば期待値、共分
散が求まる。
1
1 T 1
T 1
(z μ) (z μ) z z zT 1μ const
2
2
-(G-20)
条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を
(G-10)式に適用して求めよう。ー 問題
yを定数とみなしてxの分布を求めれば、条件付分布になるか
ら(G-10)の第1項のxの2次の項の係数が共分散。すなわち
1 T
x xxx により x|y xx1
2
一方、(G-10)においてxの1次の項がΣ -1 μ これは次式
xT xxμx xy ( y μ y )
これにより
μx| y x| y xxμx xy ( y μ y )
x| y xx1より
μx xx1 xy ( y μ y )
次に、これらの結果を共分散行列を用いて書き直す
1
xy
xx xy
xx
において ( Matrix1 )を使えば
yx yy
yx yy
xx (xx xyyy1 yx )1 xy (xx xyyy1 yx )1xyyy1
μx| y μx xyyy1 ( y μ y )
x| y xx xyyy1 yx
exponential family:指数型分布族
事前分布と学習後の事後分布が同一タイプの分布(事前共役)
p(x | η) h(x) exp(ηT u(x) aη) EB1
ただし , x, u(x), ηは一般にはベクトル
また、 exp aη h(x) exp(ηT u(x))dx 1
a(η) log h( x) exp(ηT u( x))dx)
EB2
正規化項
iidの観測データX={x1, …, xN }に対しては以下の式
N
T N
p(X | η) h(xn ) exp η u(xn ) Na(η)
n1
n1
いくつかの確率密度関数のExponential family表現:ガウス分布
x 2
p( x | , )
exp
2
2
2
2
x 2 2 x 2
1
exp
2
2
2
2
x
1
1 2 2
exp 2 , 2 x 2 log
2
2 2
12
1, 2
log
22
2
1
T
x
a( )
いくつかの確率密度関数のExponential family表現:多項分布
多項分布(Multinomial )のexponential family表現
K
K
N K xk
k
p( x | )
k 1, xk Nを使うと
k 1
k 1
x1x2 xK k 1
K 1
N K 1
K 1
exp xk log k N xk log1 k
k 1
k 1
x1x2 xK k 1
K 1
N K 1 k
explog
xk N log1 k
K 1
x1x2 xK k 1 1
k 1
k
k 1
h( x)
T
x
a( )
自然共役事前分布の最尤推定
p(x | η) h(x) exp(ηT u(x) a(η))
における naturalparameterηの最尤推定をする。
1 p(x | η)dx h(x) exp(ηT u(x) a(η))dx
上の式をの第j成分 jで微分してゼロとおく と
a(η)
T
T
h
(
x
)
exp(
η
u
(
x
)
a
(
η
))
d
x
h
(
x
)
exp(
η
u(x) a(η))u(x) j dx 0
η j
a(η)
E[u(x) j ]
η j
2a(η)
2 V [u(x) j ]
η j
1 EB3
EB4
E[u(x) j ]
(EB3)(EB4)の応用例
ガウス分布に応用
x 2
1
1
p( x | , 2 )
exp 2 , 2 x 2 2 log
2
2 2
12 1
T
1, 2 x
a( )
log2
22 2
a(η)
12 1
Eη1x
η 1 η 1 22 2
2a(η)
1 1
2
Vη1x
η 1 2 2
η12
(EB3)(EB4)の応用例 多項分布に応用
K 1
k log k 1 k
k 1
h( x)
N K xk
k
p( x | )
x
x
K k 1
1
x
a( )
K 1
N K 1 k
explog
xk N log1 k
K 1
x
x
K
1
k 1
k 1 1 k
k 1
K
k
e
k
K
e
K 1
1 k
k 1
k 1
k
k 1
K 1
k
1 k
k 1
1
K 1
1 k
k 1
K
1
K 1
a(k ) N log1 k N log K
N log ek
k 1
k 1
ek
k 1
k
K 1
1 k
a(k )
ek
k
k 1
N K
N K
N
Nk
k
K
k
k
ek
k
K 1
k 1
k
1
k 1
1 k
k 1
N
a(k )
k 2
2
ek
K
e
k
k 1
k
k 1 k
K
K
K 1
K 1
k
k
k k
k
k
k
e e e e
e e e
1 k 1 k
k 1
N
k 1 N 1
N k 1 2
N k 1
k
k
2
2
K
K
K 1
ek
ek
1 k
k 1
k 1
k 1
2項分布の場合はおなじみの公式
N
N
p( x | ) x 1 N x expx log
N log1
1
x
2
h( x)
log
a( )
1
e
1
e 1
e 1 e
e
1 e
1
a( ) N log1 N log
N log 1 e
1 e
a( )
e
2a(η)
e
e
Eη x
N
Vη x
N
N
2
N
1 e
η
η 1 e
1 e
2
N 1
Exponential familyとベイズ統計:
共役分布と事後分布
ハイパーパラメター
: λ λ1T , λ2 によって共役事前分 布を定義する
p(η | ) h( ) exp λ1T η λ2 aη a
λ1T , λ2 η
a log h( ) exp
d ( EB22)
aη
さて、 p( x | )に沿う K個のiidの観測データx1 xKが得られたときの
の事後分布は
K
p(η | x1,, xN , ) p(η | ) pxi |
i 1
h( ) exp λ1T η λ2 aη a expηT u( xi ) aη
h( ) exp λ1
仮想的な観測
データ
K
赤枠の中は事
後パラメター
i 1
T
u
(
x
)
i η
i 1
K
実際の観測
データ
λ2
仮想的
な観測
回数:1
K aη a
実際の観測
回数
1変数正規分布の期待値に適用した例 その1
0
1
,
2
02
2 02
事前分布: p | N ( | 0 , 02 ) 1, 2 T , 1=
0
2
02
p |
λ2a aλ exp 2
2
0
2 0 2 02
K個の観測データが得られた場合の尤度: p( X | )
N ( | 0 , 02 ) exp λ1
1 K
2
pxi |
exp
x
i
K /2
2
2
2
i 1
i 1
2
K
1
ただし は既知
x 1 2
1
1
1
p( x | , 2 )
exp 2 , 2 x 2 2 log 2
2
2 2
T
a( )
0 , 02 , 2は既知とする。
1変数正規分布の期待値に適用した例 その2
p( | x1,, xN , ) p( | ) pxi |
K
i 1
K
h( ) expλ1 λ2a exp ηTu( xi ) aη
i 1
1
T 2 ,
2
2
K
K
x 2
h( ) exp λ1 xi , i λ2a Kaη
1
i 1 i 1 2 2
0
1 K
2 K 2
1
h( ) exp 2 2 xi
log
i 1
2
2 02 2 2
0
K
2 1
1
K
0
exp 2 2 xi
2
2
2
i 1
0
0
前に求めた N10 に一致
Exponential family別表現とベイズ統計の続き:予測分布
K個の観測データも考慮したハイパーパラメタ ー
K
λˆ1 λ1 u( xi )
( EB21)
i 1
λˆ2 λ2 K
( EB22)
ハイパーパラメターが 与えられたときの事後 分布は次式のように でmarginalize
p( x | ) p( x
| ) p( | λ)d
h( x) expT u( x) a h( ) exp λ1T η λ2 aη a d
h( x) h( ) exp λ1 u( x)T η λ2 1 aη d exp a
ハイパーパラメター と
K個のiidの観測データx1 xKが得られたときの
新規(あるいは未知) の xの予測分布は( EB23)において
K
λ1を λˆ1 λ1 u( xi )で
i 1
λ2を λˆ2 λ2 Kで 置き換えれば 得られる。
( EB23)
ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布
難しいので省略する予定
精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現
d
1
1
p( x | ) 2 | | 2 exp x T 1 x 1 とおくと
2
2
1
exp d log 2 d log | | x T x
2
1
exp d log 2 d log | | xT x xT T x T
2
natural parameter: がまだ決めていなかっ た!
1
p( x | ) exp d log 2 d log | | x x exp
2
1 T
以下も注意
T
T
h( x)
1
1
1 T 1
x
2
T
u( x) ( x1,..,xd )T
a( )
事前分布のパラメターλから予測分布p(x| λ)を求める
1
p( | ) exp 1T 2a a exp1T 2 T 1 a
2
1
exp T 21 21T 2a 事前分布もガウス分布 として
2
T
1
1
1
1
2
とおくと
exp
2
2
2
T
1
1
1
T
1
T
1
1
exp log | 2 | 2 21
2
2
2
T
1
1
1
1 1
a d log 2 log | |
2
2 2
d次元の行列1に対しては、| 21 | 2d | 1 |
p(η | ) h() exp λ1T η λ2 aη a
λ1T , λ2 η
a log h() exp
d ( EB22) および
aη
( EB3)(EB4)より が与えられたときの の十分統計量が以下のように求まる。
a T 1
E
1
22
( EB35)
a d 1T 1
E a()
2
22
22
( EB36)
© Copyright 2026 ExpyDoc