クラシックな機械学習の入門 2. Bayes統計に基づく推論 Bayesによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味 正規分布と事後分布 多次元正規分布と条件付き分布 指数型分布族 自然共役事前分布の最尤推定 by 中川裕志(東京大学) Bayesによる確率分布推定の考え方 事前分布 とはパラメター (i.e. μ)自体の分布 観測データ or 教師データ:X μ p(μ|X)=p(X|μ) p(μ) 観測データを事前分布にBayes の定理で組み合わせる μ Xを観測した後に得た パラメターμの 事後分布 パラメター μは点では なく、分布として与えら れる点に注意! 多項分布:Mult 複数の離散データが独立に出現する場合の確率分 布の定番 個々の離散データ間に相関がない場合に使うもの で基本的分布。 以下はK種類の離散データ(例えば、語彙数がKでN単語 からなるテキストでの単語の出現分布)がある場合 N K mk k Multm1 , m2 ,..,mK | μ, N m1m2 ..mK k 1 Emk Nk varmk Nk 1 k cov m j mk N j k ただし、 K i 1 k 1 ディリクレ分布: Dir 多項分布では離散事象(たとえば単語)iの出 現回数 mi が確率変数だった。 しかし、逆に mi が観測値として既知の場合に 、単語 i の出現確率 μi が確率変数となる分 布も考えられる。すなわち、多項分布の事前 分布として使えるような分布。 ディリクレ分布:Dir • K変数の場合。αはパラメターだが、以下の式 の分布を作るときに使った既知の観測回数 のデータと考えてもよいだろう。 1 μ K 1 K α k 1 0 k 1 k 1 K 1 K K k 1 Dir | k 1 K k 1 Ek k 1 K Γ 関数 4 2 1 0 1 2 4 ディリクレ分布の例 1 2 0.01 1 2 1 1 2 2 0μ1 1μ2 μ11 μ20 事前分布としてのディリクレ分布の意味 ディリクレ分布Dirを事前分布とみなして、観 測データが多項分布Multで与えられたときの 事後分布としてのディリクレ分布Dirを考える 観測データ iの出現回数 事後 観測 K K i 1 i 1 m:i X (m1,...,mK ), mi M ,i 0 事前 K Dir( | X , ) Mult X | Dir( | ) ii mi 1 i 1 K 0 M i mi 1 Dir( | X , ) Dir( | X ) 1 m1 K mK i 1 i こうして見ると、αiは事前分布を得るために想 定したiの(仮想的)観測回数と見做せる。 正規分布(1変数)と事後分布 1変数正規分布:連続する数値データの確率分布の 定番 2 x 2 N x | , exp , 2 2 2 2 1 Ex , varx 2 では、ここでMultからDirの事後分布を求めたと同じ ように、Bayesの定理を用いて、正規分布において 、事前分布から事後分布を求めてみよう。 次のページの例は簡単のため、分散は既知とし、事後分 布の期待値だけを求めることにする。 分散の事後分布についてはWishart分布という分布が登場する が、難しいのでここでは省略 事前分布: p N ( | 0 , 02 ) K個の観測データが得られた場合の尤度: p( X | ) 1 K 2 pxi | exp x 2 i 2 K /2 2 2 i 1 i 1 Bayes事後 の定理から観測 事前 K 1 ただし は既知 2 1 K 0 p | X p( X | ) p exp 2 xi 2 2 2 2 i 1 0 K 1 K 2 2 2 x p | X は正規分布 i 0 0 i 1 exp 2 ( N10) 2 2 だからこの結果より 0 K個の観測データを得た後の事後分布: p | X N | K , K2 1 2 K 1 2 0 K , 2 2 02 K 2 2 0 K 0 K 02 2 事前分布からの寄与 K x i 1 i 観測データからの寄与 観測データ数Kと事後分布の例 0.1 2 0 0.1 2 0 0 1 K xi K i1 Ex 0.5 K=10の事後分布 K=2の事後分布 K=1の事後分布 事前分布 -1.5 -1 -0.5 観測データにより事前分布の パラメータμが修正されていく 0 0.5 1 1.5 多次元正規分布 多次元正規分布:複数種類(つまり複数の確率変数) を持つ数値データの確率分布 D次元の正規分布 1 Ex μ D 21 1D 1 共分散行列:covx Σ : 精度行列 2 D1 D 1 1 1 T 1 N (x | μ, Σ) exp ( x μ ) Σ ( x μ ) D 1 2 2 2 (2 ) | | x1 x xD || 1 1 T exp ( x μ ) ( x μ ) D 2 2 (2 ) 2 例題 多次元正規分布の共分散行列を推定する。 D次元の正規分布 1 N (x | μ, ) 1 1 T exp ( x μ ) ( x μ ) D 2 2 (2 ) 2 log N (x | μ, 1 ) log | | (x μ)T (x μ) この対数尤度を最大化するために で微分して0とおく T log | | 第1項の微分 1 1 (x μ)T (x μ) trace (x μ)(x μ)T 第2項の微分 T T (x μ)(x μ) (x μ)(x μ)T ここで xに対して期待値をとる 、すなわち Ex []をすると 1 Ex [(x μ)(x μ)T ] 0 より Ex [(x μ)(x μ)T ] 1 条件付正規分布 変数ベクトルzをxとyに分割すると P(y|x=a) y p(y) X=a 変数ベクトルzをxとyに分割する。 多次元正規分布 N ( z | μ, ) μx xx xy x z μ μ yy y y yx where T xy yxT 1 精度行列: とすると xx xy yx yy xyT yx ここで多次元正規分布の指数の肩の項は次式 1 (z μ)T 1(z μ) 2 1 1 (x μx )T xx (x μx ) (x μx )T xy ( y μ y ) 2 2 1 1 ( y μ y )T yx (x μx ) ( y μ y )T yy ( y μ y ) 2 2 -(G-10) 一般に正規分布 N (z | μ, ) の指数の肩は次式で書け、右 辺の第1項、第2項の係数の部分に着目すれば期待値、共分 散が求まる。 1 1 T 1 T 1 (z μ) (z μ) z z zT 1μ const 2 2 -(G-20) 条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を (G-10)式に適用して求めよう。ー 問題 yを定数とみなしてxの分布を求めれば、条件付分布になるか ら(G-10)の第1項のxの2次の項の係数が共分散。すなわち 1 T x xxx により x|y xx1 2 一方、(G-10)においてxの1次の項がΣ -1 μ これは次式 xT xxμx xy ( y μ y ) これにより μx| y x| y xxμx xy ( y μ y ) x| y xx1より μx xx1 xy ( y μ y ) 次に、これらの結果を共分散行列を用いて書き直す 1 xy xx xy xx において ( Matrix1 )を使えば yx yy yx yy xx (xx xyyy1 yx )1 xy (xx xyyy1 yx )1xyyy1 μx| y μx xyyy1 ( y μ y ) x| y xx xyyy1 yx exponential family:指数型分布族 事前分布と学習後の事後分布が同一タイプの分布(事前共役) p(x | η) h(x) exp(ηT u(x) aη) EB1 ただし , x, u(x), ηは一般にはベクトル また、 exp aη h(x) exp(ηT u(x))dx 1 a(η) log h( x) exp(ηT u( x))dx) EB2 正規化項 iidの観測データX={x1, …, xN }に対しては以下の式 N T N p(X | η) h(xn ) exp η u(xn ) Na(η) n1 n1 いくつかの確率密度関数のExponential family表現:ガウス分布 x 2 p( x | , ) exp 2 2 2 2 x 2 2 x 2 1 exp 2 2 2 2 x 1 1 2 2 exp 2 , 2 x 2 log 2 2 2 12 1, 2 log 22 2 1 T x a( ) いくつかの確率密度関数のExponential family表現:多項分布 多項分布(Multinomial )のexponential family表現 K K N K xk k p( x | ) k 1, xk Nを使うと k 1 k 1 x1x2 xK k 1 K 1 N K 1 K 1 exp xk log k N xk log1 k k 1 k 1 x1x2 xK k 1 K 1 N K 1 k explog xk N log1 k K 1 x1x2 xK k 1 1 k 1 k k 1 h( x) T x a( ) 自然共役事前分布の最尤推定 p(x | η) h(x) exp(ηT u(x) a(η)) における naturalparameterηの最尤推定をする。 1 p(x | η)dx h(x) exp(ηT u(x) a(η))dx 上の式をの第j成分 jで微分してゼロとおく と a(η) T T h ( x ) exp( η u ( x ) a ( η )) d x h ( x ) exp( η u(x) a(η))u(x) j dx 0 η j a(η) E[u(x) j ] η j 2a(η) 2 V [u(x) j ] η j 1 EB3 EB4 E[u(x) j ] (EB3)(EB4)の応用例 ガウス分布に応用 x 2 1 1 p( x | , 2 ) exp 2 , 2 x 2 2 log 2 2 2 12 1 T 1, 2 x a( ) log2 22 2 a(η) 12 1 Eη1x η 1 η 1 22 2 2a(η) 1 1 2 Vη1x η 1 2 2 η12 (EB3)(EB4)の応用例 多項分布に応用 K 1 k log k 1 k k 1 h( x) N K xk k p( x | ) x x K k 1 1 x a( ) K 1 N K 1 k explog xk N log1 k K 1 x x K 1 k 1 k 1 1 k k 1 K k e k K e K 1 1 k k 1 k 1 k k 1 K 1 k 1 k k 1 1 K 1 1 k k 1 K 1 K 1 a(k ) N log1 k N log K N log ek k 1 k 1 ek k 1 k K 1 1 k a(k ) ek k k 1 N K N K N Nk k K k k ek k K 1 k 1 k 1 k 1 1 k k 1 N a(k ) k 2 2 ek K e k k 1 k k 1 k K K K 1 K 1 k k k k k k k e e e e e e e 1 k 1 k k 1 N k 1 N 1 N k 1 2 N k 1 k k 2 2 K K K 1 ek ek 1 k k 1 k 1 k 1 2項分布の場合はおなじみの公式 N N p( x | ) x 1 N x expx log N log1 1 x 2 h( x) log a( ) 1 e 1 e 1 e 1 e e 1 e 1 a( ) N log1 N log N log 1 e 1 e a( ) e 2a(η) e e Eη x N Vη x N N 2 N 1 e η η 1 e 1 e 2 N 1 Exponential familyとベイズ統計: 共役分布と事後分布 ハイパーパラメター : λ λ1T , λ2 によって共役事前分 布を定義する p(η | ) h( ) exp λ1T η λ2 aη a λ1T , λ2 η a log h( ) exp d ( EB22) aη さて、 p( x | )に沿う K個のiidの観測データx1 xKが得られたときの の事後分布は K p(η | x1,, xN , ) p(η | ) pxi | i 1 h( ) exp λ1T η λ2 aη a expηT u( xi ) aη h( ) exp λ1 仮想的な観測 データ K 赤枠の中は事 後パラメター i 1 T u ( x ) i η i 1 K 実際の観測 データ λ2 仮想的 な観測 回数:1 K aη a 実際の観測 回数 1変数正規分布の期待値に適用した例 その1 0 1 , 2 02 2 02 事前分布: p | N ( | 0 , 02 ) 1, 2 T , 1= 0 2 02 p | λ2a aλ exp 2 2 0 2 0 2 02 K個の観測データが得られた場合の尤度: p( X | ) N ( | 0 , 02 ) exp λ1 1 K 2 pxi | exp x i K /2 2 2 2 i 1 i 1 2 K 1 ただし は既知 x 1 2 1 1 1 p( x | , 2 ) exp 2 , 2 x 2 2 log 2 2 2 2 T a( ) 0 , 02 , 2は既知とする。 1変数正規分布の期待値に適用した例 その2 p( | x1,, xN , ) p( | ) pxi | K i 1 K h( ) expλ1 λ2a exp ηTu( xi ) aη i 1 1 T 2 , 2 2 K K x 2 h( ) exp λ1 xi , i λ2a Kaη 1 i 1 i 1 2 2 0 1 K 2 K 2 1 h( ) exp 2 2 xi log i 1 2 2 02 2 2 0 K 2 1 1 K 0 exp 2 2 xi 2 2 2 i 1 0 0 前に求めた N10 に一致 Exponential family別表現とベイズ統計の続き:予測分布 K個の観測データも考慮したハイパーパラメタ ー K λˆ1 λ1 u( xi ) ( EB21) i 1 λˆ2 λ2 K ( EB22) ハイパーパラメターが 与えられたときの事後 分布は次式のように でmarginalize p( x | ) p( x | ) p( | λ)d h( x) expT u( x) a h( ) exp λ1T η λ2 aη a d h( x) h( ) exp λ1 u( x)T η λ2 1 aη d exp a ハイパーパラメター と K個のiidの観測データx1 xKが得られたときの 新規(あるいは未知) の xの予測分布は( EB23)において K λ1を λˆ1 λ1 u( xi )で i 1 λ2を λˆ2 λ2 Kで 置き換えれば 得られる。 ( EB23) ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布 難しいので省略する予定 精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現 d 1 1 p( x | ) 2 | | 2 exp x T 1 x 1 とおくと 2 2 1 exp d log 2 d log | | x T x 2 1 exp d log 2 d log | | xT x xT T x T 2 natural parameter: がまだ決めていなかっ た! 1 p( x | ) exp d log 2 d log | | x x exp 2 1 T 以下も注意 T T h( x) 1 1 1 T 1 x 2 T u( x) ( x1,..,xd )T a( ) 事前分布のパラメターλから予測分布p(x| λ)を求める 1 p( | ) exp 1T 2a a exp1T 2 T 1 a 2 1 exp T 21 21T 2a 事前分布もガウス分布 として 2 T 1 1 1 1 2 とおくと exp 2 2 2 T 1 1 1 T 1 T 1 1 exp log | 2 | 2 21 2 2 2 T 1 1 1 1 1 a d log 2 log | | 2 2 2 d次元の行列1に対しては、| 21 | 2d | 1 | p(η | ) h() exp λ1T η λ2 aη a λ1T , λ2 η a log h() exp d ( EB22) および aη ( EB3)(EB4)より が与えられたときの の十分統計量が以下のように求まる。 a T 1 E 1 22 ( EB35) a d 1T 1 E a() 2 22 22 ( EB36)
© Copyright 2024 ExpyDoc