Mathematical Foundation of Statistical Learning

教師なしデータ
学習データ
X1, X2, …, Xn
真の情報源
テストデータ
X
混合正規分布
w = (ak , bk ,σk)
K
p(x|w) = ∑ ak
k=1
K
2
1
2 N/2
(2πσk )
∑ ak = 1
exp( -
平均
k=1
2015/9/30
Mathematical Learning Theory
|| x – bk ||
2σk
2
)
2
bk ,分散σk の
正規分布
2
混合正規分布
2
平均 bk ,分散σk の正規分布の比 {ak} の和
2015/9/30
Mathematical Learning Theory
3
隠れ変数(潜在変数)
K
p(x|w) = ∑ ak
k=1
2
1
2 N/2
(2πσk )
exp( -
|| x – bk ||
)
2
2σk
y について和をとると一致
K
p(x,y|w) = Π
k=1
[ ak
2
1
2 N/2
(2πσk )
exp( -
|| x – bk ||
2
2σk
)]
yk
y = (y1,y2,..,yk )はひとつだけ1で残りは0。つまり
y ∈{(1,0,..,0), (0,1,0,…,0),…,(0,0,…,1)}
2015/9/30
Mathematical Learning Theory
4
変分ベイズ法1
ベイズ法では、事後分布を作る必要がある。
n
p(w|xn) = (1/Z) φ(w) Π p(xi |w)
i=1
(隠れ変数、パラメータ)の事後分布を求めて yn について和をとればよい。
n
p(yn,w | xn) = (1/Z) φ(w) Π p(xi,yi|w)
i=1
(隠れ変数、パラメータ)の事後分布を r(yn)s(w) で近似する。
p(yn,w | xn) ≒r(yn)s(w)
2015/9/30
Mathematical Learning Theory
5
変分ベイズ法2
r(yn)s(w)と事後分布のカルバックライブラ距離の最小化する。
L(r,s)=∫∫ r(yn)s(w) log ( r(yn)s(w) / p(yn,w|xn) ) dyn dw
この最小化問題は、(r,s)のどちらか一方が与えられていれば、
もう一方は解ける。・・・再帰的に解くことにする。
局所解の問題があるが、以下では L(r,s) を最小化できる場合を考える。
もしも yn と w が独立ならば、min L(r,s)=0。
変分ベイズ法だけでは min L(r,s) の値はわからない。
2015/9/30
Mathematical Learning Theory
6
問題1
真2個、学習モデル2個の場合を考える。
隠れ変数とパラメータはいつ独立に近いか。
r(yn) s(w) ? p(yn,w | xn)
2015/9/30
Mathematical Learning Theory
7
問題2
真の分布が ↓ のとき
2015/9/30
変分ベイズの結果は
Mathematical Learning Theory
8