スライド 1

ノンパラメトリックベイズ
モデルの複雑さが不明な場合
これまでに説明してきたK-means、EM、変分ベイズなどは、
モデルの複雑さ、たとえばクラスタリングにおけるクラスタ数
は予め分かっているとしてモデル推定した。
しかし、実際はクラスタ数が不明の場合が多い。
ノンパラメトリックとは
観測データに応じてモデル自体の複雑さも学
習する
クラスタリングの場合は、クラスタ数が予め分かっ
ていない場合。観測データに適したクラスタ数も
推定
データから学習するということの直観
K
p  x |  ,     k N  x |  k 
( NP1)
k 1
 有限個の正規分布を配分比πkでの混合モデル:式(NP1)
 クラスタ数Kの値を観測データから最適化することによっ
て推定する。
 基本的アイデア:無限次元の連続分布から観測データ
に適応した有限次元の離散分布を学習する。
無限次元からサンプリングして
有限次元へ
G0



p  x |  ,     k N  x |  k 
( NP 2)
k 1
K
p  x |  ,     k N  x |  k 
( NP1)
k 1
 基底測度という連続の確率分布G0から無限次元の
離散基底分布(NP2)で近似し、そこから有限次元の
離散分布G(NP1) を推定する。
連続ドメインの基
底測度 G0
連続ドメインの基底
測度を
可算無限次元の
離散分布 (NP2)
で近似して事前分布
とする。
有限次元離散分布
(NP1)
観測データから推
定
この密度は、G0の
密度分布に比例
Chinese Restaurant Process
観測データが到着するごとに無限次分布NP2からクラ
スタを生成していくにあたって、以下の2者択一
新しく生成  G0 に近い
既にあるクラスタに追加 観測データへの追従性
これによって、 G0 に観測データを組み合わせた事
後分布を得る
Chinese Restaurant Process
G0への近さを表すパラメターを集中度パラメター
(concentration papameter)
α0
イメージは次のスライドを参照
とする。
NP2(G0)
θ1
Z1
θ1
1
0  1
1のテーブル
につく確率
θ2
0
0  1
残ったテーブルのうちの一つにつく確率(ただし、
次の候補のテーブルはθ2に決まっているとす
る。)
….
G0
θ1
Z2
θ2
Z3
Z1
θ1
テーブル
につく確率
θ2
1
0  1
0
0  1
2
0  2
0
2
0  3
θ3
0  2
1
0  3
0
0  3
….
N+1人目が k のテーブルに着く確率p(ZN+1= k|Z1,…,ZN)
N人目までに着席したテ ーブル数  K
テーブル kに着席した人数を nkとすると
 nk
  N
pZ N 1  k | Z1 ,...,Z N    0
0

 0  N
k  1,...,K 
k  K  1
α0が大きいほど、無限次元の分布G0に近い
α0が小さいほど、観測データに追従した
事後分布となる
テーブルをクラスタとみなすと、着席しているテー
ブルの数が観測データから推定されたクラスタ数
[Ferguson,1973]
 基底測度G0においてドメインΩ=[0,1]上の分割
の確率測度:G(Ai)
A1 A2
0
θ1
A3
θ2
θ3
分割Aiをどのように作るか
はまだ分かっていない
A4 ……….
θ4 ……….
1
(G A1 , G A2 ,, G AK ) ~ Dir0G0  A1 ,0G0  A2 ,,0G0  AK 
G ~ DP(0 , G0 )
K
G   ixi 1 ,
i 1
xi  0G0  Ai 
 ~ G    1,.., K 
A ~ B は、 Bという生成過程でパラ メター 
を用いて Aという分布が生成され るという意味
α0G0(Ai)に比例
する回数の
samplingによっ
て離散分布化し
xiを得る
xiを用いて、ディリ
クレ分布の確率変
数θiの値を得る
10
DPの構成定理
は
[Sethuraman,1994]
分割Aiに対応する配分比πi
を用いて
G
と構成可能
πi
配分比πi は次に述べる
Stick-breaking Processで実現可能
θi
11
Stick-breaking Process
• 長さ1の棒(stick)の切断(breaking)
V1
1-V1
π1
V2
π2=V2(1-V1)
π1
π2
1-V2
V3 1-V3
π3
π3=V3(1-V1)(1-V2)
θ2 θ3
θ1
Beta(1,α)
a  b  a 1
Beta | a, b  
 1   b1
a b 
a  b  a 1 b1
 Dirichlet1 , 2 | a, b  
1 2
a b 
1  2  1
1   
 1




Beta  | 1,  
1 
1 
連続ドメインの基
底測度 G0
連続ドメインの基底
測度を
可算無限次元の
離散分布 G
で近似して事前分布
とする。
有限次元離散分布
観測データから推
定
この密度は、G0の
密度分布に比例
この高さはStickBreaking した棒の
長さ
while 収束するまで以下を繰り返す do
for n in randperm (1, ・ ・ ・ ,N) do
Xn をクラスタ(古い)Zn から削除してパラメータを更新
Zn ∼ p(Zn|X, Z−i) をサンプル(新しいZn)
Xn をクラスタZn に追加してパラメータを更新
end for
end while
Z1, ・ ・ ・ , ZN を出力
ギブスサンプリングによるznの推定.
randperm (x) はx のランダムな並び換えを表す.
Dirichlet 分布の事後分布
Multinomial分布
πの事前分布は
Dirichlet分布
 | xi N ~Dir '1 ,..., ' K 
i 1
 'i 
 0 i  ni
0  N
ni は観測データにおける iの出現回数
16
Dirichlet 分布の事後予測分布
17
Dirichlet Processの事後予測分布
[Blackwell and MacQueen,1973]
新たにサンプリングされる確率
既存のθが選ばれる確率
18
離散有限次元
ドメイン
μ
連続無限次元
ドメイン
θ
x1 x2 x3
π
π
K
G   ixi 1
i 1
x1 x2 x3
x
~Dir0 ,  
  1 ,...,K 
K
x~Multi     ixi
i 1
x  x1 ,..., xK 
θ
G~DP 0 , G0 
~G
G~DP0 , G0 
~G
  ixi 1
x~Px |  
θ
θ
G~DP 0 , G0 
x
~G
Dirichlet 混合過程
  ixi
●このようにして得たθ
は事前分布。
●Xは観測データからサ
ンプルして、θなどのパ
ラメターの推定を収束す
るまで繰り返す(ex.
Gibbs Sampling)
●しかし、観測データを
考慮して事後分布にす
る推論方法はまだ分か
らない
そこでStick Breaking
クラスタkの
配分比
θ
xn
配分比に
従って潜在
変数:クラス
タZnをサン
プル
事前分布θkとサ
ンプルされたクラ
スタZnに対応す
るデータXnをサ
ンプル
Vk
θk
Zn
連続無限次元の基
底測度G0からサン
プルして事前分布
として可算無限の
離散分布を表すθk
を生成
xn
∞
Dirichlet 過程
 Chinese Restaurant Process や混合正規分布の混合比:
πi (i=1,…∞)は、離散分布
 離散分布で一般的なMultinomial あるいはその事前分布の
Dirichlet分布で考えていく。
Multm1 , m2 ,..,mK | μ, N 
N

 K mk
  k
 
 m1m2 ..mK  k 1
Emk   N k
varmk   N k 1   k 


cov m j mk   N j  k
K
ただし、

i 1
k
1
 1 
 
μ  
 
 K
K

k 1
k
 1 
 
α  
 
 K
0  k  1
1
1     K  K  k 1
Dir |   
k

1   K  k 1
E k  
k
1     K
参考文献
[1]Sethuraman. A Constrauctive Definition of
Dirichlet Prior. Statistica Sinica (4), 639650. 1994
[2]持橋大地. 最近のベイズ理論の進展と応用
(III) ノンパラメトリックベイズ. 電子情報通信
学会論文誌 (to be published)