ノンパラメトリックベイズモデルの複雑さが不明な場合 これまでに説明してきたK-means、EM、変分ベイズなどは、モデルの複雑さ、たとえばクラスタリングにおけるクラスタ数は予め分かっているとしてモデル推定した。 しかし、実際はクラスタ数が不明の場合が多い。ノンパラメトリックとは 観測データに応じてモデル自体の複雑さも学習する クラスタリングの場合は、クラスタ数が予め分かっていない場合。観測データに適したクラスタ数も推定データから学習するということの直観 K p  x |  ,     k N  x |  k  ( NP1) k 1  有限個の正規分布を配分比πkでの混合モデル:式(NP1)  クラスタ数Kの値を観測データから最適化することによって推定する。  基本的アイデア：無限次元の連続分布から観測データに適応した有限次元の離散分布を学習する。無限次元からサンプリングして有限次元へ G0    p  x |  ,     k N  x |  k  ( NP 2) k 1 K p  x |  ,     k N  x |  k  ( NP1) k 1  基底測度という連続の確率分布G0から無限次元の離散基底分布(NP2)で近似し、そこから有限次元の離散分布G(NP1) を推定する。連続ドメインの基底測度 G0 連続ドメインの基底測度を 可算無限次元の離散分布 (NP2) で近似して事前分布とする。有限次元離散分布 (NP1) 観測データから推定この密度は、G0の密度分布に比例 Chinese Restaurant Process 観測データが到着するごとに無限次分布NP2からクラスタを生成していくにあたって、以下の２者択一 新しく生成  G0 に近い 既にあるクラスタに追加 観測データへの追従性これによって、 G0 に観測データを組み合わせた事後分布を得る Chinese Restaurant Process G0への近さを表すパラメターを集中度パラメター (concentration papameter) α0 イメージは次のスライドを参照とする。 NP2(G0) θ1 Z1 θ1 1 0  1 １のテーブルにつく確率 θ2 0 0  1 残ったテーブルのうちの一つにつく確率（ただし、次の候補のテーブルはθ2に決まっているとする。） …. G0 θ1 Z2 θ2 Z3 Z1 θ1 テーブルにつく確率 θ2 1 0  1 0 0  1 2 0  2 0 2 0  3 θ3 0  2 1 0  3 0 0  3 …. N+1人目が k のテーブルに着く確率p(ZN+1= k|Z1,…,ZN) N人目までに着席したテーブル数  K テーブル kに着席した人数を nkとすると  nk   N pZ N 1  k | Z1 ,...,Z N    0 0   0  N k  1,...,K  k  K  1 α0が大きいほど、無限次元の分布G0に近い α0が小さいほど、観測データに追従した事後分布となる テーブルをクラスタとみなすと、着席しているテーブルの数が観測データから推定されたクラスタ数 [Ferguson,1973]  基底測度G0においてドメインΩ=[0,1]上の分割の確率測度:G(Ai) A1 A2 0 θ1 A3 θ2 θ3 分割Aiをどのように作るかはまだ分かっていない A4 ………. θ4 ………. 1 (G A1 , G A2 ,, G AK ) ~ Dir0G0  A1 ,0G0  A2 ,,0G0  AK  G ~ DP(0 , G0 ) K G   ixi 1 , i 1 xi  0G0  Ai   ~ G　   1,.., K  A ~ B は、 Bという生成過程でパラメター  を用いて Aという分布が生成されるという意味 α0G0(Ai)に比例する回数の samplingによって離散分布化し xiを得る xiを用いて、ディリクレ分布の確率変数θiの値を得る 10 DPの構成定理は [Sethuraman,1994] 分割Aiに対応する配分比πi を用いて G と構成可能 πi 配分比πi は次に述べる Stick-breaking Processで実現可能 θi 11 Stick-breaking Process • 長さ1の棒(stick)の切断(breaking) V1 1-V1 π1 V2 π2=V2(1-V1) π1 π2 1-V2 V3 1-V3 π3 π3=V3(1-V1)(1-V2) θ2 θ3 θ1 Beta(1，α) a  b  a 1 Beta | a, b    1   b1 a b  a  b  a 1 b1  Dirichlet1 , 2 | a, b   1 2 a b  1  2  1 1     1     Beta  | 1,   1  1  連続ドメインの基底測度 G0 連続ドメインの基底測度を 可算無限次元の離散分布 G で近似して事前分布とする。有限次元離散分布 観測データから推定この密度は、G0の密度分布に比例この高さはStickBreaking した棒の長さ while 収束するまで以下を繰り返す do for n in randperm (1, ・・・ ,N) do Xn をクラスタ(古い）Zn から削除してパラメータを更新 Zn ∼ p(Zn|X, Z−i) をサンプル(新しいZn) Xn をクラスタZn に追加してパラメータを更新 end for end while Z1, ・・・ , ZN を出力ギブスサンプリングによるznの推定. randperm (x) はx のランダムな並び換えを表す. Dirichlet 分布の事後分布 Multinomial分布 πの事前分布は Dirichlet分布  | xi N ～Dir '1 ,..., ' K  i 1  'i   0 i  ni 0  N ni は観測データにおける iの出現回数 16 Dirichlet 分布の事後予測分布 17 Dirichlet Processの事後予測分布 [Blackwell and MacQueen,1973] 新たにサンプリングされる確率既存のθが選ばれる確率 18 離散有限次元ドメイン μ 連続無限次元ドメイン θ x1 x2 x3 π π K G   ixi 1 i 1 x1 x2 x3 x ～Dir0 ,     1 ,...,K  K x～Multi     ixi i 1 x  x1 ,..., xK  θ G～DP 0 , G0  ～G G～DP0 , G0  ～G   ixi 1 x～Px |   θ θ G～DP 0 , G0  x ～G Dirichlet 混合過程   ixi ●このようにして得たθ は事前分布。 ●Xは観測データからサンプルして、θなどのパラメターの推定を収束するまで繰り返す（ex. Gibbs Sampling） ●しかし、観測データを考慮して事後分布にする推論方法はまだ分からない そこでStick Breaking クラスタkの配分比 θ xn 配分比に従って潜在変数：クラスタZnをサンプル事前分布θkとサンプルされたクラスタZnに対応するデータXnをサンプル Vk θk Zn 連続無限次元の基底測度G0からサンプルして事前分布として可算無限の離散分布を表すθk を生成 xn ∞ Dirichlet 過程  Chinese Restaurant Process や混合正規分布の混合比： πi (i=1,…∞)は、離散分布  離散分布で一般的なMultinomial あるいはその事前分布の Dirichlet分布で考えていく。 Multm1 , m2 ,..,mK | μ, N  N   K mk   k    m1m2 ..mK  k 1 Emk   N k varmk   N k 1   k    cov m j mk   N j  k K ただし、  i 1 k 1  1    μ      K K  k 1 k  1    α      K 0  k  1 1 1     K  K  k 1 Dir |    k  1   K  k 1 E k   k 1     K 参考文献 [1]Sethuraman. A Constrauctive Definition of Dirichlet Prior. Statistica Sinica (4), 639650. 1994 [2]持橋大地. 最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ. 電子情報通信学会論文誌 (to be published)