ノンパラメトリックベイズ モデルの複雑さが不明な場合 これまでに説明してきたK-means、EM、変分ベイズなどは、 モデルの複雑さ、たとえばクラスタリングにおけるクラスタ数 は予め分かっているとしてモデル推定した。 しかし、実際はクラスタ数が不明の場合が多い。 ノンパラメトリックとは 観測データに応じてモデル自体の複雑さも学 習する クラスタリングの場合は、クラスタ数が予め分かっ ていない場合。観測データに適したクラスタ数も 推定 データから学習するということの直観 K p x | , k N x | k ( NP1) k 1 有限個の正規分布を配分比πkでの混合モデル:式(NP1) クラスタ数Kの値を観測データから最適化することによっ て推定する。 基本的アイデア:無限次元の連続分布から観測データ に適応した有限次元の離散分布を学習する。 無限次元からサンプリングして 有限次元へ G0 p x | , k N x | k ( NP 2) k 1 K p x | , k N x | k ( NP1) k 1 基底測度という連続の確率分布G0から無限次元の 離散基底分布(NP2)で近似し、そこから有限次元の 離散分布G(NP1) を推定する。 連続ドメインの基 底測度 G0 連続ドメインの基底 測度を 可算無限次元の 離散分布 (NP2) で近似して事前分布 とする。 有限次元離散分布 (NP1) 観測データから推 定 この密度は、G0の 密度分布に比例 Chinese Restaurant Process 観測データが到着するごとに無限次分布NP2からクラ スタを生成していくにあたって、以下の2者択一 新しく生成 G0 に近い 既にあるクラスタに追加 観測データへの追従性 これによって、 G0 に観測データを組み合わせた事 後分布を得る Chinese Restaurant Process G0への近さを表すパラメターを集中度パラメター (concentration papameter) α0 イメージは次のスライドを参照 とする。 NP2(G0) θ1 Z1 θ1 1 0 1 1のテーブル につく確率 θ2 0 0 1 残ったテーブルのうちの一つにつく確率(ただし、 次の候補のテーブルはθ2に決まっているとす る。) …. G0 θ1 Z2 θ2 Z3 Z1 θ1 テーブル につく確率 θ2 1 0 1 0 0 1 2 0 2 0 2 0 3 θ3 0 2 1 0 3 0 0 3 …. N+1人目が k のテーブルに着く確率p(ZN+1= k|Z1,…,ZN) N人目までに着席したテ ーブル数 K テーブル kに着席した人数を nkとすると nk N pZ N 1 k | Z1 ,...,Z N 0 0 0 N k 1,...,K k K 1 α0が大きいほど、無限次元の分布G0に近い α0が小さいほど、観測データに追従した 事後分布となる テーブルをクラスタとみなすと、着席しているテー ブルの数が観測データから推定されたクラスタ数 [Ferguson,1973] 基底測度G0においてドメインΩ=[0,1]上の分割 の確率測度:G(Ai) A1 A2 0 θ1 A3 θ2 θ3 分割Aiをどのように作るか はまだ分かっていない A4 ………. θ4 ………. 1 (G A1 , G A2 ,, G AK ) ~ Dir0G0 A1 ,0G0 A2 ,,0G0 AK G ~ DP(0 , G0 ) K G ixi 1 , i 1 xi 0G0 Ai ~ G 1,.., K A ~ B は、 Bという生成過程でパラ メター を用いて Aという分布が生成され るという意味 α0G0(Ai)に比例 する回数の samplingによっ て離散分布化し xiを得る xiを用いて、ディリ クレ分布の確率変 数θiの値を得る 10 DPの構成定理 は [Sethuraman,1994] 分割Aiに対応する配分比πi を用いて G と構成可能 πi 配分比πi は次に述べる Stick-breaking Processで実現可能 θi 11 Stick-breaking Process • 長さ1の棒(stick)の切断(breaking) V1 1-V1 π1 V2 π2=V2(1-V1) π1 π2 1-V2 V3 1-V3 π3 π3=V3(1-V1)(1-V2) θ2 θ3 θ1 Beta(1,α) a b a 1 Beta | a, b 1 b1 a b a b a 1 b1 Dirichlet1 , 2 | a, b 1 2 a b 1 2 1 1 1 Beta | 1, 1 1 連続ドメインの基 底測度 G0 連続ドメインの基底 測度を 可算無限次元の 離散分布 G で近似して事前分布 とする。 有限次元離散分布 観測データから推 定 この密度は、G0の 密度分布に比例 この高さはStickBreaking した棒の 長さ while 収束するまで以下を繰り返す do for n in randperm (1, ・ ・ ・ ,N) do Xn をクラスタ(古い)Zn から削除してパラメータを更新 Zn ∼ p(Zn|X, Z−i) をサンプル(新しいZn) Xn をクラスタZn に追加してパラメータを更新 end for end while Z1, ・ ・ ・ , ZN を出力 ギブスサンプリングによるznの推定. randperm (x) はx のランダムな並び換えを表す. Dirichlet 分布の事後分布 Multinomial分布 πの事前分布は Dirichlet分布 | xi N ~Dir '1 ,..., ' K i 1 'i 0 i ni 0 N ni は観測データにおける iの出現回数 16 Dirichlet 分布の事後予測分布 17 Dirichlet Processの事後予測分布 [Blackwell and MacQueen,1973] 新たにサンプリングされる確率 既存のθが選ばれる確率 18 離散有限次元 ドメイン μ 連続無限次元 ドメイン θ x1 x2 x3 π π K G ixi 1 i 1 x1 x2 x3 x ~Dir0 , 1 ,...,K K x~Multi ixi i 1 x x1 ,..., xK θ G~DP 0 , G0 ~G G~DP0 , G0 ~G ixi 1 x~Px | θ θ G~DP 0 , G0 x ~G Dirichlet 混合過程 ixi ●このようにして得たθ は事前分布。 ●Xは観測データからサ ンプルして、θなどのパ ラメターの推定を収束す るまで繰り返す(ex. Gibbs Sampling) ●しかし、観測データを 考慮して事後分布にす る推論方法はまだ分か らない そこでStick Breaking クラスタkの 配分比 θ xn 配分比に 従って潜在 変数:クラス タZnをサン プル 事前分布θkとサ ンプルされたクラ スタZnに対応す るデータXnをサ ンプル Vk θk Zn 連続無限次元の基 底測度G0からサン プルして事前分布 として可算無限の 離散分布を表すθk を生成 xn ∞ Dirichlet 過程 Chinese Restaurant Process や混合正規分布の混合比: πi (i=1,…∞)は、離散分布 離散分布で一般的なMultinomial あるいはその事前分布の Dirichlet分布で考えていく。 Multm1 , m2 ,..,mK | μ, N N K mk k m1m2 ..mK k 1 Emk N k varmk N k 1 k cov m j mk N j k K ただし、 i 1 k 1 1 μ K K k 1 k 1 α K 0 k 1 1 1 K K k 1 Dir | k 1 K k 1 E k k 1 K 参考文献 [1]Sethuraman. A Constrauctive Definition of Dirichlet Prior. Statistica Sinica (4), 639650. 1994 [2]持橋大地. 最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ. 電子情報通信 学会論文誌 (to be published)
© Copyright 2025 ExpyDoc