dirichlet

A Bayesian Analysis of Some
Nonparametric Problems
by Thomas S. Ferguson
機械学習勉強会 2007/11/22
吉田 稔(中川研)
(注)不正確な記述が多い&いろいろ間違ってる可能性があるため、
ご利用の際は元文献の参照をおすすめします。
Nonparametric (大雑把な解説)
例:成績の分布の、正規分布による表現
• パラメトリック推定
「今回の試験の成績は、平
均46点、標準偏差10点の
正規分布でした」
– 事前に分布族を設定
θ
– 各分布はパラメータにより表現
– 分布の推定=データからパラメータを推定
• ノンパラメトリック推定
例:同じく度数分布(ヒストグラム)による表現
「今回の試験の成績は、50人中20
~30点が5人、30~40点が10人…で
あるような分布でした」
– 分布族を仮定しない
– 分布を直接表現
– 分布の推定=データから分布そのものを推定
Bayes (大雑把な解説)
• 従来の推定:データからパラメータを推定
• ベイズ推定:データからパラメータの確率分
布を推定
– パラメータそのものを確率的に捉える
– ベイズの定理
• p(θ|D) = p(D|θ) p(θ) / p(D)
– に基づき、データが与えられた時のパラメータの
確率分布(事後確率)を計算する
• ただし、p(D|θ)p(θ)を計算するためには、パラメータの
確率分布が事前に必要(事前分布)
Nonparametric Bayes (大雑把な解説)
• 従来のベイズ推定:データからパラメータの
確率分布を推定
• ノンパラメトリックベイズ推定:データから確率
分布の確率分布を推定
二項分布
Binomial Distribution
• 2値のうち1つ(確率p)が、n回中k回出る確率
– コインをn回投げて(p=0.5)、何回表が出るか?
• 「表の回数と裏の回数のペア(x1,x2)(ただし、
x1+x2=n)の分布」と捉えることもできる。
多項分布
Multinomial Distribution
• 二項分布:「2整数(x1,x2)(ただしx1+x2=n)の
分布」
• 「2整数→k整数」に一般化⇒多項分布
– n回中、それぞれの回数が(x1,x2,...,xk)回となる
確率
ディリクレ分布
Dirichlet Distribution
• 多項分布は、「実数組(p1,...,pn)が与えられた
時、n個の(整数の)組(x1,...xn)」に確率を与え
た。
• 逆に、「(x1,...xn)が与えられた時、(p1,...pn)に
確率を与える」ことを考える。
– 適当な正規化を行って、ディリクレ分布となる。
Γ: ガンマ関数(階乗の一般化)
Nonparametric Bayes (大雑把な解説)
• 従来のベイズ推定:データからパラメータの確率
分布を推定
• ノンパラメトリックベイズ推定:データから確率分
布の確率分布を推定
• どうやって?
– ディリクレ分布は、p1+...+pn=1となるような実数組
(p1,...,pn)に確率を与えることができる。
– n個の事象があったとき、その上での確率分布を、
(p1,...,pn)で直接表現
– (p1,...,pn)に、ディリクレ分布で確率を与えてやる
Dirichlet分布とBayes推定
• 事前確率がディリクレ分布
に従い、サンプルの確率が多項分布
に従っていれば、結合確率は、単に両者の指数
(αとx)を足し合わせるだけで得られる。
⇒これを正規化すると、事後確率は、パラメータ
α+xに従うディリクレ分布となる。
一般の確率空間への拡張
• 有限集合の場合には、今述べた方法でよい。
• 無限集合も含む、一般の集合についてはどう
なる?
一般の確率空間の定義
• 集合Xと、その上のσ集合体 を考える。
– σ集合体:「Xの部分集合で、測度(measure)が定
義できるもの」を集めた集合体(集合の集合)
– 測度:「長さ」の概念の一般化
• 「すべての有理数の集合」のような、直感的に長さが
測れないような集合に対しても定義できる。
• |A|+|B|=|A⋃B|(和集合の測度は、測度の和)となる
ように定義されている(ただしAとBが排他なとき)
– (X, )に対し、P(X)=1となる測度を定義するとき、
Pを確率測度と呼ぶ。
確率的測度P:一般の確率空間の場合
• すべてのA∈ に対しP(A)を定義すれば、それ
は確率分布といえる。
• やりたいこと:そのように定義される測度Pに、
確率を与える。
• 言い換えると:実数ベクトル[0,1] に、確率を
与えたい。
X={ 1, 2, 3, 4, 5, .... }
={ {1}, {1,2}, {1,3}, {1,4}, {1,5}, .... }
{1} {1,2} {1,3} {1,4} {1,5} .....
確率的測度P:一般の確率空間の場合
• 実数ベクトル[0,1] に、確率を与えたい。
• 注意: は、無限集合の場合がある。
– 一般に、無限次元ベクトルは、有限次元ベクトル
と同様に扱うことはできない。
– この場合、「無限次元ベクトルが、あらゆる有限
次元へ整合性を保ちつつ射影※できる」とき、「無
限次元ベクトル上で分布が定義された」と考える。
※対応する次元の要素のみを取り出してベクトルを作ること
「あらゆる有限次元への射影」
• A∈ なる要素の有限個の列A1,...,Anを考え
る
• A1,...Anを表現できる分割B1,...,Bmを作り出す。
– ここで「分割」とは、全体集合Xを、排他的なm個
の集合に分解したもの。
X={1,2,3, ...},
A1={1,2}, A2={2,3,4}
B1={1}, B2={2}, B3={3,4}, B4={5,6,7,...}
A1,A2は、B1,B2,B3の組み合わせで表現できる。
Dirichlet Process
• A∈ なる要素の有限個の列A1,...,Anを考える
• A1,...Anを表現できる分割B1,...,Bmを作り出す。
– ここで「分割」とは、全体集合Xを、排他的なm個の集合に
分解したもの。
• 実数ベクトル(P(B1), ..., P(Bm))の分布が、(α(B1), ...,
α(Bm))をパラメータとするディリクレ分布に従う、とする
– このようなPを、Dirichlet Processと呼ぶ。
– Pは確率的確率測度(Random Probability Measure)
– αを、基底測度と呼ぶ。
• P(A1),...,P(An)は、P(B1),...,P(Bm)から計算できる。
コルモゴロフの整合性条件
Kolmogorov’s Consistency Conditions
• 1つの射影(n個の集合と、それに対応するn次元
ベクトル)が与えられたとする。
• そのうち、k次元目に着目し、その次元を「消す」
– 具体的には、k次元目に対応する集合(n個のうち、k
番目の集合)を、全体集合とする。(いわゆる積分消
去)
– その結果、n-1次元のベクトルができあがる。
• 一方、同じn-1次元のベクトルを、射影によって作
り出す。
• 2つの「n-1次元ベクトルの確率分布」が等しくな
らなければいけない。
整合性のチェック
• 確率空間が、
Xのどんな分割B1,...,Bmに対しても、
実数ベクトル(P(B1), ..., P(Bm))の分布が、
(α(B1), ..., α(Bm))をパラメータとするディリクレ分布に従う
と定義されている。
• チェックしたいこと:異なる分割間で、整合性がと
れているか?
• 言い換えると:ある列A1,...,Amの分布から、別の
列A1,...,Am-1の分布を作ったとき、作られた分布
は上の定義を満たしているか?
整合性のチェック
• ディリクレ分布の性質を使う。
– (基本の性質)二変数の和をとる(畳み込む)と、
和の値を新たな変数としたディリクレ分布になる。
pkを消去:
pによらない定数
整合性のチェック
• 前提(Condition C):
のとき、
の分布は、
なる分布と同一になる。
• これは、以下のディリクレ分布の性質から、明
らかに成り立つ。
整合性のチェック
• A1,...,Am-1において、
とおく。すると、以下の2つの分布は同じ。
このことを利用し、
を、以下に置き換えられる。
Dirichlet ProcessによるBayes推定
• 第3節定理1:基底測度αのDirichlet Process
からx1がサンプルされたとき、事後確率の分
布は、測度α+δ(x1)のDirichlet Processとして
得られる。
Dirichlet Processの別の定義
• Dirichlet Processの定義は宣言的であるため、
得られた確率分布がどんな形をしているのか、
性質がよくわからない。
• もっと構成的な定義を与えることにより、DPの
性質を知りたい。
• 基本アイデア:
– Gamma Processという確率過程を利用する。
– Gamma Processの「時刻」を、「集合の測度」と読
み替えることにより、Dirichlet Processに変形する。
準備:用語解説(1/2)
• 確率変数(Random Variable)
– 確率的状態ωがあるとする
• P(ω)が定義されている。
• 各ωに実数値を定義する⇒その値を確率変数と呼ぶ
• 確率過程(Random Process)
– 複数の確率変数をまとめて表現したもの
• x(t), t ∈ T
– T={1,2,3,...}のとき、確率系列とも呼ばれる。
– 確率変数のベクトル、としても解釈可能
– 確率過程の実現値は、見本過程と呼ばれる。
準備:用語解説(2/2)
• 加法過程(Additive Process)
– 各時刻で、値が独立に変化するような確率過程
– 連続時間を考えるときは、「x(t)-x(t’)の分布が独立」と
いう定義になる。
• 主に、Weiner過程と、Poisson過程に分類される。
– 連続に変化⇒Weiner過程になる。
– 1ずつ不連続に増加⇒Poisson過程になる。
• 特性関数(Characteristic Function)
– 確率分布をフーリエ変換したもの
– 様々な利点
• (例)畳み込み分布の特性関数=特性関数の積
DPの構成法
• 用意するもの:ガンマ分布Gamma(α,1)
• Gamma(α,1)(の特性関数)を、レヴィ標準形
で表現する。
– レヴィ標準形:分布を加法過程の到達点の分布
と見なし(「無限分解」)、過程の「連続部分」と「不
連続部分」に分けて表現したもの
– この場合、対応する過程は、ガンマ過程(ガンマ
分布に従って変化する加法過程)となる。
レヴィ標準形
Levy Representation
• 分布(の特性関数)を「加法過程のt=1での到
達点の分布」と見なし、その加法過程を「連続
部分」と「不連続部分」に分けて表現したもの
連続部分
不連続部分(負のジャンプ)
不連続部分(正のジャンプ)
(注目)
ガンマ関数の標準形には、
連続部分がない!
レヴィ関数
Levy Function
• レヴィ関数N1(x):「(その加法過程で)時刻t=1
(つまり最終目的地)までに、高さx以下のジャ
ンプは平均何回起こるか?」
– N(x)は、その(より利便性の高い)変形として、「高
さx以上のジャンプが平均何回起こるか」にマイナ
スを付けたもの。
DPの構成法
• Gamma(α,1)(の特性関数)を、レヴィ標準形で表
現する。
– レヴィ標準形:分布の加法過程による表現
– その結果、対応する加法過程(この場合は、ガンマ過
程)が得られる。
• 対応する加法過程において、「不連続ジャンプを
高い順に並べたもの」を確率的にサンプリングし、
J1,J2,...とする。
• Z1=J1+J2+...とし、JiとZ1から、確率値Piを計算す
る。
「高い値から確率的にサンプリング」
• (定理)「区間[0,a]からランダムにn個取ってきて、大き
い順に並べたもの」(順序統計)は、「ポアソン点過程」
という過程で再現できる。
– ポアソン点過程:x(n)-x(n-1)が、ガンマ分布に従うような過
程
• レヴィ関数(の変形)”-N(x)”:「見本過程に、高さx以上
のジャンプが平均何個あるか」
– 高さxを与えたとき、それを「平均的順位」に変換してくれ
る関数と見なせる。
• すなわち、「与えられた変数を、レヴィ関数で変換した
ものが、ポアソン点過程に従う」となるような変数の取
り方をすると、それは「高さをランダムにサンプリング」
したことになる。
DPの構成法
• 一方、変数V1,V2,...を、Xから、Q(A)=α(A)/α(X)
(α:基底測度)に従ってサンプリングする。
• 以下の式で、確率Pを定義する。
– 「Vjに属する集合に、確率Pjを与える」
ディラック測度
(AにVjが属するとき1、
それ以外は0)
注:このように(ディラック測度の加算個の重み付け和として)
定義される測度は、離散測度である。
第4節定理2
• 「このようにして定義されたPは、Dirichlet
Processになっている」
– すなわち、任意のXの分割B1,B2,...Bkに対し、
と定義すると、
が成り立つ。
すなわち、Dirichlet Processは離散測度である。
補題(第4節定理1)
• Ztを、以下で定義する。
– Jjは、先程と同じ、Gamma(α,1)からランダムにサ
ンプリングされた「ジャンプの高さ」の列
– Ujは、[0,1]からランダムに選択された値
– G(t)は、G(0)=0, G(1)=1 を満たす単調増加関数
• すると、Ztは、ガンマ過程になり、Ztの分布は、
Gamma(αG(t), 1) に従う。
証明:第4節定理2
• 補題における
[0,1]からサンプルしたUjが、区間[0,G(t)]内にあるか?
– と、定理2における
– を対応付ける。
XからサンプルしたVjが、Bk内にあるか?
• 具体的には、G(j/k)-G((j-1)/k)=Q(Bj)とおく、つまり、Gを、
「確率測度QをB1からBkまで累積する関数」と見なす。
• 結果、
が言える。
証明:第4節定理2
• ディリクレ分布は、「ガンマ分布からn個変数
を取ってきて、(L1)正規化したベクトルの分
布」としても定義できる。
• 従って、
– から、以下が言える。(証明終)
参考文献
• Thomas S. Ferguson, “A Bayesian Analysis of Some
Nonparametric Problems”, The Annals of Statistics, Vol. 1,
No. 2 (Mar., 1973), pp. 209-230
• Thomas S. Ferguson, Michael J. Klass, “A Representation of
Independent Increment Processes without Gaussian
Components”, The Annals of Mathematical Statistics, Vol.
43, No. 5 (Oct., 1972), pp. 1634-1643
• 伊藤清「確率過程」、岩波書店
• 佐藤 坦「測度から確率へ―はじめての確率論 」、共立出
版
• 志賀 浩二 「ルベーグ積分30講 」、朝倉書店