A Bayesian Analysis of Some Nonparametric Problems by Thomas S. Ferguson 機械学習勉強会 2007/11/22 吉田 稔(中川研) (注)不正確な記述が多い&いろいろ間違ってる可能性があるため、 ご利用の際は元文献の参照をおすすめします。 Nonparametric (大雑把な解説) 例:成績の分布の、正規分布による表現 • パラメトリック推定 「今回の試験の成績は、平 均46点、標準偏差10点の 正規分布でした」 – 事前に分布族を設定 θ – 各分布はパラメータにより表現 – 分布の推定=データからパラメータを推定 • ノンパラメトリック推定 例:同じく度数分布(ヒストグラム)による表現 「今回の試験の成績は、50人中20 ~30点が5人、30~40点が10人…で あるような分布でした」 – 分布族を仮定しない – 分布を直接表現 – 分布の推定=データから分布そのものを推定 Bayes (大雑把な解説) • 従来の推定:データからパラメータを推定 • ベイズ推定:データからパラメータの確率分 布を推定 – パラメータそのものを確率的に捉える – ベイズの定理 • p(θ|D) = p(D|θ) p(θ) / p(D) – に基づき、データが与えられた時のパラメータの 確率分布(事後確率)を計算する • ただし、p(D|θ)p(θ)を計算するためには、パラメータの 確率分布が事前に必要(事前分布) Nonparametric Bayes (大雑把な解説) • 従来のベイズ推定:データからパラメータの 確率分布を推定 • ノンパラメトリックベイズ推定:データから確率 分布の確率分布を推定 二項分布 Binomial Distribution • 2値のうち1つ(確率p)が、n回中k回出る確率 – コインをn回投げて(p=0.5)、何回表が出るか? • 「表の回数と裏の回数のペア(x1,x2)(ただし、 x1+x2=n)の分布」と捉えることもできる。 多項分布 Multinomial Distribution • 二項分布:「2整数(x1,x2)(ただしx1+x2=n)の 分布」 • 「2整数→k整数」に一般化⇒多項分布 – n回中、それぞれの回数が(x1,x2,...,xk)回となる 確率 ディリクレ分布 Dirichlet Distribution • 多項分布は、「実数組(p1,...,pn)が与えられた 時、n個の(整数の)組(x1,...xn)」に確率を与え た。 • 逆に、「(x1,...xn)が与えられた時、(p1,...pn)に 確率を与える」ことを考える。 – 適当な正規化を行って、ディリクレ分布となる。 Γ: ガンマ関数(階乗の一般化) Nonparametric Bayes (大雑把な解説) • 従来のベイズ推定:データからパラメータの確率 分布を推定 • ノンパラメトリックベイズ推定:データから確率分 布の確率分布を推定 • どうやって? – ディリクレ分布は、p1+...+pn=1となるような実数組 (p1,...,pn)に確率を与えることができる。 – n個の事象があったとき、その上での確率分布を、 (p1,...,pn)で直接表現 – (p1,...,pn)に、ディリクレ分布で確率を与えてやる Dirichlet分布とBayes推定 • 事前確率がディリクレ分布 に従い、サンプルの確率が多項分布 に従っていれば、結合確率は、単に両者の指数 (αとx)を足し合わせるだけで得られる。 ⇒これを正規化すると、事後確率は、パラメータ α+xに従うディリクレ分布となる。 一般の確率空間への拡張 • 有限集合の場合には、今述べた方法でよい。 • 無限集合も含む、一般の集合についてはどう なる? 一般の確率空間の定義 • 集合Xと、その上のσ集合体 を考える。 – σ集合体:「Xの部分集合で、測度(measure)が定 義できるもの」を集めた集合体(集合の集合) – 測度:「長さ」の概念の一般化 • 「すべての有理数の集合」のような、直感的に長さが 測れないような集合に対しても定義できる。 • |A|+|B|=|A⋃B|(和集合の測度は、測度の和)となる ように定義されている(ただしAとBが排他なとき) – (X, )に対し、P(X)=1となる測度を定義するとき、 Pを確率測度と呼ぶ。 確率的測度P:一般の確率空間の場合 • すべてのA∈ に対しP(A)を定義すれば、それ は確率分布といえる。 • やりたいこと:そのように定義される測度Pに、 確率を与える。 • 言い換えると:実数ベクトル[0,1] に、確率を 与えたい。 X={ 1, 2, 3, 4, 5, .... } ={ {1}, {1,2}, {1,3}, {1,4}, {1,5}, .... } {1} {1,2} {1,3} {1,4} {1,5} ..... 確率的測度P:一般の確率空間の場合 • 実数ベクトル[0,1] に、確率を与えたい。 • 注意: は、無限集合の場合がある。 – 一般に、無限次元ベクトルは、有限次元ベクトル と同様に扱うことはできない。 – この場合、「無限次元ベクトルが、あらゆる有限 次元へ整合性を保ちつつ射影※できる」とき、「無 限次元ベクトル上で分布が定義された」と考える。 ※対応する次元の要素のみを取り出してベクトルを作ること 「あらゆる有限次元への射影」 • A∈ なる要素の有限個の列A1,...,Anを考え る • A1,...Anを表現できる分割B1,...,Bmを作り出す。 – ここで「分割」とは、全体集合Xを、排他的なm個 の集合に分解したもの。 X={1,2,3, ...}, A1={1,2}, A2={2,3,4} B1={1}, B2={2}, B3={3,4}, B4={5,6,7,...} A1,A2は、B1,B2,B3の組み合わせで表現できる。 Dirichlet Process • A∈ なる要素の有限個の列A1,...,Anを考える • A1,...Anを表現できる分割B1,...,Bmを作り出す。 – ここで「分割」とは、全体集合Xを、排他的なm個の集合に 分解したもの。 • 実数ベクトル(P(B1), ..., P(Bm))の分布が、(α(B1), ..., α(Bm))をパラメータとするディリクレ分布に従う、とする – このようなPを、Dirichlet Processと呼ぶ。 – Pは確率的確率測度(Random Probability Measure) – αを、基底測度と呼ぶ。 • P(A1),...,P(An)は、P(B1),...,P(Bm)から計算できる。 コルモゴロフの整合性条件 Kolmogorov’s Consistency Conditions • 1つの射影(n個の集合と、それに対応するn次元 ベクトル)が与えられたとする。 • そのうち、k次元目に着目し、その次元を「消す」 – 具体的には、k次元目に対応する集合(n個のうち、k 番目の集合)を、全体集合とする。(いわゆる積分消 去) – その結果、n-1次元のベクトルができあがる。 • 一方、同じn-1次元のベクトルを、射影によって作 り出す。 • 2つの「n-1次元ベクトルの確率分布」が等しくな らなければいけない。 整合性のチェック • 確率空間が、 Xのどんな分割B1,...,Bmに対しても、 実数ベクトル(P(B1), ..., P(Bm))の分布が、 (α(B1), ..., α(Bm))をパラメータとするディリクレ分布に従う と定義されている。 • チェックしたいこと:異なる分割間で、整合性がと れているか? • 言い換えると:ある列A1,...,Amの分布から、別の 列A1,...,Am-1の分布を作ったとき、作られた分布 は上の定義を満たしているか? 整合性のチェック • ディリクレ分布の性質を使う。 – (基本の性質)二変数の和をとる(畳み込む)と、 和の値を新たな変数としたディリクレ分布になる。 pkを消去: pによらない定数 整合性のチェック • 前提(Condition C): のとき、 の分布は、 なる分布と同一になる。 • これは、以下のディリクレ分布の性質から、明 らかに成り立つ。 整合性のチェック • A1,...,Am-1において、 とおく。すると、以下の2つの分布は同じ。 このことを利用し、 を、以下に置き換えられる。 Dirichlet ProcessによるBayes推定 • 第3節定理1:基底測度αのDirichlet Process からx1がサンプルされたとき、事後確率の分 布は、測度α+δ(x1)のDirichlet Processとして 得られる。 Dirichlet Processの別の定義 • Dirichlet Processの定義は宣言的であるため、 得られた確率分布がどんな形をしているのか、 性質がよくわからない。 • もっと構成的な定義を与えることにより、DPの 性質を知りたい。 • 基本アイデア: – Gamma Processという確率過程を利用する。 – Gamma Processの「時刻」を、「集合の測度」と読 み替えることにより、Dirichlet Processに変形する。 準備:用語解説(1/2) • 確率変数(Random Variable) – 確率的状態ωがあるとする • P(ω)が定義されている。 • 各ωに実数値を定義する⇒その値を確率変数と呼ぶ • 確率過程(Random Process) – 複数の確率変数をまとめて表現したもの • x(t), t ∈ T – T={1,2,3,...}のとき、確率系列とも呼ばれる。 – 確率変数のベクトル、としても解釈可能 – 確率過程の実現値は、見本過程と呼ばれる。 準備:用語解説(2/2) • 加法過程(Additive Process) – 各時刻で、値が独立に変化するような確率過程 – 連続時間を考えるときは、「x(t)-x(t’)の分布が独立」と いう定義になる。 • 主に、Weiner過程と、Poisson過程に分類される。 – 連続に変化⇒Weiner過程になる。 – 1ずつ不連続に増加⇒Poisson過程になる。 • 特性関数(Characteristic Function) – 確率分布をフーリエ変換したもの – 様々な利点 • (例)畳み込み分布の特性関数=特性関数の積 DPの構成法 • 用意するもの:ガンマ分布Gamma(α,1) • Gamma(α,1)(の特性関数)を、レヴィ標準形 で表現する。 – レヴィ標準形:分布を加法過程の到達点の分布 と見なし(「無限分解」)、過程の「連続部分」と「不 連続部分」に分けて表現したもの – この場合、対応する過程は、ガンマ過程(ガンマ 分布に従って変化する加法過程)となる。 レヴィ標準形 Levy Representation • 分布(の特性関数)を「加法過程のt=1での到 達点の分布」と見なし、その加法過程を「連続 部分」と「不連続部分」に分けて表現したもの 連続部分 不連続部分(負のジャンプ) 不連続部分(正のジャンプ) (注目) ガンマ関数の標準形には、 連続部分がない! レヴィ関数 Levy Function • レヴィ関数N1(x):「(その加法過程で)時刻t=1 (つまり最終目的地)までに、高さx以下のジャ ンプは平均何回起こるか?」 – N(x)は、その(より利便性の高い)変形として、「高 さx以上のジャンプが平均何回起こるか」にマイナ スを付けたもの。 DPの構成法 • Gamma(α,1)(の特性関数)を、レヴィ標準形で表 現する。 – レヴィ標準形:分布の加法過程による表現 – その結果、対応する加法過程(この場合は、ガンマ過 程)が得られる。 • 対応する加法過程において、「不連続ジャンプを 高い順に並べたもの」を確率的にサンプリングし、 J1,J2,...とする。 • Z1=J1+J2+...とし、JiとZ1から、確率値Piを計算す る。 「高い値から確率的にサンプリング」 • (定理)「区間[0,a]からランダムにn個取ってきて、大き い順に並べたもの」(順序統計)は、「ポアソン点過程」 という過程で再現できる。 – ポアソン点過程:x(n)-x(n-1)が、ガンマ分布に従うような過 程 • レヴィ関数(の変形)”-N(x)”:「見本過程に、高さx以上 のジャンプが平均何個あるか」 – 高さxを与えたとき、それを「平均的順位」に変換してくれ る関数と見なせる。 • すなわち、「与えられた変数を、レヴィ関数で変換した ものが、ポアソン点過程に従う」となるような変数の取 り方をすると、それは「高さをランダムにサンプリング」 したことになる。 DPの構成法 • 一方、変数V1,V2,...を、Xから、Q(A)=α(A)/α(X) (α:基底測度)に従ってサンプリングする。 • 以下の式で、確率Pを定義する。 – 「Vjに属する集合に、確率Pjを与える」 ディラック測度 (AにVjが属するとき1、 それ以外は0) 注:このように(ディラック測度の加算個の重み付け和として) 定義される測度は、離散測度である。 第4節定理2 • 「このようにして定義されたPは、Dirichlet Processになっている」 – すなわち、任意のXの分割B1,B2,...Bkに対し、 と定義すると、 が成り立つ。 すなわち、Dirichlet Processは離散測度である。 補題(第4節定理1) • Ztを、以下で定義する。 – Jjは、先程と同じ、Gamma(α,1)からランダムにサ ンプリングされた「ジャンプの高さ」の列 – Ujは、[0,1]からランダムに選択された値 – G(t)は、G(0)=0, G(1)=1 を満たす単調増加関数 • すると、Ztは、ガンマ過程になり、Ztの分布は、 Gamma(αG(t), 1) に従う。 証明:第4節定理2 • 補題における [0,1]からサンプルしたUjが、区間[0,G(t)]内にあるか? – と、定理2における – を対応付ける。 XからサンプルしたVjが、Bk内にあるか? • 具体的には、G(j/k)-G((j-1)/k)=Q(Bj)とおく、つまり、Gを、 「確率測度QをB1からBkまで累積する関数」と見なす。 • 結果、 が言える。 証明:第4節定理2 • ディリクレ分布は、「ガンマ分布からn個変数 を取ってきて、(L1)正規化したベクトルの分 布」としても定義できる。 • 従って、 – から、以下が言える。(証明終) 参考文献 • Thomas S. Ferguson, “A Bayesian Analysis of Some Nonparametric Problems”, The Annals of Statistics, Vol. 1, No. 2 (Mar., 1973), pp. 209-230 • Thomas S. Ferguson, Michael J. Klass, “A Representation of Independent Increment Processes without Gaussian Components”, The Annals of Mathematical Statistics, Vol. 43, No. 5 (Oct., 1972), pp. 1634-1643 • 伊藤清「確率過程」、岩波書店 • 佐藤 坦「測度から確率へ―はじめての確率論 」、共立出 版 • 志賀 浩二 「ルベーグ積分30講 」、朝倉書店
© Copyright 2024 ExpyDoc