PowerPoint プレゼンテーション

潜在変数について
東工大 渡辺澄夫
混合正規分布は、X=(X1 X2 X3 X4 X5) の
確率分布として
H
p( x | w ) = Σ ah exp( - || x-bh ||2 / 2sh2 )
h=1
を考えるものである。ここで、パラメータ w は
w = { (ah , bh , sh) ; h=1,2,…,H}
である。確率分布になるために
Σ ah (2πsh2 )5/2 = 1
図1.混合正規分布
が満たされている必要がある。つまり、混合正規
分布は正規分布の凸結合によって確率分布を
構成するものである。
Y1
以下 H = 3 の例を考える。
Y2
Y3
確率変数 Y = (Y1 Y2 Y3 ) を競合的なものとする。
ah, sh
bh
つまり、Y は、確率的にばらつくが、必ずひとつの
要素だけが1になり、残りの要素は0になる。
X1
確率変数 (X,Y) の確率分布として
H
p( x, y | w ) = Π [ah exp( - || x-bh
h=1
を考えると、EY
||2 /
2sh
2
y
)] h
X2
X3
X4
図2.確率競合モデル
[ p(x,Y| w) ] = p( x | w) が成立つ。
こちらのモデルは確率競合ニューラルネットワークで
ある。確率競合ニューラルネットワークは、X の分布だけ
に注目すれば(Yについて平均すれば)、混合正規分布と同じになる。
X5
確率競合ニューラルネットは、次のようにも書ける。
H
p( x, y | w ) = exp{ Σ yh ( log ah - || x-bh ||2 / 2sh2 ) }
h=1
これより、もしも、( x, y) の例がたくさん得られれば、 w の最尤推定量、MAP推定量は
直接計算することができることがわかる。またベイズ事後確率も簡単になる。
さて、混合正規分布の学習を行う場合には x についての情報は得られるが y について
の情報は得られない。つまり、混合正規分布を確率競合ニューラルネットだと思う場合、
Y は観測できない確率変数である。このような変数のことを潜在変数という。欠損データ
と呼ばれる場合もある。
混合正規分布の場合、Yを潜在変数として導入することにより、(X,Y) の確率分布が
扱いやすい形になる。実際 EM アルゴリズムを上記の分布に適用すると、シンプルな
学習アルゴリズムが得られる。
なお、混合正規分布の推測や検定については統計学で非常に多くの研究が
なされているようである。重要だと思われる点をあげる。
1.分散の推測まで含む混合正規分布 p( x | w ) は、いかなるデータに対しても
ある分散が0になることにより尤度は発散する。最尤推定量は常に存在しない。
2.分散の推測を含まない混合正規分布の場合でも、学習モデルが真の分布に
対して冗長であると、最尤推定量を代入した対数尤度はχ2分布に漸近しない。
3.以上の理由により、混合正規分布が実用上である程度うまく動作している場合、
用いられているパラメータは最尤推定量ではなく、まったく別の、工学的に巧妙に
工夫された推定量のように思われる。それは最尤推定量の近くにはないらしい。
尤度関数は、その工夫を試行錯誤する媒介として意味を持つように感じられるが、
これを厳格に最大化することは、行われていないし、行わない方がよいらしい。