「データ学習アルゴリズム」 報告者 佐々木 稔 2003年8月1日 第3章 複雑な学習モデル 3.2 競合学習 3.2.1 確率競合モデル 3.2.2 混合正規モデルの推論 3.2.3 混合分布の最急降下法 3.2.4 確率競合モデルとEMアルゴリズム 3.2.5 EMアルゴリズム 3.2.6 ノンパラメトリック学習 3.2.7 自己組織化写像 一般的なモデルでのEMアルゴリズム 確率モデル p(x, u | w) 競合的な確率変数 U は観測されない 確率変数 X はモデルから観測される 観測データ x1, x2, ・・・, xn 最適な分布となるパラメータを学習する EMアルゴリズムの概略図 山の形(分散)は同じで中心(分布の平均)が最適な場所に移動 学習データ 中心の初期値 から に 中心移動が繰り 返される 損失関数 n nLn ( w) log p( xi | w) i 1 損失関数を最小にするパラメータを見つける w を固定したとき、u の関数 f(u) の平均 Eu f (u ) | x, w f (u ) p(u | x, w)du u は 0 と 1 だけとるので、 n Gw1 , w2 Eu log p( xi , u | w2 ) | xi , w1 i 1 EMアルゴリズム n Gw1 , w2 Eu log p( xi , u | w2 ) | xi , w1 i 1 1. w1 を初期化 2. w1 を固定して G(w1, w2) が 最小となるように w2 を定める。(Eステップ) 3. w1 := w2 として 2. に戻り、以降 2. 3. を 適当な回数だけ繰り返す。(Mステップ) n G w1 , w2 Eu log p( xi | w2 ) p(u | xi , w2 ) | xi , w1 i 1 n n i 1 i 1 log p( xi | w2 ) Eu log p(u | xi , w2 ) | xi , w1 n nLn ( w2 ) Eu log p(u | xi , w2 ) | xi , w1 i 1 w2 における損失関数 n G * w1 , w2 G w1 , w2 Eu log p(u | xi , w1 ) | xi , w1 i 1 p(u | xi , w1 ) nLn ( w2 ) Eu log | xi , w1 p (u | xi , w2 ) i 1 n 右辺第2項はカルバックの擬距離 G*(w1, w2) は、 「w2 が Ln(w2) を最小にし、かつ w1=w2」 のとき最小で、最小値は「nLn(w2) の最小値」と等しい 1. w1 を固定し、G(w1, w2) を最小にする w2 を見つける n G w1 , w2 Gw1 , w2 Eu log p(u | xi , w1 ) | xi , w1 * i 1 最小値 G*(w1, w2) の値は減少する w2 には関係ない定数 2. w1 に w2 を代入する p(u | xi , w1 ) G w1 , w2 nLn ( w2 ) Eu log | xi , w1 p(u | xi , w2 ) i 1 n * w1、w2 が同じ値なので、擬距離は 0 G*(w1, w2) の値は、最適化したい 損失関数 nLn(w2) に等しくなる Ln(w2) を小さくするパラメータ w2 が見つかる [注27] 局所解に落ちた場合 • その局所解に収束してしまうかどうか • 繰り返しで局所解から脱出するのかどうか 詳しい動作はまだ明らかになっていない 「だいたいよい推定量」を探すことも多い 理論的にも実用的にも重要な問題 確率競合モデルのEMアルゴリズム パラメータ w : H H w ah , bh h1; ah 1, ah 0 h 1 確率変数 X, U n p( xi , u | w2 ) ah q( xi | bh ) uh h 1 n log p( xi , u | w2 ) uh log ah log q( xi | bh ) h 1 ここで、パラメータ bh での確率分布 q(x | bh) q( x | bh ) 1 2 2 h M 2 x h exp 2 2 h 2 固定したパラメータ w1 = w = (ah, bh), bh = (ξh, σh) 最適化するパラメータ w2 = w = (ah, bh), bh = (ξh, σh) w に固定したときの uh の平均 Ei(h) Ei (h) Eu {uh | xi , w} u u h 0 ,1 h p(u | xi , w) ah q( xi | bh ) p( xi | w) u の平均値 Ei(h) をすべての xi に関して和を求める n H Gn ( w, w) Ei (h)log ah log q( xi | bh ) i 1 h 1 Gn(w, w) が最小となる w を求める 1 n ah Ei (h) n i 1 (係数) n h E ( h ) x i i i 1 n i 1 Ei (h) n ( h ) 2 (正規分布の平均) i 1 Ei (h) xi h M i 1 Ei (h) n (正規分布の分散) [注28] 与えられたデータをいくつかのクラスタに分類 K-means 法 データ {xi ∈ RM; i = 1, 2, ・・・, n} データを H 個のクラスタに分類する クラスタ Ch の重心 ξh データ xi を距離 || xi – ξh|| が最小になる クラスタ Ch に分類し、重心 ξh を再計算 h iCh iCh xi 1 クラスタの重心 {ξh} を繰返し求めて最適化 [注28]の続き EMアルゴリズムを使う場合の注意 • クラスタの大きさに偏りがある場合、 偏りを緩和させる必要 • クラスタの個数 H を最適化する際、 情報量規準を使うことはできない 損失関数の2次近似をすることができない 比較的大きめな H を決めて、EMアルゴリズムを 少ない回数で停止させるとクラスタの偏りが緩和 例46 確率競合型モデルと3層パーセプトロンの比較 10人が描いた 8×8 ピクセルの ○、△、× の 画像 600 例を学習 同じく10人が描いた 8×8 ピクセルの 画像 600 例をテストに用いる 確率競合型モデル K-means法で初期化したパラメータを最急降下法で学習 3層パーセプトロン 誤差逆伝播法で学習 中間ユニット数 20 までの場合の認識率 確率競合型モデル 96~98.5% 3層パーセプトロン 98~98.5% 中間ユニット数 20 までの場合の認識率 確率競合型モデル 98.5~99% 3層パーセプトロン 98~98.5%
© Copyright 2025 ExpyDoc