情報学習理論 渡辺澄夫 東京工業大学 教師なしデータ 学習データ X1, X2, …, Xn 真の情報源 確率分布 q(x) テストデータ X 教師なし学習とは 教師なし学習では、サンプルが与えられたときに 情報源について何かを知ろうとする。 今日は データ X1,X2,…Xn から確率分布 q(x) を推測する という問題を考える。 2015/9/30 Mathematical Learning Theory 3 データを発生 真の確率分布 q(x) 汎化誤差 例 Xn =(X1,X2,…,Xn) 学習 推測された分布 p(x) 9/30/2015 Mathematical Learning Theory 4 学習理論とは 推測された確率分布と真の分布の違いを汎化誤差という。 汎化誤差はサンプル数 n とともに小さくなる。 学習理論の基礎的な問題 (1) 汎化誤差をどのように測るか。 (2) 汎化誤差はどのようなスピードで小さくなるか。 (3) 真の分布がわからないときに 汎化誤差を小さくするにはどうしたらよいか。 2015/9/30 Mathematical Learning Theory 5 学習の理論 大数の法則 情報量規準 中心極限定理 交差確認法 経験過程 自由エネルギー 相対エントロピー VC次元 汎化誤差 平均場近似 いろいろな 学習モデル 深層学習 ボルツマンマシン 混合正規分布 SOM ニューラルネット SVM K-means 学習モデル:混合正規分布 x : M 次元ベクトル w = (ak , bk ,σk) パラメータ K p(x|w) = ∑ ak k=1 K 2 1 2 N/2 (2πσk ) ∑ ak = 1 exp( - 平均 k=1 2015/9/30 Mathematical Learning Theory || x – bk || 2σk 2 ) 2 bk ,分散σk の 正規分布 8 混合正規分布 平均 2015/9/30 2 bk ,分散σk の正規分布の重み Mathematical Learning Theory {ak} の和 9 混合正規分布の使い方 高次元空間上に複数の要因に基づくと思われる データがあるとき、そのデータを発生した確率分布を 推測する。K-means と似ているが、混合正規分布 では、情報源の確率分布まで推測できる。 (例)1000人の中学生について、5次元のデータ (国語、数学、理科、社会、英語)があったとき、 どのような群があるか知りたい。また、 それぞれの群の平均と分散を知りたい。 2015/9/30 Mathematical Learning Theory 10 隠れ変数(潜在変数) の導入 K p(x|w) = ∑ ak k=1 2 1 2 (2πσk )M/2 exp( - || x – bk || ) 2 2σk y について和をとる K p(x,y|w) = Π k=1 [ ak 2 1 2 M/2 (2πσk ) exp( - || x – bk || 2σk 2 )] yk y = (y1,y2,..,yk )はひとつだけ1で残りは0。つまり y ∈{(1,0,..,0), (0,1,0,…,0),…,(0,0,…,1)}≡CK 2015/9/30 Mathematical Learning Theory 11 混合分布の性質 混合正規分布の学習は 各 xi がどのコンポーネントから発生したかの 確率 yi (隠れ変数) を計測できない場合の学習と等価である。 p(x|w) ⇔ p(x,y|w) 2015/9/30 Mathematical Learning Theory 12 Expectation -Maximization法 (1) パラメータ初期化 (2) 隠れ変数→パラメータ→隠れ変数・・・の繰り返し このとき尤度が単調非減少であることを証明できる。 局所的に尤度の大きな解が得られる。 bk 面積 ak σk xi 2015/9/30 Mathematical Learning Theory 13 パラメータ→隠れ変数 パラメータ w がわかれば データ Xi に対する隠れ変数の平均値が求められる。 E[ yk| xi , w] = Σy yk p(y| xi, w) = Σy yk p(xi, y| w) / p(xi|w) ak = 2 1 2 N/2 (2πσk ) exp( - || xi – bk || 2σk 2 ) p(xi|w) 2015/9/30 Mathematical Learning Theory 14 隠れ変数→パラメータ 隠れ変数の平均がわかるとパラメータが推定できる。 Σ E[yk| xi , w] ak = bk= 2 σk = 2015/9/30 n (Σは i=1,..,n の和) Σ E[yk| xi , w] xi Σ E[yk| xi , w] Σ E[yk| xi , w] || xi - bk || 2 Σ M E[yk| xi , w] Mathematical Learning Theory 15 EM法のアルゴリズム 両方の手続きを行うと ak = b k= 2 σk = 2015/9/30 (Σはすべてi=1,..,n の和を表す) Σ E[yk| xi , w1] Σ1 Σ E[yk| xi , w1] xi w1 → w2 が 計算できる Σ E[yk| xi , w1] Σ E[yk| xi , w1] || xi - bk || 2 MΣ E[yk| xi , w1] Mathematical Learning Theory 16 問1 EMアルゴリズムを1回動かすと 各パラメータは、どのようになるか図示せよ。 b1 b2 σ1 σ2 2015/9/30 Mathematical Learning Theory 17 学習したとき同じになる? 現実の問題では 現実のデータは、ぴったり K 個の正規分布から 出ているということはめったに起こらない。 データの個数は有限なので、その個数に応じた 解像度で真の情報源がわかる。 データの個数が増えるにつれて少しずつ詳しい 情報が分かっていく。適切なクラスターの個数も 少しずつ増えていく(どのように決める?) 2015/9/30 Mathematical Learning Theory 19 自由エネルギー 確率モデル p(x|w) と事前分布 φ(w)が与えられた とき、その自由エネルギーを下記で定義する。 n F = -log ∫ Π p(Xi|w) φ(w) dw i=1 exp( -F ) は、データ X1,X2,…,Xn が与えられたときの 確率モデルと事前分布の尤度であり、これを最大化 (Fを最小化)することでモデルと事前分布の評価ができる。 (注1) F が小さいことと汎化誤差が小さいこととは等価ではない。 (注2) 一般に自由エネルギーの計算は大きな計算量が必要になる。 今日は平均場近似を使う。 2015/9/30 Mathematical Learning Theory 20 方法の進歩 EM法は最尤推定量を探す方法であるが 混合正規分布では最尤推定量は存在しないので (1) 何をしているのかよくわからない、(2) 動作が不安定、 (3) 推測精度が悪いという問題点が知られていた。 20世紀の終わりころ、(1) 目的が明確で、(2) 動作が安定であり、 (3) 推測精度が良い新しい方法が作られた(変分ベイズ法)。 K-means法 → EM 法(1977) →VB法(2000) 基礎となる数理は異なるがアルゴリズムは良く似ている。 変分ベイズ法では、平均場近似による 学習モデルの(平均場)自由エネルギーが計算できる。 2015/9/30 Mathematical Learning Theory 21 問2 標準偏差 混合正規分布の学習結果を自由エネルギー F を見ることで評価してみよう。 0.1 0.2 0.3 0.4 0.5 F F F 最小は 2015/9/30 Mathematical Learning Theory 22
© Copyright 2024 ExpyDoc