Mathematical Foundation of Statistical Learning

情報学習理論
渡辺澄夫
東京工業大学
教師なしデータ
学習データ
X1, X2, …, Xn
真の情報源
確率分布 q(x)
テストデータ
X
教師なし学習とは
教師なし学習では、サンプルが与えられたときに
情報源について何かを知ろうとする。
今日は
データ X1,X2,…Xn から確率分布 q(x) を推測する
という問題を考える。
2015/9/30
Mathematical Learning Theory
3
データを発生
真の確率分布 q(x)
汎化誤差
例 Xn =(X1,X2,…,Xn)
学習
推測された分布 p(x)
9/30/2015
Mathematical Learning Theory
4
学習理論とは
推測された確率分布と真の分布の違いを汎化誤差という。
汎化誤差はサンプル数 n とともに小さくなる。
学習理論の基礎的な問題
(1) 汎化誤差をどのように測るか。
(2) 汎化誤差はどのようなスピードで小さくなるか。
(3) 真の分布がわからないときに
汎化誤差を小さくするにはどうしたらよいか。
2015/9/30
Mathematical Learning Theory
5
学習の理論
大数の法則
情報量規準
中心極限定理
交差確認法
経験過程
自由エネルギー
相対エントロピー
VC次元
汎化誤差
平均場近似
いろいろな
学習モデル
深層学習
ボルツマンマシン
混合正規分布
SOM
ニューラルネット
SVM
K-means
学習モデル:混合正規分布
x : M 次元ベクトル
w = (ak , bk ,σk)
パラメータ
K
p(x|w) = ∑ ak
k=1
K
2
1
2 N/2
(2πσk )
∑ ak = 1
exp( -
平均
k=1
2015/9/30
Mathematical Learning Theory
|| x – bk ||
2σk
2
)
2
bk ,分散σk の
正規分布
8
混合正規分布
平均
2015/9/30
2
bk ,分散σk の正規分布の重み
Mathematical Learning Theory
{ak} の和
9
混合正規分布の使い方
高次元空間上に複数の要因に基づくと思われる
データがあるとき、そのデータを発生した確率分布を
推測する。K-means と似ているが、混合正規分布
では、情報源の確率分布まで推測できる。
(例)1000人の中学生について、5次元のデータ
(国語、数学、理科、社会、英語)があったとき、
どのような群があるか知りたい。また、
それぞれの群の平均と分散を知りたい。
2015/9/30
Mathematical Learning Theory
10
隠れ変数(潜在変数) の導入
K
p(x|w) = ∑ ak
k=1
2
1
2
(2πσk )M/2
exp( -
|| x – bk ||
)
2
2σk
y について和をとる
K
p(x,y|w) = Π
k=1
[ ak
2
1
2 M/2
(2πσk )
exp( -
|| x – bk ||
2σk
2
)]
yk
y = (y1,y2,..,yk )はひとつだけ1で残りは0。つまり
y ∈{(1,0,..,0), (0,1,0,…,0),…,(0,0,…,1)}≡CK
2015/9/30
Mathematical Learning Theory
11
混合分布の性質
混合正規分布の学習は
各 xi がどのコンポーネントから発生したかの
確率 yi (隠れ変数)
を計測できない場合の学習と等価である。
p(x|w) ⇔ p(x,y|w)
2015/9/30
Mathematical Learning Theory
12
Expectation -Maximization法
(1) パラメータ初期化
(2) 隠れ変数→パラメータ→隠れ変数・・・の繰り返し
このとき尤度が単調非減少であることを証明できる。
局所的に尤度の大きな解が得られる。
bk
面積
ak
σk
xi
2015/9/30
Mathematical Learning Theory
13
パラメータ→隠れ変数
パラメータ w がわかれば
データ Xi に対する隠れ変数の平均値が求められる。
E[ yk| xi , w]
= Σy yk p(y| xi, w) = Σy yk p(xi, y| w) / p(xi|w)
ak
=
2
1
2 N/2
(2πσk )
exp( -
|| xi – bk ||
2σk
2
)
p(xi|w)
2015/9/30
Mathematical Learning Theory
14
隠れ変数→パラメータ
隠れ変数の平均がわかるとパラメータが推定できる。
Σ E[yk| xi , w]
ak =
bk=
2
σk =
2015/9/30
n
(Σは i=1,..,n の和)
Σ E[yk| xi , w] xi
Σ E[yk| xi , w]
Σ E[yk| xi , w] || xi - bk ||
2
Σ M E[yk| xi , w]
Mathematical Learning Theory
15
EM法のアルゴリズム
両方の手続きを行うと
ak =
b k=
2
σk =
2015/9/30
(Σはすべてi=1,..,n の和を表す)
Σ E[yk| xi , w1]
Σ1
Σ E[yk| xi , w1] xi
w1 → w2 が
計算できる
Σ E[yk| xi , w1]
Σ E[yk| xi , w1] || xi - bk ||
2
MΣ E[yk| xi , w1]
Mathematical Learning Theory
16
問1
EMアルゴリズムを1回動かすと
各パラメータは、どのようになるか図示せよ。
b1
b2
σ1
σ2
2015/9/30
Mathematical Learning Theory
17
学習したとき同じになる?
現実の問題では
現実のデータは、ぴったり K 個の正規分布から
出ているということはめったに起こらない。
データの個数は有限なので、その個数に応じた
解像度で真の情報源がわかる。
データの個数が増えるにつれて少しずつ詳しい
情報が分かっていく。適切なクラスターの個数も
少しずつ増えていく(どのように決める?)
2015/9/30
Mathematical Learning Theory
19
自由エネルギー
確率モデル p(x|w) と事前分布 φ(w)が与えられた
とき、その自由エネルギーを下記で定義する。
n
F = -log ∫ Π p(Xi|w) φ(w) dw
i=1
exp( -F ) は、データ X1,X2,…,Xn が与えられたときの
確率モデルと事前分布の尤度であり、これを最大化
(Fを最小化)することでモデルと事前分布の評価ができる。
(注1) F が小さいことと汎化誤差が小さいこととは等価ではない。
(注2) 一般に自由エネルギーの計算は大きな計算量が必要になる。
今日は平均場近似を使う。
2015/9/30
Mathematical Learning Theory
20
方法の進歩
EM法は最尤推定量を探す方法であるが
混合正規分布では最尤推定量は存在しないので
(1) 何をしているのかよくわからない、(2) 動作が不安定、
(3) 推測精度が悪いという問題点が知られていた。
20世紀の終わりころ、(1) 目的が明確で、(2) 動作が安定であり、
(3) 推測精度が良い新しい方法が作られた(変分ベイズ法)。
K-means法 → EM 法(1977) →VB法(2000)
基礎となる数理は異なるがアルゴリズムは良く似ている。
変分ベイズ法では、平均場近似による
学習モデルの(平均場)自由エネルギーが計算できる。
2015/9/30
Mathematical Learning Theory
21
問2
標準偏差
混合正規分布の学習結果を自由エネルギー F
を見ることで評価してみよう。
0.1
0.2
0.3
0.4
0.5
F
F
F
最小は
2015/9/30
Mathematical Learning Theory
22