Mathematical Foundation of Statistical Learning

情報学習理論
渡辺澄夫
東京工業大学
教師なしデータ
学習データ
X1, X2, …, Xn
真の情報源
情報源の何を知りたいのか
テストデータ
X
教師なし学習
q(x)
「くだもの」の
空間の構造?
p(x|w)
2015/9/30
Mathematical Learning Theory
概念の
自動生成
3
競合学習
xi i=1,2,3,…,n
(1) bk ; k=1,2,…,K 初期化
xi
(2) xi に一番近い bk を選ぶ
(3) bk := bk + ε( xi – bk )
(2), (3) を繰り返す (ε→0)
2015/9/30
Mathematical Learning Theory
bk
bk
4
競合学習の様子
初期値
k-means とは異なる
アルゴリズムであるが
目標とする学習結果は
ほぼ同じである
2015/9/30
Mathematical Learning Theory
5
教師なし学習の目標の例
高次元空間にたくさんの例が与えられたとき
(1) 代表例をあげる
K-Means, 競合学習
(2) 空間の地図を作る
自己組織化写像
(3) 情報源の確率分布を推測する
混合正規分布 ボルツマンマシン
2015/9/30
Mathematical Learning Theory
6
高次元空間を地図にする
2015/9/30
Mathematical Learning Theory
7
高次元空間内のデータ
高次元空間のデータが
低次元多様体に
おおよそ乗っていることは
よく起こる
2015/9/30
Mathematical Learning Theory
8
自己組織化写像
Self Organizing Map (SOM)
「となり同志」の
情報があるもの
の学習
2015/9/30
Mathematical Learning Theory
9
SOM 学習法
xi i=1,2,3,…,n
b1, b2, …, bk
(1) bk ; k=1,2,…,K 初期化
xi
(2) xi に一番近い bk を選ぶ
(3) bk-1 := bk-1 + ε( xi – bk-1 )
bk := bk + ε( xi – bk )
bk+1 := bk+1 + ε( xi – bk+1 )
(2), (3) を繰り返す (ε→0)
2015/9/30
Mathematical Learning Theory
bk+1
bk
bk-1
10
学習の様子
2015/9/30
Mathematical Learning Theory
11
高次元化
z
y
x
2015/9/30
Mathematical Learning Theory
「となりどうし」を
縦横として
学習する
12
3次元以上でもできるが・・・
球面やトーラスやメビウスの帯でも
できるが・・・
2015/9/30
Mathematical Learning Theory
13
データの密度
データが密集している
ところには、比例して
多くの点が自動的に集まる
2015/9/30
Mathematical Learning Theory
14
次元が異なると
2次元を
1次元で
埋めると
このように
なる
データに
相応しい次元
を知る方法は
確立していない
2015/9/30
Mathematical Learning Theory
15
問題1
次の情報に1次元のSOMをあてはめるとどのような
学習結果が得られるか。二つ以上の異なる結果が
得られたときには両方を描きなさい。
(1)
2015/9/30
(2)
Mathematical Learning Theory
16
地図を見て世界を考える
2015/9/30
Mathematical Learning Theory
17
どんな役にたつか?
z
高次元空間に
埋め込まれた
曲がった地図
y
x
2015/9/30
Mathematical Learning Theory
情報解析
低次元空間なので
人間が理解できる
18
情報工学への応用
48
48
48×48 次元の空間
認識
中間の自体の生成
2015/9/30
Mathematical Learning Theory
19
発見科学への応用
ジープ
自動車の空間
ワゴン
乗用車
(車高,車幅,CC,馬力,…)
ミニバン
10次元の空間
これに昨年と今年の売上を
重ね合わせると流行の変化がわかる
→商品プラン支援
2015/9/30
Mathematical Learning Theory
20
時系列予測への応用
x(t) t=1,2,…,10000
10 次元の空間
(x(t),x(t+1),…,x(t+9))
x(t)
t
起こりやすい時系列と
変化の具合がわかる
現在がどれに近いかわかれば
明日が予測できる?
2015/9/30
Mathematical Learning Theory
21
神経科学への応用
ライオン
トラ
?
外界に対応する
脳内情報地図が存在?
2015/9/30
Mathematical Learning Theory
22
心理学への応用
育てる
夢・神話・伝説・
物語に出てくる
女性像の地図
デーメーテル
雪女
マリア
夢のシリーズが
地図内で
どのように
変化するかを
調べて夢見手の
心の変化を
考える
魔女
(白雪姫)
ソフィア
狂わ
せる
知恵を
与える
魔女
(お菓子の家)
山姥
カーリー
飲み込む
2015/9/30
Mathematical Learning Theory
23
重要注意1
SOMなどの低次元空間への写像は
人間とのVisualなインターフェースに適し
データからの知識発見に役立つが
パターン認識・予測・制御において
高精度なシステムには結びつかないことが多い。
⇔ 高精度なものは高次元になることが多く、
完全に言語化・知識化することは難しい。
2015/9/30
Mathematical Learning Theory
24
重要注意2
「構造の発見」と
「最高の予測」は両立しない
数理情報学の基礎的な事実
予測
誤差
表現次元
人間が
理解できる
構造の発見
2015/9/30
精度のよい
予測ができる
Mathematical Learning Theory
25
問題2
市区町村
人口
1
3000
転入
結婚
3
100
5000
200
500
100
60
10
30
4
2000
200
20
5
3000
100
10
6
1000
200
20
3000
300
20
2
SOM学習結果を見て
できた地図について
基本となる2軸の意味は
何かを考察せよ。
・
・
謝辞: 独立行政法人統計センターのデータを用いた。
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
データの著作権は独立行政法人統計センターのページをご覧ください。
このデータは2012年の市区町村の人口等である。
2015/9/30
Mathematical Learning Theory
26
沖縄市
渋谷区
音威子府村
会津若松市
阿波市
町田市
永平寺町
香美市
枚方市
1人口 2子供 3労働者 4老人 5出生 6死亡 7転入 8転出 9昼人口 10結婚 11離婚