Mathematical Foundation of Statistical Learning

情報学習理論
渡辺澄夫
東京工業大学
これまでに学んできたこと
教師あり学習
神経回路網
サポートベクタマシン
教師なし学習
K-means法, 混合正規分布
自己組織化写像
どちらもできる
ボルツマンマシン
組み合わせて
深層学習
2015/9/30
Mathematical Learning Theory
2
深層学習
深層学習の代表的な方法
(1) 順次的な階層学習
(2) 自己符号化の利用
(3) データの構造を
モデルに反映
(1)(2)は前回で学んだので
今日は(3)を勉強します。
2015/9/30
Mathematical Learning Theory
データの構造
この世にあるデータは、構造が予めある程度分かっている
場合がある。
画像:隣り合う画素は似ている場合が多く、しかし境界では
突然に変わる。境界の情報は重要である。
音声:人が話す声は、省略があったり、局所的に伸びたり
縮んだりする。
物体認識:回転したり裏返っていても同じものである。
購買解析:商品にはグループがある。
視聴率解析:関東から関西へ番組の好みが徐々に変化する。
データの構造があらかじめ分かっているときには、その性質を
反映させた構造を持つ学習モデルが有効であるときがある。
2015/9/30
Mathematical Learning Theory
データ構造と深層学習
画像を局所情報から
全体の情報へと統合する型の
学習モデル
大局
(畳み込みネットワーク)
情報
パラメータは適応的に
決めるものと
あらかじめ定めておくもの
の両方がある
2015/9/30
局所
情報
Mathematical Learning Theory
多重度解析と深層学習
多重度解析
スケールの異なる情報を
局所から大局へと統合する
情報解析法。
局所的な情報処理を
少しずつ積み上げることで
少しずつ大局的な構造を
認識することができる
ようになる場合がある。
2015/9/30
Mathematical Learning Theory
時間遅れニューラルネットワーク(TDNN)
ひとの音声は、局所的な
伸び縮みや省略などが
起こりやすい。「がっこう」は
各時刻の特徴量
時間
「ga k ko oo 」
「ga aa ko oo ou uu 」
「nga k」
のように変わる。
時間的な伸び縮みを
吸収できるようにモデルを
作るとよい場合がある。
(その前に音素を決める
問題もあるのですが)。
2015/9/30
時間
Mathematical Learning Theory
深層学習と特徴量
(1) 特徴量の自動抽出
深層学習では、生データをそのまま入力することで
学習モデルが目的にふさわしい特徴量を自動的に
獲得する場合がある。それは人手による特徴量よりも
優れていることも可能性としてはありうる。理想的では
あるが、実際にそのようになるかどうかは運しだい。また、
特徴量ができたときに気づくかどうかという問題もある。
(2) データ構造を反映した特徴量を作る(前処理)
移動不変や回転不変の認識などでは、あらかじめ
不変量を作って入力する方が汎化誤差を小さくする
上では望ましい場合がある。堅実に目的のものが
得られるが、新しい特徴量の発見は起こりにくい。
特徴量の工夫だけでできるなら深層学習はいらない
かもしれない。
2015/9/30
Mathematical Learning Theory
例
画像は演算量が大きくて講義中の練習は難しいので小規模時系列を考えます。
ある月の白菜の値段を、それよりも27ヶ月前までの白菜の値段を
用いて予測するための非線形関数
x(t) = f(x(t-1),x(t-2),…,x(t-27))
を学習するという問題を考える。
入力 (x(t-1),x(t-2),…,x(t-27)) は、月ごとの値であるから構造を持つ
可能性が高い。実務でよく使われるのは線形予測
x(t) = a1 x(t-1) + a2x(t-2) +・・・+ a27 x(t-27)
である。なお、線形予測では汎化誤差を最小にするのは 23月前までの
データを使う場合であった(実験ずみ)。
2015/9/30
(注意) 時系列では、季節、曜日、昼夜の影響を受けると分かっている場合には
それらの情報も入力に使うとより精度の良い予測ができますが、ここでは
単純な予測問題を扱います。
例
時系列予測の例:1970年1月から2013年12月までの白菜の値段
「政府統計の総合窓口」のデータを使用しています。
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
値段
学習データ
赤:真
青:予測
月
値段
テストデータ
赤:真
青:予測
月
2015/9/30
Mathematical Learning Theory
全結合
例
畳み込みネットワーク
時間
時間
(注)第1層から第2層までの結合の初期値に線形予測で得られた
結合加重を用いています。
2015/9/30
Mathematical Learning Theory
時系列を扱う学習モデルいろいろ
f1
f2
fN
隠れマルコフモデル
x1
x2
xM
隠れた状態が確率的に遷移し、
出力は隠れた状態から得られる。
音声情報処理に広く使われている。
音声認識で広く使われています。
前時刻の出力または中間出力を
入力に含める(リカレントネットワーク)
2015/9/30
Mathematical Learning Theory
問1
「全結合+Lasso」のよる学習と畳み込みネットワークの学習を
実際に行って比較してみよう。学習誤差と汎化誤差は線形予測
と比較してどうなっているかを確認しよう。
2015/9/30
全結合+Lasso
学習誤差
汎化誤差
得られた構造
畳み込み
ネットワーク
学習誤差
汎化誤差
得られた構造
Mathematical Learning Theory
2015/9/30
Mathematical Learning Theory
学習の評価
実務では、与えられたデータに対して、様々な学習モデル、
様々な学習アルゴリズム、様々な事前分布が比較検討される
ことになる。その目的を大別すると
(1) 正確な予測をしたい。
未知のデータに対する誤差(汎化誤差)が小さくなるように
組(学習モデル・学習アルゴリズム・事前分布)
を設計したい。
(2) 真実を知りたい。
与えられたデータに基づいて、最も確率の高い
組(学習モデル・事前分布)を見つけたい。
2015/9/30
Mathematical Learning Theory
二つの評価の非同一性
組(モデル・アルゴリズム・事前分布)の良さ
一般に、データが与えられたとき、汎化誤差を最小にする組と
確率が最大である組は同じではない。データ数が無限大に
近づいても、二つの組は近づきません。
正確な予測の組
比較的大きなモデルになる。与えられた
データに依存する変動が大きい。しかし
汎化誤差の平均は小さい。
確率最大の組
比較的小さなモデルになる。与えられた
データに依存する変動は小さい。しかし
汎化誤差の平均は最小ではない。
2015/9/30
Mathematical Learning Theory
重要注意
「構造の発見」と
「最高の予測」は両立しない
-log
モ
デ
ル
確
率
数理情報学の基礎的な事実
予
測
誤
差
表現次元
確率最大 誤差最小の予測が
のモデル できるモデル
2015/9/30
Mathematical Learning Theory
17
実社会を生きる上で
実社会には多様でたくさんのデータがある。データ科学者は
大規模なデータをずっと見続けていると、目的が何かを忘れてしまうときがある。
◎ データを扱う目的を思い出しましょう。
◎ モデルを作ることは大切だ。しかし、モデルは
道具かものさしにすぎず、真実ではない。
モデルは客観的に評価される必要がある。
評価の規準は一般には「予測」か「知識」。
◎ 「正確な予測」と「知識の発見」は両立しない。
両方を同時に求めても得られない。
実社会で上記のことを理解している人は少ない。
ユーザーにわかりやすく説明できることも大切である。
現代ではユーザーになる人も勉強が必要です。
2015/9/30
Mathematical Learning Theory
問2
(学習モデル・学習アルゴリズム・事前分布)の組について
次の表を完成させましょう。
複雑さ
正確な予測の組
確率最大の組
2015/9/30
Mathematical Learning Theory
揺らぎ