スライド タイトルなし

確率的フィルタリングを用いた
アンサンブル学習の統計力学
三好 誠司
岡田 真人
神戸高専
東 大, 理 研
1
あらまし
確率的フィルタリングを用いたアンサンブル学習がMurataによ
って提案されている.このアルゴリズムは生徒集団の多様性を
維持するために,わざと間違った例題(負例)も用いる点が特徴
的である.我々は統計力学的手法を用いてこのアルゴリズムの
解析を行った.非単調な出力特性を有する教師を単純パーセプ
トロンの生徒集団がヘブ則で学習するモデルについて解析した
結果,確率的フィルタリングの効果により生徒集団の多様性が
維持され,汎化能力が大きく改善されることが明らかになった.
また,次元Nが有限の場合には負例を用いる確率が0.5より大き
いと生徒の対称性の破れが生じることがわかった.
2
背 景 (1/2)
• バッチ学習
–
–
–
–
与えられたいくつかの例題を繰り返し使用
すべての例題に正しく答えられる
長い時間が必要
例題を蓄えておくメモリが必要
• オンライン学習
–
–
–
–
一度使った例題は捨ててしまう
過去の例題に必ず正しく答えられるとは限らない
例題を蓄えておくメモリが不要
時間的に変化する教師にも追随
3
背 景 (2/2)
• アンサンブル学習
– 精度の低いルールや学習機械を組み合わせて精度の高い予測
や分類を行う
– 生徒集団の多様性を維持することが重要
• 確率的フィルタリングを用いたアンサンブル学習(Murata, 2005)
– Schapireのアルゴリズムをオンライン学習に適した形に修正
– 生徒集団の多様性を維持するために,わざと間違った例題(負
例)も用いる点が特徴的
目 的
オンライン学習の枠組みで統計力学的手法を用いた解析を行い,
確率的フィルタリングの効果を理論的に明らかにする
4
モデル(1/2)
Teacher
B
Students
J1
J2
J3
• 教師は非単調な出力特性
• 生徒集団の出力は3人の多数決で決定
5
モデル(2/2)
•
•
•
•
入力:
教師:
生徒の初期値:
N→∞ (熱力学的極限)
• 巨視的変数
– 生徒の長さ
– 類似度(方向余弦)
6
確率的フィルタリング(Murata, 2005)
←負例
7
■確率的フィルタリングは以下の更新式で書ける(J1の場合)
J2とJ3 の答が異なる場合
J2とJ3 の答が同じ場合
正例
負例
(ステップ関数)
(正例を使う確率)
■統計力学的な取り扱いを容易にするためにstep2は以下とする
(3個の生徒が順番に更新)
8
汎化誤差
統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである
まず誤差
を定義
汎化誤差
多重ガウス分布
9
巨視的変数のダイナミクスを記述する連立微分方程式を熱力学的極限
における自己平均性に基づいて決定論的な形で導出
1.解析を容易にするため補助的巨視的変数を導入
2.
の両辺にBをかける
3.
Nr1m+1 = Nr1m
+ [θ(-u2mu3m)f1m + θ(-u2mu3m)(smf1m +(1-sm)g1m)]vm
Nr1m+2 = Nr1m+1
+ [θ(-u2m+1u3m+1)f1m+1 + θ(-u2m+1u3m+1)(sm+1f1m+1 +(1-sm+1)g1m+1)]vm+1
Ndt inputs
+
Nr1m+Ndt = Nr1m+Ndt-1 + [θ(-u2m+Ndt-1u3m+Ndt-1)f1m+Ndt-1 + θ(-u2m+Ndt-1u3m+Ndt-1)(sm+Ndt-1f1m+Ndt-1 +(1-sm+Ndt-1)g1m+Ndt-1)]vm+Ndt-1
Nr1m+Ndt = Nr1m + Ndt<θ(-u2u3)f1 v + θ(-u2u3)(sf1 v+(1-s)g1v)]>/3
r1+dr1= r1 + dt<θ(-u2u3)f1 v + θ(-u2u3)(bf1 v+(1-b)g1v)]>/3
10
3個の巨視的変数 l,R,q のダイナミクスを
記述する連立微分方程式
11
ヘブ学習の場合
12
汎化誤差の計算手順
1. 微分方程式を数値的に解いてl,R,qのダイナ
ミクスを計算.その際,サンプル平均<・>はメ
トロポリス法で算出
2. 得られたR,qを使って数値積分を実行するこ
とにより汎化誤差を計算.数値積分はメトロ
ポリス法で実行
13
汎化誤差のダイナミクス (a=0.6)
確率的フィルタリングには効果がある!
→正解ばかり使うより,わざと間違った答も
使うことで汎化能力が向上!
→おもしろい!!
理論と計算機シミュ
レーションが不一致
14
Rのダイナミクス
途中で生徒の対称性が破れ,以後は
理論と計算機シミュレーションが不一致
15
qのダイナミクス
途中で生徒の対称性が破れ,以後は
理論と計算機シミュレーションが不一致
16
l のダイナミクス
途中で生徒の対称性が破れ,以後は
理論と計算機シミュレーションが不一致
17
Rとqの関係
t=0
負例を使う確率(=1-b)が
大きくなるほどRに対して
qが小さく抑えられている
→生徒集団の多様性が
維持されている
18
b<0.5の計算機シミュレーションで
生徒の対称性が破れる理由
• 例として,R1~1, R2~1 , R3~-1の場合を考える.
• J1やJ2 の更新の際にはH(x)=0となり通常のヘブ則に
なるのでR1 とR2 はさらに1に近づいてゆく.
• J3 の更新を行う場合にはH(x)=±2となりcoinが振られ
る.b<0.5だと平均的には「負例を使った学習」となるの
でR3 はさらに-1 に近づいてゆく.
• このようにb<0.5 の場合はR1= R2=1 , R3=-1 は安
定平衡点.
• よってb<0.5 の場合の計算機シミュレーションでは次元
Nが有限であることによる生徒の対称性の微小な破れ
が徐々に拡大し,この安定平衡点に至る.
19