3.2 Bias-Variance分解

3.2 Bias-Variance分解
3.3節~(ベイズ主義)の準備として、
頻度主義の立場で
モデルの複雑さを考える
by 工藤
記号の確認(復習)
•
•
•
•
•
x:入力変数
t:目標変数(簡単のため、一次元とする)
D:データ集合
h(x)=E[t|x] : 理想的な回帰関数
y(x;D) : 知ってる情報から推定した回帰関数
導出 part 1
• 「期待二乗損失=損失関数」を詳しく調べた
い!
• 1.5.5節の流れを復習(1.87)->(1.90)
損失関数をy(x)による項とノイズ項に分ける。
E[L] = ∫{y(x)-E[t|x]}2p(x)dx + ∫∫ {h(x)-t}2p(x,t)dxdt
• 無数のデータがあれば、第一項はゼロ(理
想)
しかし現実には有限データ集合から
推定する必要あり
→y(x;D)を詳しく調べよう
導出 part 2
• とあるデータ集合Dを用いたときの期待二乗
損失はどうなる?
→ {y(x;D) - h(x)}2 (3.38) の、
Dに関する期待値をとる!(3.39)で下準備
• 結果:(3.40)式
ED[{y(x;D) - h(x)}2]
= {ED[y(x;D)] - h(x)}2
//二乗バイアス
+ ED[{y(x;D) - ED[y(x;D)]}2]//バリアンス
• 図で見てみよう
バイアス・バリアンスのトレードオフ
P6 図1.4 M次元多項式
パラメータ数小
パラメータ数大
↓
↓
バイアス大
バリアンス大
(緑線h(x)に収束しない) (データ毎のばらつき大)
バイアス・バリアンスのトレードオフ
P149 図3.5 ガウス基底関数
正則化 強
↓
バイアス 大
(平均がh(x)とずれる)
正則化 弱
↓
バリアンス 大
(データ毎のばらつき大)
バイアス・バリアンスのトレードオフ
P150 図3.6 正則化係数 λ による損失の変化
Dが有限個のもとでは、バリアンス(データによる
ばらつき具合)を考慮する必要あり
まとめ
• Good:期待二乗損失をバイアスとバリアンス
に分けることで、過学習や正則化の問題を定
量的に考えることができる
• Bad:バイアス・バリアンス分解は考え方として
は有益だが、実際にはすべてのデータを組み
合わせたデータ集合をとれば両方小さくでき
る
• ベイズ方式はもっとすごい!(3.3節~)