田中、兼平 N個の観測点{Xn}(n=1,…,N)と対応する目標値{tn} からなる訓練データ集合が与えられたとき、新しいx に対するtの値を予想することである。 多項式を用いたデータへのフィッティング M y( x, w) 0 1 x 2 x 2 M x M j x j M:次数 ω0,…,ωM:係数 係数は二乗和誤差を最小化し求める 1 N 2 E ( w ) { y ( x , w ) t } 二乗和誤差 n n 2 n 1 j 0 1 N 2 E (w ) (0 1 xn t n ) 2 n 1 N N 1 E (w ) {N02 20 (1 xn t n ) (1 xn t n ) 2 } 2 n 1 n 1 両辺をω0で偏微分 1 N 0 (1 xn t n ) t 1 x N 0 n 1 1 N E (w ) {1 ( xn x ) (t n t )}2 n(12 s xx 21s xt stt ) 2 n 1 ω1を最小とするためには s xt n 1 ( xn x )(tn t ) 1 N 2 stt ( xn x ) N n 1 Sin(2πx)にランダムノイズを加え、生成した訓練デー タ集合を作る 緑実践…正弦波 M=0 M=1 M=3 M=9 Mの値によってフィッティングできな かったり、過学習したりする 次数Mを大きくし、より複雑で柔軟な曲線にフィットさ せたいが、やりすぎると過学習してしまい、うまくフィッ ティングができなくなってしまう。 過学習を防ぐ方法 データ数を増やす 正則化する データ数を10から100に増加 データ集合を大きくすればするほど複雑で柔軟なモデ ルをデータにあてはめられる。 ※Mの5~10倍のデータ数が必要 データ数を増加させずに誤差関数に罰金項を加える 1 N ~ 2 E ( w ) { y ( xn , w ) t n } w 2 n 1 2 2 M=9のグラフを inλ=-18で正則化 正則化項λが与えるフィッティングへの影響 λがモデルの実質的な複雑さを制御し、 過学習の度合いを決定している。 【λの決定方法】 データを係数wを決定する訓練集合と確認用集合に分け、 Mやλを最適化する 得られたデータをすべて訓練に使う方法 データをS個の組みに分け、S-1個を訓練に使用し、 残りのデータで評価する。それをSパターン繰り返し、 スコアを平均する。 S=4の場合 1回目 2回目 訓練集合 3回目 評価集合 4回目 ベイズ的な方法を用いて、曲線フィッティングする 最尤推定 最大事後確立(MAP)推定 ベイズ推定 目標変数の値に関する不確実性は確率分布を使用し て表すことが可能となる。 M y( x, w) 0 1 x 2 x M x j x 2 M j 0 がガウス分布に従うとすると p(t x, w, ) t y( x, w), 1 ) となる。すると尤度関数は N p(t x, w, ) N t y ( xn , w ), 1 ) n 1 と表せる。 Β-1= σ2 j 先ほどの式より、ガウス分布の形を置き換えると対数 尤度関数は N N N Inp (t | x, w, ) { y ( xn , w ) t n } In In (2 ) 2 n 1 2 2 2 この式の最大化と二乗和誤差関数の最小化は等価 であるため、wの求め方は最小二乗法と同じ。 最尤推定では目標値tの予測分布を求めるため、予 測分布の精度パラメータβを最大化する必要がある。 1 1 N { y( xn , w ML ) tn }2 ML N n1 M=3の曲線フィッティング 赤実線…予測分布の平均 赤点線… 1σの範囲 緑実践…正弦波 最尤推定は最小二乗法 と等価のためM=9にす ると過学習してしまう パラメータwの事前確率を導入し、尤度関数と事前確 率の積からパラメータwの事後確立 p(w | x, t, p(t | x, w, ) p(w | a) を求めて事後確立が最大となるwを求める。 事前確率を正規分布 ( M 1) / 2 T 1 p (w | ) N (w | 0, I ) exp w w 2 2 として、事後分布の式を求めると… 2 N { y ( xn , w ) t n } 2 n 1 wT w 2 正則化された最小二乗法と等価 wに関して周辺化して予想分布を求める事が可能と なる。 ベイズ推定の予想分布 p(t | x, x, t ) p(t | x, w ) p(w | x, t )dw (1) (2) 訓練データ (x,t) からパラメータwが得られる確率 (2) を計算し、そのパラメータwのときにtが得られる確率 (1) を計算し、それをすべてのwについて積分する。 先ほどの積文は解け正規分布となる p(t | x, x, t ) N (t | m( x), s ( x)) 2 また、平均と分散は N m( x) ( x)T S ( xn )t n n 1 s ( x ) ( x ) S ( x ) 2 となる。 1 T N S 1 I ( xn ) ( xn )T n 1 I:単位行列 M=9の曲線フィッティング 赤実線…予測分布の平均 赤点線… 1σの範囲 緑実践…正弦波 過学習を抑えられる MAP推定はずれ値に大きく影 響されることがあるが、ベイズ 推定は頑健な推定が可能 パターン認識と機会学習 上 ◦ C.M.ビショップ 上の文献の回帰の範囲を解説したサイト http://d.hatena.ne.jp/aidiary/20100327/1269657354 http://d.hatena.ne.jp/aidiary/20100404/1270359720 統計 ◦ 竹村 彰通
© Copyright 2024 ExpyDoc