田中、兼平
N個の観測点{Xn}(n=1,…,N)と対応する目標値{tn}
からなる訓練データ集合が与えられたとき、新しいx
に対するtの値を予想することである。
多項式を用いたデータへのフィッティング
M
y( x, w) 0 1 x 2 x 2 M x M j x j
M:次数
ω0,…,ωM:係数
係数は二乗和誤差を最小化し求める
1 N
2
E
(
w
)
{
y
(
x
,
w
)
t
}
二乗和誤差
n
n
2 n 1
j 0
1 N
2
E (w ) (0 1 xn t n )
2 n 1
N
N
1
E (w ) {N02 20 (1 xn t n ) (1 xn t n ) 2 }
2
n 1
n 1
両辺をω0で偏微分
1 N
0
(1 xn t n ) t 1 x
N 0 n 1
1 N
E (w ) {1 ( xn x ) (t n t )}2 n(12 s xx 21s xt stt )
2 n 1
ω1を最小とするためには
s xt n 1 ( xn x )(tn t )
1
N
2
stt
( xn x )
N
n 1
Sin(2πx)にランダムノイズを加え、生成した訓練デー
タ集合を作る
緑実践…正弦波
M=0
M=1
M=3
M=9
Mの値によってフィッティングできな
かったり、過学習したりする
次数Mを大きくし、より複雑で柔軟な曲線にフィットさ
せたいが、やりすぎると過学習してしまい、うまくフィッ
ティングができなくなってしまう。
過学習を防ぐ方法
データ数を増やす
正則化する
データ数を10から100に増加
データ集合を大きくすればするほど複雑で柔軟なモデ
ルをデータにあてはめられる。
※Mの5~10倍のデータ数が必要
データ数を増加させずに誤差関数に罰金項を加える
1 N
~
2
E ( w ) { y ( xn , w ) t n } w
2 n 1
2
2
M=9のグラフを
inλ=-18で正則化
正則化項λが与えるフィッティングへの影響
λがモデルの実質的な複雑さを制御し、
過学習の度合いを決定している。
【λの決定方法】
データを係数wを決定する訓練集合と確認用集合に分け、
Mやλを最適化する
得られたデータをすべて訓練に使う方法
データをS個の組みに分け、S-1個を訓練に使用し、
残りのデータで評価する。それをSパターン繰り返し、
スコアを平均する。
S=4の場合
1回目
2回目
訓練集合
3回目
評価集合
4回目
ベイズ的な方法を用いて、曲線フィッティングする
最尤推定
最大事後確立(MAP)推定
ベイズ推定
目標変数の値に関する不確実性は確率分布を使用し
て表すことが可能となる。
M
y( x, w) 0 1 x 2 x M x j x
2
M
j 0
がガウス分布に従うとすると
p(t x, w, ) t y( x, w), 1 )
となる。すると尤度関数は
N
p(t x, w, ) N t y ( xn , w ), 1 )
n 1
と表せる。
Β-1= σ2
j
先ほどの式より、ガウス分布の形を置き換えると対数
尤度関数は
N
N
N
Inp (t | x, w, ) { y ( xn , w ) t n } In In (2 )
2 n 1
2
2
2
この式の最大化と二乗和誤差関数の最小化は等価
であるため、wの求め方は最小二乗法と同じ。
最尤推定では目標値tの予測分布を求めるため、予
測分布の精度パラメータβを最大化する必要がある。
1
1 N
{ y( xn , w ML ) tn }2
ML N n1
M=3の曲線フィッティング
赤実線…予測分布の平均
赤点線… 1σの範囲
緑実践…正弦波
最尤推定は最小二乗法
と等価のためM=9にす
ると過学習してしまう
パラメータwの事前確率を導入し、尤度関数と事前確
率の積からパラメータwの事後確立
p(w | x, t, p(t | x, w, ) p(w | a)
を求めて事後確立が最大となるwを求める。
事前確率を正規分布
( M 1) / 2
T
1
p (w | ) N (w | 0, I )
exp w w
2
2
として、事後分布の式を求めると…
2
N
{ y ( xn , w ) t n }
2
n 1
wT w
2
正則化された最小二乗法と等価
wに関して周辺化して予想分布を求める事が可能と
なる。
ベイズ推定の予想分布
p(t | x, x, t ) p(t | x, w ) p(w | x, t )dw
(1)
(2)
訓練データ (x,t) からパラメータwが得られる確率 (2)
を計算し、そのパラメータwのときにtが得られる確率
(1) を計算し、それをすべてのwについて積分する。
先ほどの積文は解け正規分布となる
p(t | x, x, t ) N (t | m( x), s ( x))
2
また、平均と分散は
N
m( x) ( x)T S ( xn )t n
n 1
s ( x ) ( x ) S ( x )
2
となる。
1
T
N
S 1 I ( xn ) ( xn )T
n 1
I:単位行列
M=9の曲線フィッティング
赤実線…予測分布の平均
赤点線… 1σの範囲
緑実践…正弦波
過学習を抑えられる
MAP推定はずれ値に大きく影
響されることがあるが、ベイズ
推定は頑健な推定が可能
パターン認識と機会学習 上
◦ C.M.ビショップ
上の文献の回帰の範囲を解説したサイト
http://d.hatena.ne.jp/aidiary/20100327/1269657354
http://d.hatena.ne.jp/aidiary/20100404/1270359720
統計
◦ 竹村 彰通
© Copyright 2026 ExpyDoc