stat_4_1_2011

田中、兼平

N個の観測点{Xn}(n=1,…,N)と対応する目標値{tn}
からなる訓練データ集合が与えられたとき、新しいx
に対するtの値を予想することである。

多項式を用いたデータへのフィッティング
M
y( x, w)  0  1 x  2 x 2    M x M    j x j
M:次数
ω0,…,ωM:係数

係数は二乗和誤差を最小化し求める
1 N
2
E
(
w
)

{
y
(
x
,
w
)

t
}
二乗和誤差
 n
n
2 n 1
j 0
1 N
2
E (w )   (0  1 xn  t n )
2 n 1
N
N
1
E (w )  {N02  20  (1 xn  t n )   (1 xn  t n ) 2 }
2
n 1
n 1
両辺をω0で偏微分
1 N
0  
(1 xn  t n )  t  1 x

N 0 n 1
1 N
E (w )   {1 ( xn  x )  (t n  t )}2  n(12 s xx  21s xt  stt )
2 n 1
ω1を最小とするためには
s xt n 1 ( xn  x )(tn  t )
1 

N
2
stt
 ( xn  x )
N
n 1

Sin(2πx)にランダムノイズを加え、生成した訓練デー
タ集合を作る
緑実践…正弦波
M=0
M=1
M=3
M=9

Mの値によってフィッティングできな
かったり、過学習したりする

次数Mを大きくし、より複雑で柔軟な曲線にフィットさ
せたいが、やりすぎると過学習してしまい、うまくフィッ
ティングができなくなってしまう。
過学習を防ぐ方法
 データ数を増やす
 正則化する


データ数を10から100に増加

データ集合を大きくすればするほど複雑で柔軟なモデ
ルをデータにあてはめられる。
※Mの5~10倍のデータ数が必要

データ数を増加させずに誤差関数に罰金項を加える
1 N

~
2
E ( w )   { y ( xn , w )  t n }  w
2 n 1
2
2
M=9のグラフを
inλ=-18で正則化

正則化項λが与えるフィッティングへの影響
λがモデルの実質的な複雑さを制御し、
過学習の度合いを決定している。
【λの決定方法】
データを係数wを決定する訓練集合と確認用集合に分け、
Mやλを最適化する

得られたデータをすべて訓練に使う方法
データをS個の組みに分け、S-1個を訓練に使用し、
残りのデータで評価する。それをSパターン繰り返し、
スコアを平均する。
S=4の場合
1回目
2回目
訓練集合
3回目
評価集合
4回目
ベイズ的な方法を用いて、曲線フィッティングする
 最尤推定
 最大事後確立(MAP)推定
 ベイズ推定


目標変数の値に関する不確実性は確率分布を使用し
て表すことが可能となる。
M
y( x, w)  0  1 x  2 x    M x    j x
2
M
j 0
がガウス分布に従うとすると
p(t x, w,  )  t y( x, w),  1 )
となる。すると尤度関数は
N
p(t x, w,  )   N t y ( xn , w ),  1 )
n 1
と表せる。
Β-1= σ2
j

先ほどの式より、ガウス分布の形を置き換えると対数
尤度関数は

N
N
N
Inp (t | x, w,  )    { y ( xn , w )  t n }  In  In (2 )
2 n 1
2
2


2
この式の最大化と二乗和誤差関数の最小化は等価
であるため、wの求め方は最小二乗法と同じ。
最尤推定では目標値tの予測分布を求めるため、予
測分布の精度パラメータβを最大化する必要がある。
1
1 N
 { y( xn , w ML )  tn }2
 ML N n1

M=3の曲線フィッティング
赤実線…予測分布の平均
赤点線… 1σの範囲
緑実践…正弦波
最尤推定は最小二乗法
と等価のためM=9にす
ると過学習してしまう

パラメータwの事前確率を導入し、尤度関数と事前確
率の積からパラメータwの事後確立
p(w | x, t,      p(t | x, w,  ) p(w | a)

を求めて事後確立が最大となるwを求める。
事前確率を正規分布
( M 1) / 2



  T 
1
p (w |  )  N (w | 0,  I )  
exp  w w 

 2 
 2

として、事後分布の式を求めると…

2
N
 { y ( xn , w )  t n } 
2
n 1

wT w
2
正則化された最小二乗法と等価


wに関して周辺化して予想分布を求める事が可能と
なる。
ベイズ推定の予想分布
p(t | x, x, t )   p(t | x, w ) p(w | x, t )dw
(1)

(2)
訓練データ (x,t) からパラメータwが得られる確率 (2)
を計算し、そのパラメータwのときにtが得られる確率
(1) を計算し、それをすべてのwについて積分する。

先ほどの積文は解け正規分布となる
p(t | x, x, t )  N (t | m( x), s ( x))
2

また、平均と分散は
N
m( x)   ( x)T S  ( xn )t n
n 1
s ( x )     ( x ) S ( x )
2
となる。
1
T
N
S 1  I     ( xn ) ( xn )T
n 1
I:単位行列

M=9の曲線フィッティング
赤実線…予測分布の平均
赤点線… 1σの範囲
緑実践…正弦波
過学習を抑えられる
MAP推定はずれ値に大きく影
響されることがあるが、ベイズ
推定は頑健な推定が可能

パターン認識と機会学習 上
◦ C.M.ビショップ
上の文献の回帰の範囲を解説したサイト

http://d.hatena.ne.jp/aidiary/20100327/1269657354
http://d.hatena.ne.jp/aidiary/20100404/1270359720

統計

◦ 竹村 彰通