PRML 3 ç·ıå½¢åłžå¸°ã…

PRML 3 線形回帰モデル
大阪 PRML 読書会
2014 年 8 月 31 日
目次
3 線形回帰モデル
導入
3.1 線形基底関数モデル
3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
最尤推定と最小二乗法
最小二乗法の幾何学
逐次学習
正則化最小二乗法
出力変数が多次元の場合
導入
回帰問題に対する二つのアプローチ
I
予測関数 y(x) を構成する。
I
条件付き確率分布関数 p(t|x) を構成する。
その分布の下で期待損失を最小化するように
x に対する t を決定する。
線形基底関数モデル
一般形
y(x, w) =w0 +
M
−1
X
wj φj (x)
j=1
=
M
−1
X
wj φj (x)
j=0
=wT φ(x)
where φj (x) : 基底関数
φ0 (x) = 1 : ダミーの基底関数
φ = (φ0 , ..., φM −1 )T
w = (w0 , ..., wM −1 )T
線形基底関数モデル
1
1
1
0.5
0.75
0.75
0
0.5
0.5
−0.5
0.25
0.25
−1
−1
0
1
0
−1
0
1
0
−1
0
1
最尤推定と最小二乗法
目標変数 t が、決定論的な関数 y(x, w) とガウスノイズの和
で与えられると仮定する。
t = y(x, w) + where
p(|β) = N (|0, β −1 )
これは以下と等価である。
p(t|x, w, β) =N (t|y(x, w), β −1 )
最尤推定と最小二乗法
決定段階
損失関数として二乗損失関数を仮定すると、
新しい x の値に対する最適な予測値は
目標変数の条件付き期待値で与えられる。
Z
t = E[t|x] = tp(t|x)dt
先に仮定した条件付き確率分布を用いると、
Z
t = tN (t|y(x, w), β −1 )dt
=y(x, w)
t は決定論的関数の値として与えられる。
最尤推定と最小二乗法
データ集合
X =(x1 , ..., xN )T
t =(t1 , ..., tN )T
尤度関数
p(t|X, w, β) =
N
Y
n=1
N (tn |wT φ(xn ), β −1 )
最尤推定と最小二乗法
対数尤度関数
ln p(t|w, β) =
=
N
X
n=1
N
X
ln N (tn |wT φ(xn ), β −1 )
"
ln
n=1
=
β
2π
1/2
β
exp − (tn − wT φ(xn ))2
2
N
N
ln β − ln 2π − βED (w)
2
2
ただし
ED (w) =
N
2
1 X
tn − wT φ(xn )
2 n=1
ED は二乗和誤差関数。
#
最尤推定と最小二乗法
w の最尤推定
∇ ln p(t|w, β) = β
N
X
tn − wT φ(xn ) φ(xn )T
n=1
0=
N
X
n=1
T
T
tn φ(xn ) −
T
wML
N
X
!
φ(xn )φ(xn )
n=1
T
0 =Φ t − wML
ΦT Φ
−1 T
wML = ΦT Φ
Φ t = Φ† t
· · · 正規方程式
ただし、Φ は計画行列 design matrix。

 
φ(x1 )T
φ0 (x1 ) φ1 (x1 )
 φ(x2 )T   φ0 (x2 ) φ1 (x2 )

 
Φ=
=
..
..
..

 
.
.
.
φ(xN )T
T
···
···
...
φM −1 (x1 )
φM −1 (x2 )
..
.
φ0 (xN ) φ1 (xN ) · · ·
φM −1 (xN )





最尤推定と最小二乗法
バイアスパラメータ w0 の役割
(
)2
N
M
−1
X
1X
ED (w) =
tn − w0 −
wj φj (xn )
2 n=1
j=1
(
)
N
M
−1
X
X
∂
ED (w) = −
tn − w0 −
wj φj (xn )
∂w0
n=1
j=1
w0ML
=t−
M
−1
X
wjML φj
j=1
N
1 X
t=
tn
N n=1
目標値の訓練集合に関する平均
N
1 X
φj =
φj (xn ) 基底関数の値の訓練集合に関する平均
N n=1
最尤推定と最小二乗法
β の最尤推定
∂
∂ N
N
ln p(t|w, β) =
ln β − ln 2π − βED (w)
∂β
∂β 2
2
N1
=
− ED (w)
2β
N 1
− ED (wML ) =0
2 βML
1
βML
N
2
1 X
T
=
tn − wML
φ(xn )
N n=1
ノイズの精度の逆数は、
回帰関数周りでの目標値の残差分散で与えられる。
最小二乗法の幾何学
各軸が tn で与えられる N 次元空間。
t = (t1 , ..., tN )T
訓練データ集合の目標値の集合。
ϕj = (φj (x1 ), ..., φj (xN ))T
訓練データ集合の基底関数の値の集合。
ϕj は Φ の列ベクトル。φ(xn )T は行ベクトル。
M 個の ϕj は M 次元の線形部分空間 S を張る。
y = (y(x1 , w), ..., y(xN , w))T
目標値の予測値の集合。
y は ϕj の線形結合なので S 上にある。
y =(φ(x1 )T w, ..., φ(xN )T w)T
=(φ(x1 )T , ..., φ(xN )T )T w
=Φw
=(ϕ0 , ..., ϕM −1 )w
最小二乗法の幾何学
S
t
ϕ1
N
X
n=1
y
ϕ2
2
tn − wT φ(xn ) = kt − yk2
演習 3.2
[定義] v0 が v の S への正射影である。
ただし、S は基底ベクトル {ej } が張る空間。
A = (e1 , ..., eM )。
1. v0 が S 上にある。
P
∃w.v0 = j ej wj ⇔ ∃w.v0 = Aw
2. v − v0 が S と直交する。
∀j.ej (v − v0 ) = 0 ⇔ AT (v − v0 ) = 0
v0 = Φ(ΦT Φ)−1 ΦT v と置く。
1. w = (ΦT Φ)−1 ΦT v と置けばただちに成り立つ。
2. ΦT (v − v0 ) =ΦT (v − Φ(ΦT Φ)−1 ΦT v)
=(ΦT − ΦT Φ(ΦT Φ)−1 ΦT )v
=(ΦT − ΦT )v
=0
演習 3.2
y の定義より
y =Φw
w の最小二乗解は正規方程式 (3.15) により
wML = (ΦT Φ)−1 ΦT t
y の最小二乗解は
yML =Φ(ΦT Φ)−1 ΦT t
よって、y の最小二乗解は
t の Φ の列ベクトルが張る多様体 S への正射影である。
逐次学習
確率的勾配降下法 stochastic gradient descent
w(τ +1) = w(τ ) − η∇En
二乗和誤差関数
1
En (w) = (tn − wT φ(xn ))2
2
を用いると
T
w(τ +1) = w(τ ) + η(tn − w(τ ) φ(xn ))φ(xn )
最小平均二乗アルゴリズム
least-mean-squares (LMS) algorithm
正則化最小二乗法
正則化された誤差関数
ED (w) + λEW (w)
ED (w) : データに依存する誤差
EW (w) : 正則化項
二乗和誤差関数 + 二次正則化項
N
1X
1
{tn − wT φ(xn )}2 + wT w
2 n=1
2
最小化
w = (λI + ΦT Φ)−1 ΦT t
正則化最小二乗法
誤差関数の最小化
" N
#
1X
λ
∇
{tn − wT φ(xn )}2 + wT w
2 n=1
2
= − ΦT t + wT ΦT Φ + λwT
= − ΦT t + wT ΦT Φ + wT (λI)
= − ΦT t + wT (λI + ΦT Φ)
正則化最小二乗法
二乗和誤差関数 + q 次正則化項
N
M
1X
λX
{tn − wT φ(xn )}2 +
|wj |q
2 n=1
2 j=1
q = 0.5
q=1
q=2
q=4
正則化最小二乗法
w2
w2
w?
w?
w1
w1
演習 3.5
制約条件 (3.30) は以下のように書き換えられる。
!
M
M
X
X
1
|wj |q ≤ η ⇔ −
|wj |q − η ≥ 0
2
j=1
j=1
ラグランジュ関数
N
1X
λ
L(w, λ) =
{tn − wT φ(xn )}2 +
2 n=1
2
where
g(w) ≥ 0
M
X
!
|wj |q − η
j=1
λ≥0
λg(w) = 0
停留条件
∇L(w, λ) = 0 →正則化された誤差関数の最小化と同じ
∂
L(w, λ) = 0 →
∂λ
η=
M
X
j=1
q
|wj | =
M
X
j=1
|wj (λ)|q
出力変数が多次元の場合
t のすべての要素に同じ基底関数を用いたモデル
y(x, w) = WT φ(x)
t の条件付き分布を等方性ガウス分布と仮定する。
p(t|x, W, β) = N (t|WT φ(x), β −1 I)
出力変数が多次元の場合
データ集合 T = (t1 , ..., tN )T 、X = (x1 , ..., xN )T
対数尤度関数
ln p(T|X, W, β)
=
N
X
n=1
N
X
ln N (tn |WT φ(xn ), β −1 I)
"
K/2
#
β
β
=
ln
exp − ktn − wT φ(xn )k2
2π
2
n=1
N
NK
β
βX
=
ln
−
ktn − WT φ(xn )k2
2
2π
2 n=1
最尤解
WML =(ΦT Φ)−1 ΦT T = Φ† T
wk =(ΦT Φ)−1 ΦT tk = Φ† tk