PRML 3 線形回帰モデル 大阪 PRML 読書会 2014 年 8 月 31 日 目次 3 線形回帰モデル 導入 3.1 線形基底関数モデル 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 最尤推定と最小二乗法 最小二乗法の幾何学 逐次学習 正則化最小二乗法 出力変数が多次元の場合 導入 回帰問題に対する二つのアプローチ I 予測関数 y(x) を構成する。 I 条件付き確率分布関数 p(t|x) を構成する。 その分布の下で期待損失を最小化するように x に対する t を決定する。 線形基底関数モデル 一般形 y(x, w) =w0 + M −1 X wj φj (x) j=1 = M −1 X wj φj (x) j=0 =wT φ(x) where φj (x) : 基底関数 φ0 (x) = 1 : ダミーの基底関数 φ = (φ0 , ..., φM −1 )T w = (w0 , ..., wM −1 )T 線形基底関数モデル 1 1 1 0.5 0.75 0.75 0 0.5 0.5 −0.5 0.25 0.25 −1 −1 0 1 0 −1 0 1 0 −1 0 1 最尤推定と最小二乗法 目標変数 t が、決定論的な関数 y(x, w) とガウスノイズの和 で与えられると仮定する。 t = y(x, w) + where p(|β) = N (|0, β −1 ) これは以下と等価である。 p(t|x, w, β) =N (t|y(x, w), β −1 ) 最尤推定と最小二乗法 決定段階 損失関数として二乗損失関数を仮定すると、 新しい x の値に対する最適な予測値は 目標変数の条件付き期待値で与えられる。 Z t = E[t|x] = tp(t|x)dt 先に仮定した条件付き確率分布を用いると、 Z t = tN (t|y(x, w), β −1 )dt =y(x, w) t は決定論的関数の値として与えられる。 最尤推定と最小二乗法 データ集合 X =(x1 , ..., xN )T t =(t1 , ..., tN )T 尤度関数 p(t|X, w, β) = N Y n=1 N (tn |wT φ(xn ), β −1 ) 最尤推定と最小二乗法 対数尤度関数 ln p(t|w, β) = = N X n=1 N X ln N (tn |wT φ(xn ), β −1 ) " ln n=1 = β 2π 1/2 β exp − (tn − wT φ(xn ))2 2 N N ln β − ln 2π − βED (w) 2 2 ただし ED (w) = N 2 1 X tn − wT φ(xn ) 2 n=1 ED は二乗和誤差関数。 # 最尤推定と最小二乗法 w の最尤推定 ∇ ln p(t|w, β) = β N X tn − wT φ(xn ) φ(xn )T n=1 0= N X n=1 T T tn φ(xn ) − T wML N X ! φ(xn )φ(xn ) n=1 T 0 =Φ t − wML ΦT Φ −1 T wML = ΦT Φ Φ t = Φ† t · · · 正規方程式 ただし、Φ は計画行列 design matrix。 φ(x1 )T φ0 (x1 ) φ1 (x1 ) φ(x2 )T φ0 (x2 ) φ1 (x2 ) Φ= = .. .. .. . . . φ(xN )T T ··· ··· ... φM −1 (x1 ) φM −1 (x2 ) .. . φ0 (xN ) φ1 (xN ) · · · φM −1 (xN ) 最尤推定と最小二乗法 バイアスパラメータ w0 の役割 ( )2 N M −1 X 1X ED (w) = tn − w0 − wj φj (xn ) 2 n=1 j=1 ( ) N M −1 X X ∂ ED (w) = − tn − w0 − wj φj (xn ) ∂w0 n=1 j=1 w0ML =t− M −1 X wjML φj j=1 N 1 X t= tn N n=1 目標値の訓練集合に関する平均 N 1 X φj = φj (xn ) 基底関数の値の訓練集合に関する平均 N n=1 最尤推定と最小二乗法 β の最尤推定 ∂ ∂ N N ln p(t|w, β) = ln β − ln 2π − βED (w) ∂β ∂β 2 2 N1 = − ED (w) 2β N 1 − ED (wML ) =0 2 βML 1 βML N 2 1 X T = tn − wML φ(xn ) N n=1 ノイズの精度の逆数は、 回帰関数周りでの目標値の残差分散で与えられる。 最小二乗法の幾何学 各軸が tn で与えられる N 次元空間。 t = (t1 , ..., tN )T 訓練データ集合の目標値の集合。 ϕj = (φj (x1 ), ..., φj (xN ))T 訓練データ集合の基底関数の値の集合。 ϕj は Φ の列ベクトル。φ(xn )T は行ベクトル。 M 個の ϕj は M 次元の線形部分空間 S を張る。 y = (y(x1 , w), ..., y(xN , w))T 目標値の予測値の集合。 y は ϕj の線形結合なので S 上にある。 y =(φ(x1 )T w, ..., φ(xN )T w)T =(φ(x1 )T , ..., φ(xN )T )T w =Φw =(ϕ0 , ..., ϕM −1 )w 最小二乗法の幾何学 S t ϕ1 N X n=1 y ϕ2 2 tn − wT φ(xn ) = kt − yk2 演習 3.2 [定義] v0 が v の S への正射影である。 ただし、S は基底ベクトル {ej } が張る空間。 A = (e1 , ..., eM )。 1. v0 が S 上にある。 P ∃w.v0 = j ej wj ⇔ ∃w.v0 = Aw 2. v − v0 が S と直交する。 ∀j.ej (v − v0 ) = 0 ⇔ AT (v − v0 ) = 0 v0 = Φ(ΦT Φ)−1 ΦT v と置く。 1. w = (ΦT Φ)−1 ΦT v と置けばただちに成り立つ。 2. ΦT (v − v0 ) =ΦT (v − Φ(ΦT Φ)−1 ΦT v) =(ΦT − ΦT Φ(ΦT Φ)−1 ΦT )v =(ΦT − ΦT )v =0 演習 3.2 y の定義より y =Φw w の最小二乗解は正規方程式 (3.15) により wML = (ΦT Φ)−1 ΦT t y の最小二乗解は yML =Φ(ΦT Φ)−1 ΦT t よって、y の最小二乗解は t の Φ の列ベクトルが張る多様体 S への正射影である。 逐次学習 確率的勾配降下法 stochastic gradient descent w(τ +1) = w(τ ) − η∇En 二乗和誤差関数 1 En (w) = (tn − wT φ(xn ))2 2 を用いると T w(τ +1) = w(τ ) + η(tn − w(τ ) φ(xn ))φ(xn ) 最小平均二乗アルゴリズム least-mean-squares (LMS) algorithm 正則化最小二乗法 正則化された誤差関数 ED (w) + λEW (w) ED (w) : データに依存する誤差 EW (w) : 正則化項 二乗和誤差関数 + 二次正則化項 N 1X 1 {tn − wT φ(xn )}2 + wT w 2 n=1 2 最小化 w = (λI + ΦT Φ)−1 ΦT t 正則化最小二乗法 誤差関数の最小化 " N # 1X λ ∇ {tn − wT φ(xn )}2 + wT w 2 n=1 2 = − ΦT t + wT ΦT Φ + λwT = − ΦT t + wT ΦT Φ + wT (λI) = − ΦT t + wT (λI + ΦT Φ) 正則化最小二乗法 二乗和誤差関数 + q 次正則化項 N M 1X λX {tn − wT φ(xn )}2 + |wj |q 2 n=1 2 j=1 q = 0.5 q=1 q=2 q=4 正則化最小二乗法 w2 w2 w? w? w1 w1 演習 3.5 制約条件 (3.30) は以下のように書き換えられる。 ! M M X X 1 |wj |q ≤ η ⇔ − |wj |q − η ≥ 0 2 j=1 j=1 ラグランジュ関数 N 1X λ L(w, λ) = {tn − wT φ(xn )}2 + 2 n=1 2 where g(w) ≥ 0 M X ! |wj |q − η j=1 λ≥0 λg(w) = 0 停留条件 ∇L(w, λ) = 0 →正則化された誤差関数の最小化と同じ ∂ L(w, λ) = 0 → ∂λ η= M X j=1 q |wj | = M X j=1 |wj (λ)|q 出力変数が多次元の場合 t のすべての要素に同じ基底関数を用いたモデル y(x, w) = WT φ(x) t の条件付き分布を等方性ガウス分布と仮定する。 p(t|x, W, β) = N (t|WT φ(x), β −1 I) 出力変数が多次元の場合 データ集合 T = (t1 , ..., tN )T 、X = (x1 , ..., xN )T 対数尤度関数 ln p(T|X, W, β) = N X n=1 N X ln N (tn |WT φ(xn ), β −1 I) " K/2 # β β = ln exp − ktn − wT φ(xn )k2 2π 2 n=1 N NK β βX = ln − ktn − WT φ(xn )k2 2 2π 2 n=1 最尤解 WML =(ΦT Φ)−1 ΦT T = Φ† T wk =(ΦT Φ)−1 ΦT tk = Φ† tk
© Copyright 2025 ExpyDoc