第3章 線形回帰モデル 修士1年 山田 孝太郎 内容 1. 2. 3. 4. 5. 線形基底関数モデル バイアス-バリアンス分解 ベイズ線形回帰 ベイズモデル比較 エビデンス近似 はじめに 回帰とは? D次元の入力ベクトル(観測値)とそれに対応 する訓練データ集合から,新しい観測値に対 応する目標値を予測するもの 線形回帰モデル 基底関数の線形結合を回帰式とするもの 1.線形基底関数モデル 一般形:基底関数の線形結合 M 1 y(x, w) 0 B j j (x) w (x). T j 1 基底関数の例 x ( x1 ,..., xD ) w (1 ,..., M 1 ) j (x) : 基底関数 (x) (1 ,...,M 1 ) j ( x) x 2 (x j ) j ( x) exp :ガウス基底関数 2 2 s xj j ( x) s 1 ( a ) 1 exp(a) :シグモイド基底関数 1.1 最尤推定と最少二乗法 tを関数とガウスノイズの和であらわすと t y(x, w) つまり,tは次の分布に従う p(t | x, w, ) N (t | y(x, w), ) 1 入力と目標値が与えられたときの尤度関数 N p(t | X, w, ) N (tn | y(x, w), 1 ) n 1 1.1 最尤推定と最少二乗法 尤度関数の対数をとって最小化する N ln p(t | w, ) {t wT ( xn )} ( xn )T n 1 =0とおいてwについてとくと, w ML (T )1 T t 0 (x1 ) 1 (x1 ) 0 (x 2 ) 1 (x 2 ) ただし (x ) (x ) 1 N 0 N ムーア・ペンローズの 擬似逆行列 M 1 (x1 ) M 1 (x 2 ) M 1 (x N ) 1.2 最小二乗法の幾何学 幾何学的に考える j (x1 ) y ( x1 , w ) j (x 2 ) y (x 2 , w ) j {0,...M 1}で張られる線形部分空 間S上にある. y は j y (x , w ) ( x ) j N N 二乗和誤差 {t wT (xn )}2 (t y)2 はtとyの「距離の二乗」 最尤推定解wMLを求めることは, 線形部分空間Sにあるベクトルの中で, 最もtと近いベクトルを求めること. ⇒Yはtの線形部分空間Sへの正射影 例)2つのベクトルで張られる線形部分空間 1.4 正則化最小二乗法 過学習を防ぐため,誤差関数 1 N ED (w) {t wT (x n )}2 2 n1 に正則化項を加えた ED (w) EW (w) を最小化する. 正則化項の例 単純形: 一般形: 1 T w w 2 1 M q | w | j 2 j 1 q=1のときlasso 例)様々なqに対する正則化項の等高線表示 1.4 正則化最小二乗法 1 n M T 2 q { t w ( x )} | w | n j の最小化は n 2 n1 2 j 1 1 n T 2 { t w ( x )} n n を,制約条件 2 n 1 n q | w | j j 1 の下で最小化するのと等価 例)2次元の場合 2 {t n 1 n w T (x n )}2 {t1 w T (x1 )}2 {t 2 w T (x 2 )}2 {t1 (11 (x1 ) 22 (x1 ))}2 {t 2 (11 (x 2 ) 22 (x 2 ))}2 ω1, ω2 に関する楕円の式 q=2のとき q=1のとき ※疎な解が得られる 2.バイアス-バリアンス分解 損失関数の予測値(条件付き期待値) h(x) E[t | x] tp(t | x)dt 期待二乗損失 E[ L] { y (x) h(x)}2 p (x)dx {h(x) t}2 p (x, t )dxdt この項を最小化したいが…データは有限個 データ集合の取り方を考慮 { y (x;D ) h(x)}2 { y (x;D ) ED [y(x;D )] ED [y(x;D )] h(x)}2 { y (x;D ) ED [y(x;D )]}2 {ED [y(x;D )] h(x)}2 2{ y (x;D ) ED [y(x;D )]}{ED [y(x;D )] h(x)} 2.バイアス-バリアンス分解 期待値を取ると ED [{y(x;D ) h(x)}2 ] {ED [y(x;D )] h(x)}2 ED [{[ y(x;D )] ED [y(x;D )]}2 ] (バイアス)2 バリアンス バイアス: 回帰関数とすべてのデータ集合の取り方に関する予測 値の平均からのずれ バリアンス: 個々のデータ集合に対する解が特定のデータ集合の選 び方に関する期待値の周りでの変動の度合い 2.バイアス-バリアンス分解 もとの損失関数に戻すと E[ L] { y (x) h(x)}2 p (x)dx {h(x) t}2 p (x, t )dxdt {ED [y(x;D )] h( x)}2 dx ED [{[ y ( x;D )] ED [y(x;D )]}2 ] dx {h( x) t}2 p ( x, t ) dxdt (バイアス) バリアンス ノイズ 2 バイアスとバリアンスをバランスよく小さ くすることが必要 2.バイアス-バリアンス分解 例)h( x) sin(2x) サンプル25点からなる100種類のデータ集合 25個のガウス関数をフィット バイアス大,バリアンス小 バイアス小,バリアンス大 3.ベイズ線形回帰 最尤推定 モデルの複雑さはデータサイズに依存 正則化項で調整 過学習の可能性 ベイズ線形回帰 パラメータを確率変数として扱う 3.1 パラメータの分布 尤度関数 N p(t | X, w, ) N (tn | wT (x n ), 1 ) n 1 の指数部分はwの2次関数 ⇒事前分布はガウス分布 事後分布 p(w) N (w | m0 , S0 ) p(w | t) N (w | m N , SN ) m N SN (S01 T t ) S-N1 S01T 3.1 パラメータの分布 事前分布を p(w | ) N (w | 0, 1I) とすると,事後分布は次のように単純になる p(w | t) N (w | m N , SN ) m N S N T t S-N1 I T 3.1 パラメータの分布 例)線形基底関数モデル y( x, w) w0 w1 x 関数 f ( x, a) a0 a1 x (a0 0.3, a1 0.5) を復元する. 1. 初期値を適当に(復元する関数周辺で)取り出す 2. 初期値から尤度関数を求める 3. 尤度関数と事前分布をかけて,パラメータの事後分 布を求める 4. パラメータの事後分布から適当に取り出し,関数を 推定する. 5. データ点を再度取り出す 6. 2~5を繰り返す 3.1 パラメータの分布 事後分布 尤度関数 事前分布 × = × = ・・・ × = ・・・ 3.2 予測分布 予測分布:tを予測したい p (t | t, , ) p (t | w, ) p (w | t, , )dw 結局 ただし p(t | w, ) N (t | y(x, w), 1 ) p(w | t, , ) N (w | m N , S N ) p(t | x, t, , ) N (t | mTN (x), N2 (x)) ただし ( x) 2 N 1 ( x) T S N ( x) Wに関する不確かさ データに含まれる ノイズ 3.2 予測分布 例)ガウス基底関数結合モデルの sin(2x) へのあてはめ N=1 N=2 ガウス予測 分布の平均 N=25 N=4 +-標準偏差 wの事後分布から選んでプロットしたy(x, w) 3.3 等価カーネル 訓練データの目標値だけから予測する 線形基底関数モデルに対して 事後分布の平均解を導入 N y(x, m N ) mTN (x) (x)T S N T t (x)T S N ( xn )tn m N SN T t n1 S-N1 I T つまり,訓練データの目標値tnの線形結合 N y(x, m N ) B k (x, x n )tn n 1 k (x, x' ) (x)T S N (x' ) 平滑化行列または等価カーネル 3.3 等価カーネル ガウス基底関数に対するk(x,x’)をプロット x ⇒xに近いx’を大きく重みづけ x’ 3.4 ベイズモデル比較 データ集合 D 上のモデル集合 {Mi }(i 1,...,L) からモデル選択をベイズ的に行う p(Mi | D) p(Mi ) p(D | Mi ) モデルエビデンス p(D | Mi ) モデルでデータがどれぐらい説明できているか を表す. ベイズ因子 p(D | Mi ) p(D | M j ) 3.4 ベイズモデル比較 モデルエビデンスは確率の加法・乗法定理 により p(D | Mi ) p(D | w, Mi ) p(w | Mi )dw となる. ⇒パラメータを事前分布から適当にサンプ リングしたときにデータ集合 D が生成され る確率 3.4 ベイズモデル比較 例)パラメータ1つのモデル p (D ) p (D | w) p ( w) dw 事後分布:最頻値付近で尖って,幅 wposterior 事前確率:平坦で,幅 wprior p(D) p(D | w) p(w)dw p(D | wMAP ) wposterior wprior 対数をとると w posterior ln p(D ) ln p(DB| wMAP ) ln B w prior データへの フィッティング度 ペナルティ項 3.4 ベイズモデル比較 3つのモデルの比較. 複雑さは M1 , M2 , M3 の順で大きくなる M1:単純なモデル 生成できるデータ集合の 範囲が狭く,データに フィットできない. M3:複雑なモデル 得られるデータは広範囲 だが,割り当てられる確 率は低い 3.5 エビデンス近似 パラメータwの分布を決める超パラメータ α,βについても事前分布を考える p (t | t ) p (t | w, ) p (w | t, , ) p ( , | t )dwdd 1 | mN , SN ) p(t | x, w, ) N (t | y(x B, w), ) p(w | t) N (w, , B m N S N T t S-N1 I T p( , | t) p(t |B , ) p( , ) 周辺尤度関数 周辺尤度関数を最大化することが目標 5.1 エビデンス関数の評価 周辺尤度関数をwに関する積分で表現 p(t | , ) p(t | w, ) p (w | )dw これまでの結果より p(t | , ) 2 N /2 B 2 M /2 exp{E(w)}dw E (w ) ED (w ) EW (w ) || t w || w T w 2 2 1 E (m N ) (w m N )T A(w m N ) ←平方完成 2 2 A I T E (m N ) 2 || t m N || 2 2 T mN mN 5.2 エビデンス関数の最大化 周辺尤度の対数をとると M N 1 N ln p(t | , ) ln ln B E (m N ) ln | A | ln( 2 ) 2 2 2 2 これを最大化するα,βの値は 1 T m N mN i 1 B N i i iはT の固有値 N T 2 { t m ( x )} n N N n 1
© Copyright 2024 ExpyDoc