「データ学習アルゴリズム」 第2章 学習と統計的推測 2.1.5 2.1.6 2.1.7 2.1.8 条件付き確率密度関数の推定法 回帰関数の推定 パターン識別関数の推定 関数近似誤差と統計誤差 5月21日(水) 発表者 新納浩幸 条件付き確率密度関数の推定(1) ( xi , yi ) :学習データ q ( x, y ) から発生したと仮定 p( y | x, w) : パラメータ w によって定まるある条件付き 確率密度関数 p( y | x, w) は q( y | x) のモデル q( y | x) の推定 ( xi , yi ) 最適な を利用して w の推定 条件付き確率密度関数の推定(2) 1 n 損失関数 Ln ( w) log p( yi | xi , w) n i 1 っと設定すればよい。なぜなら、 Ln (w) K (q( y | x) || p( y | x, w)) S (q( y | x)) Ln (w) を最小化するような w をみつければよい 例29(確率システムと学習) 先生 入力 q( y | x) q(x) 入力例 x1 , x2 ,, xn 学 習 出力例 y1 , y2 ,, yn 学習者 p( y | x, w) 先生のモデルが q ( x, y ) ではないことに注意 注10 (人工知能と学習) • 人間が自然に行っていることを内省により規則 化すること(プログラムすること)は困難。 • 人工知能の実現には学習によるアプローチが有 望(80年代~)。 • 現在、実世界と相互作用する情報システムは多 かれ少なかれ学習機能を有している。 • まだ十分ではないのは、何が足りないのか? 回帰関数の推定(1) ( xi , yi ) :学習データ q ( x, y ) から発生したと仮定 x RM 、 y RN f ( x, w) : パラメータ w をもつ R M から R N への関数 f ( x, w) は回帰関数 r ( x) yq ( y | x) dy のモデル r (x) の推定 ( xi , yi ) 最適な を利用して w の推定 回帰関数の推定(2) pp.17 補題1 s ( x) : R M R N 1 L( s) || y s( x) ||2 q( x, y )dxdy 2 は、 s( x) r ( x) で最小値を取る L(s) を最小にするような s を求め それを r (x) の推定とすればよい f ( x, w) は r (x) のモデルなので L( f ) を最小にするような wˆ を求め ˆ ) を r (x) の推定とすればよい f ( x, w 回帰関数の推定(3) 1 n 2 Ln ( s) || y s ( x ) || i i 2n i 1 とおくと、大数の法則から、十分大きな n に対して L(s) Ln (s) s( x) f ( x, w) とおくと, 1 n 2 Ln ( w) || y f ( x , w ) || i i 2n i 1 ˆ) を を最小にするような wˆ を求め f ( x, w r (x) の推定とすればよい 例30(回帰関数の推定(1)) r ( x) : R M R1 の推定を行う。 H r (x) を f ( x, w) wh h ( x) の形と仮定する。 h 1 wh : パラメータ h ( x) : RM R1 一次独立 1 n 2 Ln ( w) ( y f ( x , w )) i i 2n i 1 を最小にするような w を求めればよい 例30(回帰関数の推定(2)) ポイントだけ,詳細は別紙 n 2nLn ( w) n || G ( w G ) || yi2 n || G 1/ 2 ||2 1/ 2 1 2 i 1 G : H H行列 1 n G の (h, h' ) 要素は n h ( xi ) h ' ( xi ) i 1 : H次元ベクトル 1 n yi h ( xi ) の h 次元要素は n ˆ G1 w i 1 パターン識別関数の推定 入力 X R M 出力 C 1,2,, N Y ( xi , yi ) :学習データ パターン識別とは ( xi , yi ) から q( y | x) を推定すること 識別関数 q( y | x) p( y | x, w) とモデル化する 1 n Ln ( w) log p( yi | xi , w) n i 1 を最小にするパラメータ w を求めればよい 例31(2値識別(1)) 入力 出力 X RM C 0,1 Y 学習データ ( xi , yi ) 1 n Ln ( w) log p( yi | xi , w) n i 1 この変形は簡単なので省略 1 n yi log p(1 | xi , w) (1 yi ) log(1 p(1 | xi , w)) n i 1 例31(2値識別(2)) 1 p(1 | x, a, b) 1 exp ax b のモデルの場合 1 n Ln ( w) yi log p(1 | xi , w) (1 yi ) log(1 p(1 | xi , w)) n i 1 の p(1 | x, w) に上記の式を入れて, 1 n Ln (a, b) yi log(1 exp(axi b)) (1 yi ) log(1 exp(axi b)) n i 1 (変形は簡単なので省略) 例32(多値識別(1)) X RM 出力 C 1,2,, N Y 学習データ ( xi , yi ) 入力 p(k | x, w) f k ( x, wk ) p(k | x, w) とモデル化すると f k ( x, wk ) N f m 1 m ( x, wm ) 1 n N Ln ( w) log f ki ( xi , wki ) log f m ( xi , wm ) n i 1 m1 k i は xi の識別クラス,つまり yi 例33(2乗誤差による多値識別(1)) xi の識別クラスが k のとき yi (0,0,0,,0,1,0,,0) と定める k 番目だけ1あとは 0 のN次のベクトル 多値識別問題 X RM 入力 Y RN 出力 学習データ ( xi , yi ) から q : x ( p(1 | x), p(2 | x),, p( N | x)) を推定する問題 例33(2乗誤差による多値識別(2)) q : x ( p(1 | x), p(2 | x),, p( N | x)) のモデルとして f ( x, w) : R M R N を用い,損失関数として,以下の2乗誤差関数を用いる. 1 n 2 Ln ( w) || y f ( x , w ) || i i 2n i 1 Ln (w) を最小にする wˆ を推定した関数とする を求めて ˆ) f ( x, w 例33(2乗誤差による多値識別(3)) なぜ損失関数として2乗誤差関数でよいのか? pp.32 より2乗誤差により,回帰関数が推定できる rk (x) :回帰関数 r ( x) E (Y | x) の第 k 成分 (補足資料参照) y p ( x, y )dy p(k ) p( x | k ) r ( x) p (k | x) p( x, y)dy p( j ) p( x | j ) k k N j 1 関数近似誤差と統計誤差 同時確率密度関数の学習 q( x, y) K (q || pw ) q( x, y) log dxdy pw ( x, y) 最小化する wˆ を推定 w0 の時に本当に最小値をとるとすると, pw0 ( x, y) q( x, y) K (q || pwˆ ) q( x, y) log dxdy q( x, y) log dxdy pw0 ( x, y) pwˆ ( x, y) 関数近似誤差 モデルが原理的にもつ 近似の限界 統計誤差 パラメータに依存.データの 追加,学習アルゴリズムの改良 などより改善可能
© Copyright 2024 ExpyDoc