「データ学習アルゴリズム」 報告者 佐々木 稔 2003年5月21日 第2章 学習と統計的推測 2.1 データと学習 2.1.1 学習とは 2.1.2 同時確率密度関数の学習 2.1.3 学習法の意味 2.1.4 学習の尺度 学習とは 入力 X ( X1 , X 2 ,, X M ) 出力 Y (Y1 , Y2 ,, YN ) 組(X, Y) が同時密度関数 q(x, y) をもつ確率変数 独立な n 回の試行での n 組の実現値 (データ、学習データ、サンプル) ( x , y ) x1, y1 , x2 , y2 ,, xn , yn n n n n 学習データ ( x , y ) • X, Y に関する情報の獲得 • 獲得した情報からの予測 推定対象 • 真の密度関数 q(x, y) • 条件付き密度関数 q(y | x) • 回帰関数 y = E(Y | x) ☆目的によって推定対象も変化 例27 学習を利用した応用例 • 画像や音声の認識を行うシステム • 時系列予測システム • 信号の圧縮・復元を行うシステム 人間の言語獲得 生物の進化 広い意味で学習 同時確率密度関数の学習 p(x, y | w) : 同時確率密度関数 w : パラメータ(母数) データを発生している確率変数の (真の)密度関数 q(x, y) を推定 p(x, y | w) : 学習モデルの密度関数 p(x, y | w0) = q(x, y) となるパラメータ w0 が存在 「学習モデルは真の密度関数を含む」 母集団全体の分布 p(x, y | w) は既知 分布を特徴付けるのパラメータ w は未知 パラメータ w • 確率変数 条件付き確率 p(x, y | w) • 確率変数ではない p(x, y : w) または、 pw(x, y) ここでは、両者は同じものとして p(x, y | w) • 実問題では… 密度関数は複雑なことが多く、 学習モデルに含まれる保証はない • アルゴリズムの考案時やその特徴解析時 モデルが真の密度関数を含むと仮定 真の密度関数を含む場合のモデルを 明らかにし、一般的な場合を考察 • 学習データは有限個 ある程度の解像度までの密度関数 しか分からない 学習データ x1, y1 , x2 , y2 ,, xn , yn 情報源 学習モデル q(x, y) p(x, y | w) 似てる? 学習結果 p(x, y | w0) 最尤推定法 損失関数 1 n Ln ( w) log p( xi , yi | w) n i 1 損失関数を最小にする wˆ (最尤推定量) p( x, y | wˆ ) を q(x, y) の推定密度関数とする 事後確率最大化法 p(w) : パラメータ w に関する密度関数 損失関数 1 n 1 Ln ( w) log p( xi , yi | w) log p( w) n i 1 n 損失関数を最小にする wˆ (事後確率最大化推定量) p( x, y | wˆ ) を q(x, y) の推定密度関数とする ベイズ法 p(w) : パラメータ w に関する密度関数 損失関数 1 n 1 Ln ( w) log p( xi , yi | w) log p( w) n i 1 n Ln(w) をエネルギー関数とするギブス分布 1 n ( w) exp nLn ( w) Zn Zn : ρn(w) がパラメータ集合 Rd 上の 確率密度関数となる正規化定数 β : 逆温度と呼ばれる正の定数 ギブス分布の平均で作られる密度関数 pn ( x, y ) p ( x, y | w) n ( w)dw pn(x,y) を q(x, y) の推定密度関数とする • 固定したパラメータ w 定めない パラメータ w も確率変数として扱う •パラメータ w の密度関数 p(w) (事前分布)が必要 学習の目的により設定 (モデル選択、予測精度最大化) 例28 R1 上の確率変数から独立な学習データ {xi; i = 1, 2, ・・・, n} モデル(平均 a、分散 1 の正規分布) 2 1 x a p( x | a) exp 2 2 3つの推定方法がどのくらい 異なる結果となるか比較 最尤推定法 1 ( xi a) 2 1 n Ln (a ) log exp n i 1 2 2 パラメータと関係のない項を省略して、 1 n 2 Ln (a) ( x a ) i 2n i 1 a に関して下に凸の2次関数なので 1 n Ln (a) xi a a n i 1 これより、最尤推定量は aˆ ML 1 n xi n i 1 a の事前密度関数 p(a) a2 1 p(a) exp 2 2 事後確率最大化法より x a 2 1 a2 1 n 1 1 log Ln (a) log exp exp n i 1 2 n 2 2 2 1 n n 1 Ln (a) xi a a n i 1 n 事後確率最大化推定量 aˆ MAP aˆ MAP 1 n xi n 1 i 1 ベイズ法の場合 n ( w) 1 exp nLn ( w) Zn 1 n exp ( xi a) 2 a 2 2 i 1 2 n n 1 1 2 2 exp n 1a aˆ MAP xi xi 2 n 1 i 1 i 1 a に関係しない項をまとめて 1 n 1 a aˆ MAP 2 n (w) exp Z n 2 pn ( x) 1 n 1 1 2 exp x aˆMAP Cn 2n2 学習法の意味 最尤推定法 データ (xn, yn) がモデル p(x, y | w) から得られる 確率密度(モデルの尤度) n p( x n , y n | w) p( xi , yi | w) i 1 モデルの尤度を最大化するパラメータを選択 事後確率最大化法 X, Y, W : 確率変数 同時確率密度関数 p( x, y, w) p( x, y | w) p(w) 推定するモデルの密度関数 p ( x, y ) p ( x, y | w) p ( w)dw このモデルが真の密度関数であれば、 q(x, y) = p(x, y) (xn, yn) が得られた条件の下での W の密度関数 n n p ( x , y | w) p( w) n n p( w | x , y ) n n p( x , y ) P(w) : 事前確率密度関数 P(w | xn, yn) : 事後確率密度関数 P(w | xn, yn) を最大にする w を求める ベイズ法 仮定は事後確率最大化法と同じ 1 n ( w) exp nLn ( w) Zn β= 1 のとき、 (xn, yn) が得られた条件下 (X, Y) の密度関数 p ( x, y | x , y ) p ( x, y | w) p ( w | x , y )dw n n n n P(x, y | xn, yn) が求める確率密度関数 学習の尺度 これらの方法でなぜ学習が可能になるのか カルバックの擬距離による最適化 • 最尤推定、事後確率最大化の場合 データ数 n が十分大きいとき、 1 n Ln ( w) log p( xi , yi | w) n i 1 q( x, y ) log p( x, y | w)dxdy q ( x, y ) q( x, y ) log dxdy q( x, y ) log q( x, y )dxdy p( x, y | w) K (q || pw ) S (q) Ln (w) K (q || pw ) S (q) 損失関数の最小化 ≒ K(q || pw) の最小化 • ベイズ法の場合 データ数 n が十分大きいとき、最尤推定と同様に、 n (w) exp nLn ( w) exp nK(q || pw ) p(x, y | w) が q(x, y) に近くなる w の近くに 集中する密度関数となる
© Copyright 2024 ExpyDoc