「データ学習アルゴリズム」 第1章 学習と確率 1.1 1.2 1.3 1.4 学習とは 確率変数と情報科学 確率と推論 確率変数の距離 4月23日(水) 発表者 新納浩幸 背景 ある確率変数を設定して, その分布を推定すること 学習 P0 P1 : 真の確率分布 : 推定した確率分布 本質的には P0 P1 の良さを測るために との距離を定量的に測る手段が必要 cf) P0 は未知なので,話は複雑 カルバックの擬距離 X 1 , X 2 : R M 上の確率変数 p1 , p2 : X 1 , X 2 の密度関数 p1 ( x) K ( p1 || p2 ) p1 ( x) log dx p2 ( x) * 積分の領域は {x R ; p1 ( x) 0} M * x p ( x) 0, p ( x) 0 1 2 * 非対称 K ( p1 || p2 ) K ( p1 || p2 ) K ( p2 || p1 ) 簡単な例 阪神勝率を解説者Aは5割,解説者Bは7割と予想.実際は6割 だった.どちらの予想がより正しかったといえるか? 真のモデル p0 (0.6,0.4) Aのモデル p A (0.5,0.5) Bのモデル pB (0.7,0.3) 0.6 0.4 K ( p0 || p A ) 0.6 log 0.4 log 0.0201 0.5 0.5 0.6 0.4 K ( p0 || pB ) 0.6 log 0.4 log 0.0226 0.7 0.3 例26(正規分布間の距離) X 1 , X 2 : R M 上の確率変数,正規分布に従う p1 , p2 : X 1 , X 2 の密度関数 m1 , m2 , S1 , S2 : X 1 , X 2 の平均ベクトルと分散共分散行列 1 K ( p1 || p2 ) {tr ( S1S 21 ) M log det( S 2 S11 ) || S 21/ 2 (m1 m2 ) ||2 } 2 例26の証明 ポイントだけ,詳細は別紙 K ( p1 || p2 ) p1 ( x) log p1 ( x)dx p1 ( x) log p2 ( x)dx p ( x) log p ( x)dx 1 2 1 M log 2 log(det S 2 ) tr ( S 21S1 ) || S 21/ 2 (m1 m2 ) ||2 2 1 p1 ( x) log p1 ( x)dx 2 M log 2 log(det S1 ) M 補題2(カルバック擬距離の性 質) p1 , p2 0 : 連続 (1) K ( p1 || p2 ) 0 (2) K ( p1 || p2 ) 0 x R p1 ( x) p2 ( x) M 補題2の証明 ポイントだけ,詳細は別紙 (1) S ( x) log x 1 1 x S ( x) 0 S ( x) 0 x 1 p1 ( x) dx K ( p1 || p2 ) p1 ( x) S p2 ( x) (2) は明らか,逆は上の式から p ( x) p ( x) S 1 0 1 1 p2 ( x ) p2 ( x ) ただし厳密にはちょっと面倒 同時確率のカルバック擬距離 X1 Y1, X 2 Y2 : R M R N 上の確率変数 p1 ( x, y), p2 ( x, y) : X1 Y1, X 2 Y2 の密度関数 p1 ( x, y) K ( p1 || p2 ) p1 ( x, y) log dxdy p2 ( x, y) 条件付き確率の擬距離 M X : R 上の確率変数 Y1,Y2 : R N 上の確率変数 p1 ( y | x), p2 ( y | x) : Y1,Y2 上の密度関数 p1 ( y | x) d ( p1 || p2 ) p1 ( y | x) log dy p2 ( y | x) x の関数とみなせる 条件付き確率のカルバック擬距離 p1 ( x, y) p1 ( y | x) p1 ( x) なる p1 ( x) を利用 K ( p1 || p2 ) d ( p1 , p2 ) p1 ( x)dx p1 ( y | x) p1 ( y | x) log dyp1 ( x)dx p2 ( y | x) 条件付き確率のカルバック擬距 離の性質 (1) K ( p1 || p2 ) 0 (2) K ( p1 || p2 ) 0 ( x, y) RM R N : p( x, y) 0 p1 ( y | x) p2 ( y | x) 補題3(カルバック擬距離の分 解) K ( p1 ( x, y) || p2 ( x, y)) K ( p1 ( y | x) || p2 ( y | x)) K ( p1 ( x) || p2 ( x)) X , Y が独立ならば、周辺密度関数の擬距離の和 K ( p1 ( x, y) || p2 ( x, y)) K ( p1 ( y) || p2 ( y)) K ( p1 ( x) || p2 ( x)) 補題3メモ K ( p1 ( x, y) || p2 ( x, y)) 同時確率密度関数の擬距離 等しくない K ( p1 ( y | x) || p2 ( y | x)) 推論モデルの擬距離 カルバック擬距離と2乗誤差 f1 ( x), f 2 ( x) : R M R1 1 1 2 p1 ( x, y) p1 ( x) exp ( y f1 ( x)) 1/ 2 (2 ) 2 1 1 2 p2 ( x, y) p2 ( x) exp ( y f 2 ( x)) 1/ 2 (2 ) 2 1 2 K ( p1 ( y | x) || p2 ( y | x)) f1 ( x) f 2 ( x) p1 ( x)dx 2 カルバック擬距離は2乗誤差の 一般化 f1 ( x), f 2 ( x) 未知の関数、これらの距離を測りたい 一般に2乗誤差(前述の右式) 利用できるのは、 ( x, y ) の実測値 ( x, y ) の同時分布を p ( x, y ) と仮定 y, f ( x) の差は標準正規分布 p1 ( y | x), p2 ( y | x) のカルバック擬距離は, 上記仮定の下で,真の関数の2乗誤差と等しい
© Copyright 2024 ExpyDoc