「データ学習アルゴリズム」
第1章 学習と確率
1.1
1.2
1.3
1.4
学習とは
確率変数と情報科学
確率と推論
確率変数の距離
4月23日(水)
発表者 新納浩幸
背景
ある確率変数を設定して,
その分布を推定すること
学習
P0
P1
: 真の確率分布
: 推定した確率分布
本質的には
P0
P1
の良さを測るために
との距離を定量的に測る手段が必要
cf)
P0
は未知なので,話は複雑
カルバックの擬距離
X 1 , X 2 : R M 上の確率変数
p1 , p2
: X 1 , X 2 の密度関数
p1 ( x)
K ( p1 || p2 ) p1 ( x) log
dx
p2 ( x)
* 積分の領域は {x R ; p1 ( x) 0}
M
* x p ( x) 0, p ( x) 0
1
2
* 非対称
K ( p1 || p2 )
K ( p1 || p2 ) K ( p2 || p1 )
簡単な例
阪神勝率を解説者Aは5割,解説者Bは7割と予想.実際は6割
だった.どちらの予想がより正しかったといえるか?
真のモデル p0 (0.6,0.4)
Aのモデル p A (0.5,0.5)
Bのモデル pB (0.7,0.3)
0.6
0.4
K ( p0 || p A ) 0.6 log
0.4 log
0.0201
0.5
0.5
0.6
0.4
K ( p0 || pB ) 0.6 log
0.4 log
0.0226
0.7
0.3
例26(正規分布間の距離)
X 1 , X 2 : R M 上の確率変数,正規分布に従う
p1 , p2
: X 1 , X 2 の密度関数
m1 , m2 , S1 , S2 : X 1 , X 2 の平均ベクトルと分散共分散行列
1
K ( p1 || p2 ) {tr ( S1S 21 ) M log det( S 2 S11 ) || S 21/ 2 (m1 m2 ) ||2 }
2
例26の証明
ポイントだけ,詳細は別紙
K ( p1 || p2 ) p1 ( x) log p1 ( x)dx p1 ( x) log p2 ( x)dx
p ( x) log p ( x)dx
1
2
1
M log 2 log(det S 2 ) tr ( S 21S1 ) || S 21/ 2 (m1 m2 ) ||2
2
1
p1 ( x) log p1 ( x)dx 2 M log 2 log(det S1 ) M
補題2(カルバック擬距離の性
質)
p1 , p2 0 : 連続
(1) K ( p1 || p2 ) 0
(2) K ( p1 || p2 ) 0
x R
p1 ( x) p2 ( x)
M
補題2の証明
ポイントだけ,詳細は別紙
(1) S ( x) log x 1 1
x
S ( x) 0
S ( x) 0 x 1
p1 ( x)
dx
K ( p1 || p2 ) p1 ( x) S
p2 ( x)
(2) は明らか,逆は上の式から
p ( x)
p ( x)
S 1 0 1
1
p2 ( x )
p2 ( x )
ただし厳密にはちょっと面倒
同時確率のカルバック擬距離
X1 Y1, X 2 Y2 : R M R N
上の確率変数
p1 ( x, y), p2 ( x, y) : X1 Y1, X 2 Y2 の密度関数
p1 ( x, y)
K ( p1 || p2 ) p1 ( x, y) log
dxdy
p2 ( x, y)
条件付き確率の擬距離
M
X : R 上の確率変数
Y1,Y2 : R N 上の確率変数
p1 ( y | x), p2 ( y | x) : Y1,Y2 上の密度関数
p1 ( y | x)
d ( p1 || p2 ) p1 ( y | x) log
dy
p2 ( y | x)
x の関数とみなせる
条件付き確率のカルバック擬距離
p1 ( x, y) p1 ( y | x) p1 ( x) なる p1 ( x) を利用
K ( p1 || p2 ) d ( p1 , p2 ) p1 ( x)dx
p1 ( y | x)
p1 ( y | x) log
dyp1 ( x)dx
p2 ( y | x)
条件付き確率のカルバック擬距
離の性質
(1) K ( p1 || p2 ) 0
(2) K ( p1 || p2 ) 0
( x, y) RM R N : p( x, y) 0
p1 ( y | x) p2 ( y | x)
補題3(カルバック擬距離の分
解)
K ( p1 ( x, y) || p2 ( x, y))
K ( p1 ( y | x) || p2 ( y | x)) K ( p1 ( x) || p2 ( x))
X , Y が独立ならば、周辺密度関数の擬距離の和
K ( p1 ( x, y) || p2 ( x, y))
K ( p1 ( y) || p2 ( y)) K ( p1 ( x) || p2 ( x))
補題3メモ
K ( p1 ( x, y) || p2 ( x, y))
同時確率密度関数の擬距離
等しくない
K ( p1 ( y | x) || p2 ( y | x))
推論モデルの擬距離
カルバック擬距離と2乗誤差
f1 ( x), f 2 ( x) : R M R1
1
1
2
p1 ( x, y) p1 ( x)
exp ( y f1 ( x))
1/ 2
(2 )
2
1
1
2
p2 ( x, y) p2 ( x)
exp ( y f 2 ( x))
1/ 2
(2 )
2
1
2
K ( p1 ( y | x) || p2 ( y | x)) f1 ( x) f 2 ( x) p1 ( x)dx
2
カルバック擬距離は2乗誤差の
一般化
f1 ( x), f 2 ( x) 未知の関数、これらの距離を測りたい
一般に2乗誤差(前述の右式)
利用できるのは、 ( x, y ) の実測値
( x, y ) の同時分布を p ( x, y ) と仮定
y, f ( x) の差は標準正規分布
p1 ( y | x), p2 ( y | x) のカルバック擬距離は,
上記仮定の下で,真の関数の2乗誤差と等しい
© Copyright 2026 ExpyDoc