わかりやすいパターン認識」第1章：パターン認識とは

「データ学習アルゴリズム」
第1章学習と確率
1.1
1.2
1.3
1.4
学習とは
確率変数と情報科学
確率と推論
確率変数の距離
4月23日（水）
発表者新納浩幸
背景
ある確率変数を設定して，
その分布を推定すること
学習
P0
P1
：真の確率分布
：推定した確率分布
本質的には
P0
P1
の良さを測るために
との距離を定量的に測る手段が必要
ｃｆ）
P0
は未知なので，話は複雑
カルバックの擬距離
X 1 , X 2 ： R M 上の確率変数
p1 , p2
： X 1 , X 2 の密度関数
p1 ( x)
K ( p1 || p2 )   p1 ( x) log
dx
p2 ( x)
＊積分の領域は {x  R ; p1 ( x)  0}
M
＊ x p ( x)  0, p ( x)  0
1
2
＊非対称
K ( p1 || p2 )  
K ( p1 || p2 )  K ( p2 || p1 )
簡単な例
阪神勝率を解説者Aは5割，解説者Bは7割と予想．実際は6割
だった．どちらの予想がより正しかったといえるか？
真のモデル p0  (0.6,0.4)
Aのモデル p A  (0.5,0.5)
Bのモデル pB  (0.7,0.3)
0.6
0.4
K ( p0 || p A )  0.6 log
 0.4 log
 0.0201
0.5
0.5
0.6
0.4
K ( p0 || pB )  0.6 log
 0.4 log
 0.0226
0.7
0.3
例２６（正規分布間の距離）
X 1 , X 2 ： R M 上の確率変数，正規分布に従う
p1 , p2
： X 1 , X 2 の密度関数
m1 , m2 , S1 , S2 ： X 1 , X 2 の平均ベクトルと分散共分散行列
1
K ( p1 || p2 )  {tr ( S1S 21 )  M  log det( S 2 S11 ) || S 21/ 2 (m1  m2 ) ||2 }
2
例２６の証明
ポイントだけ，詳細は別紙
K ( p1 || p2 )   p1 ( x) log p1 ( x)dx   p1 ( x) log p2 ( x)dx
 p ( x) log p ( x)dx 
1
2

1
 M log 2  log(det S 2 )  tr ( S 21S1 ) || S 21/ 2 (m1  m2 ) ||2
2
1
 p1 ( x) log p1 ( x)dx   2 M log 2  log(det S1 )  M 

補題２（カルバック擬距離の性
質）
p1 , p2  0 ：連続
（１） K ( p1 || p2 )  0
（２） K ( p1 || p2 )  0

x  R
p1 ( x)  p2 ( x)
M
補題2の証明
ポイントだけ，詳細は別紙
（１） S ( x)  log x  1  1
x
S ( x)  0
S ( x)  0  x  1
 p1 ( x) 
dx
K ( p1 || p2 )   p1 ( x) S 
 p2 ( x) 
（２）  は明らか，逆は上の式から
 p ( x) 
p ( x)
S  1   0  1
1
p2 ( x )
 p2 ( x ) 
ただし厳密にはちょっと面倒
同時確率のカルバック擬距離
X1  Y1, X 2  Y2 ： R M  R N
上の確率変数
p1 ( x, y), p2 ( x, y) ： X1  Y1, X 2  Y2 の密度関数
p1 ( x, y)
K ( p1 || p2 )   p1 ( x, y) log
dxdy
p2 ( x, y)
条件付き確率の擬距離
M
X ： R 上の確率変数
Y1,Y2 ： R N 上の確率変数
p1 ( y | x), p2 ( y | x) ： Y1,Y2 上の密度関数
p1 ( y | x)
d ( p1 || p2 )   p1 ( y | x) log
dy
p2 ( y | x)
x の関数とみなせる
条件付き確率のカルバック擬距離
p1 ( x, y)  p1 ( y | x) p1 ( x) なる p1 ( x) を利用
K ( p1 || p2 )   d ( p1 , p2 ) p1 ( x)dx
p1 ( y | x)
  p1 ( y | x) log
dyp1 ( x)dx
p2 ( y | x)
条件付き確率のカルバック擬距
離の性質
（１） K ( p1 || p2 )  0
（２） K ( p1 || p2 )  0

( x, y)  RM  R N : p( x, y)  0
p1 ( y | x)  p2 ( y | x)
補題３（カルバック擬距離の分
解）
K ( p1 ( x, y) || p2 ( x, y))
 K ( p1 ( y | x) || p2 ( y | x))  K ( p1 ( x) || p2 ( x))
X , Y が独立ならば、周辺密度関数の擬距離の和
K ( p1 ( x, y) || p2 ( x, y))
 K ( p1 ( y) || p2 ( y))  K ( p1 ( x) || p2 ( x))
補題３メモ
K ( p1 ( x, y) || p2 ( x, y))
同時確率密度関数の擬距離
等しくない
K ( p1 ( y | x) || p2 ( y | x))
推論モデルの擬距離
カルバック擬距離と２乗誤差
f1 ( x), f 2 ( x) : R M  R1
1
 1
2
p1 ( x, y)  p1 ( x)
exp  ( y  f1 ( x)) 
1/ 2
(2 )
 2

1
 1
2
p2 ( x, y)  p2 ( x)
exp  ( y  f 2 ( x)) 
1/ 2
(2 )
 2

1
2
K ( p1 ( y | x) || p2 ( y | x))    f1 ( x)  f 2 ( x)  p1 ( x)dx
2
カルバック擬距離は２乗誤差の
一般化
f1 ( x), f 2 ( x) 未知の関数、これらの距離を測りたい
一般に2乗誤差（前述の右式）
利用できるのは、 ( x, y ) の実測値
( x, y ) の同時分布を p ( x, y ) と仮定
y, f ( x) の差は標準正規分布
p1 ( y | x), p2 ( y | x) のカルバック擬距離は，
上記仮定の下で，真の関数の２乗誤差と等しい

Download Report