わかりやすいパターン認識」 第1章:パターン認識とは

「データ学習アルゴリズム」
第1章 学習と確率
1.1
1.2
1.3
1.4
学習とは
確率変数と情報科学
確率と推論
確率変数の距離
4月23日(水)
発表者 新納浩幸
背景
ある確率変数を設定して,
その分布を推定すること
学習
P0
P1
: 真の確率分布
: 推定した確率分布
本質的には
P0
P1
の良さを測るために
との距離を定量的に測る手段が必要
cf)
P0
は未知なので,話は複雑
カルバックの擬距離
X 1 , X 2 : R M 上の確率変数
p1 , p2
: X 1 , X 2 の密度関数
p1 ( x)
K ( p1 || p2 )   p1 ( x) log
dx
p2 ( x)
* 積分の領域は {x  R ; p1 ( x)  0}
M
* x p ( x)  0, p ( x)  0
1
2
* 非対称
K ( p1 || p2 )  
K ( p1 || p2 )  K ( p2 || p1 )
簡単な例
阪神勝率を解説者Aは5割,解説者Bは7割と予想.実際は6割
だった.どちらの予想がより正しかったといえるか?
真のモデル p0  (0.6,0.4)
Aのモデル p A  (0.5,0.5)
Bのモデル pB  (0.7,0.3)
0.6
0.4
K ( p0 || p A )  0.6 log
 0.4 log
 0.0201
0.5
0.5
0.6
0.4
K ( p0 || pB )  0.6 log
 0.4 log
 0.0226
0.7
0.3
例26(正規分布間の距離)
X 1 , X 2 : R M 上の確率変数,正規分布に従う
p1 , p2
: X 1 , X 2 の密度関数
m1 , m2 , S1 , S2 : X 1 , X 2 の平均ベクトルと分散共分散行列
1
K ( p1 || p2 )  {tr ( S1S 21 )  M  log det( S 2 S11 ) || S 21/ 2 (m1  m2 ) ||2 }
2
例26の証明
ポイントだけ,詳細は別紙
K ( p1 || p2 )   p1 ( x) log p1 ( x)dx   p1 ( x) log p2 ( x)dx
 p ( x) log p ( x)dx 
1
2

1
 M log 2  log(det S 2 )  tr ( S 21S1 ) || S 21/ 2 (m1  m2 ) ||2
2
1
 p1 ( x) log p1 ( x)dx   2 M log 2  log(det S1 )  M 

補題2(カルバック擬距離の性
質)
p1 , p2  0 : 連続
(1) K ( p1 || p2 )  0
(2) K ( p1 || p2 )  0

x  R
p1 ( x)  p2 ( x)
M
補題2の証明
ポイントだけ,詳細は別紙
(1) S ( x)  log x  1  1
x
S ( x)  0
S ( x)  0  x  1
 p1 ( x) 
dx
K ( p1 || p2 )   p1 ( x) S 
 p2 ( x) 
(2)  は明らか,逆は上の式から
 p ( x) 
p ( x)
S  1   0  1
1
p2 ( x )
 p2 ( x ) 
ただし厳密にはちょっと面倒
同時確率のカルバック擬距離
X1  Y1, X 2  Y2 : R M  R N
上の確率変数
p1 ( x, y), p2 ( x, y) : X1  Y1, X 2  Y2 の密度関数
p1 ( x, y)
K ( p1 || p2 )   p1 ( x, y) log
dxdy
p2 ( x, y)
条件付き確率の擬距離
M
X : R 上の確率変数
Y1,Y2 : R N 上の確率変数
p1 ( y | x), p2 ( y | x) : Y1,Y2 上の密度関数
p1 ( y | x)
d ( p1 || p2 )   p1 ( y | x) log
dy
p2 ( y | x)
x の関数とみなせる
条件付き確率のカルバック擬距離
p1 ( x, y)  p1 ( y | x) p1 ( x) なる p1 ( x) を利用
K ( p1 || p2 )   d ( p1 , p2 ) p1 ( x)dx
p1 ( y | x)
  p1 ( y | x) log
dyp1 ( x)dx
p2 ( y | x)
条件付き確率のカルバック擬距
離の性質
(1) K ( p1 || p2 )  0
(2) K ( p1 || p2 )  0

( x, y)  RM  R N : p( x, y)  0
p1 ( y | x)  p2 ( y | x)
補題3(カルバック擬距離の分
解)
K ( p1 ( x, y) || p2 ( x, y))
 K ( p1 ( y | x) || p2 ( y | x))  K ( p1 ( x) || p2 ( x))
X , Y が独立ならば、周辺密度関数の擬距離の和
K ( p1 ( x, y) || p2 ( x, y))
 K ( p1 ( y) || p2 ( y))  K ( p1 ( x) || p2 ( x))
補題3メモ
K ( p1 ( x, y) || p2 ( x, y))
同時確率密度関数の擬距離
等しくない
K ( p1 ( y | x) || p2 ( y | x))
推論モデルの擬距離
カルバック擬距離と2乗誤差
f1 ( x), f 2 ( x) : R M  R1
1
 1
2
p1 ( x, y)  p1 ( x)
exp  ( y  f1 ( x)) 
1/ 2
(2 )
 2

1
 1
2
p2 ( x, y)  p2 ( x)
exp  ( y  f 2 ( x)) 
1/ 2
(2 )
 2

1
2
K ( p1 ( y | x) || p2 ( y | x))    f1 ( x)  f 2 ( x)  p1 ( x)dx
2
カルバック擬距離は2乗誤差の
一般化
f1 ( x), f 2 ( x) 未知の関数、これらの距離を測りたい
一般に2乗誤差(前述の右式)
利用できるのは、 ( x, y ) の実測値
( x, y ) の同時分布を p ( x, y ) と仮定
y, f ( x) の差は標準正規分布
p1 ( y | x), p2 ( y | x) のカルバック擬距離は,
上記仮定の下で,真の関数の2乗誤差と等しい