わかりやすいパターン認識」 第1章:パターン認識とは

「データ学習アルゴリズム」
第2章 学習と統計的推測
2.1.5
2.1.6
2.1.7
2.1.8
条件付き確率密度関数の推定法
回帰関数の推定
パターン識別関数の推定
関数近似誤差と統計誤差
5月21日(水)
発表者 新納浩幸
条件付き確率密度関数の推定(1)
( xi , yi )
:学習データ q ( x, y ) から発生したと仮定
p( y | x, w) : パラメータ w によって定まるある条件付き
確率密度関数
p( y | x, w) は q( y | x) のモデル
q( y | x) の推定
( xi , yi )
最適な
を利用して
w の推定
条件付き確率密度関数の推定(2)
1 n
損失関数 Ln ( w)    log p( yi | xi , w)
n i 1
っと設定すればよい。なぜなら、
Ln (w)  K (q( y | x) || p( y | x, w))  S (q( y | x))
Ln (w) を最小化するような w をみつければよい
例29(確率システムと学習)
先生
入力
q( y | x)
q(x)
入力例
x1 , x2 ,, xn
学
習
出力例
y1 , y2 ,, yn
学習者
p( y | x, w)
先生のモデルが q ( x, y ) ではないことに注意
注10 (人工知能と学習)
• 人間が自然に行っていることを内省により規則
化すること(プログラムすること)は困難。
• 人工知能の実現には学習によるアプローチが有
望(80年代~)。
• 現在、実世界と相互作用する情報システムは多
かれ少なかれ学習機能を有している。
• まだ十分ではないのは、何が足りないのか?
回帰関数の推定(1)
( xi , yi )
:学習データ q ( x, y ) から発生したと仮定
x  RM 、 y  RN
f ( x, w) : パラメータ w をもつ R M から R N への関数
f ( x, w) は回帰関数 r ( x)   yq ( y | x) dy のモデル
r (x) の推定
( xi , yi )
最適な
を利用して
w の推定
回帰関数の推定(2)
pp.17
補題1
s ( x) : R M  R N
1
L( s)   || y  s( x) ||2 q( x, y )dxdy
2
は、 s( x)  r ( x) で最小値を取る
L(s) を最小にするような s を求め
それを r (x) の推定とすればよい
f ( x, w) は r (x) のモデルなので
L( f ) を最小にするような wˆ を求め
ˆ ) を r (x) の推定とすればよい
f ( x, w
回帰関数の推定(3)
1 n
2
Ln ( s) 
||
y

s
(
x
)
||

i
i
2n i 1
とおくと、大数の法則から、十分大きな n に対して
L(s)  Ln (s)
s( x)  f ( x, w) とおくと,
1 n
2
Ln ( w) 
||
y

f
(
x
,
w
)
||

i
i
2n i 1
ˆ) を
を最小にするような wˆ を求め f ( x, w
r (x) の推定とすればよい
例30(回帰関数の推定(1))
r ( x) : R M  R1
の推定を行う。
H
r (x) を f ( x, w)   wh h ( x)
の形と仮定する。
h 1
wh : パラメータ
h ( x) : RM  R1 一次独立
1 n
2
Ln ( w) 
(
y

f
(
x
,
w
))

i
i
2n i 1
を最小にするような w を求めればよい
例30(回帰関数の推定(2))
ポイントだけ,詳細は別紙
n
2nLn ( w)  n || G ( w  G  ) ||  yi2  n || G 1/ 2 ||2
1/ 2
1
2
i 1
G : H  H行列
1 n
G の (h, h' ) 要素は n  h ( xi ) h ' ( xi )
i 1
 : H次元ベクトル
1 n
 yi h ( xi )
 の h 次元要素は
n
ˆ  G1
w
i 1
パターン識別関数の推定
入力 X  R M
出力 C  1,2,, N   Y
( xi , yi )
:学習データ
パターン識別とは ( xi , yi ) から q( y | x) を推定すること
識別関数
q( y | x)  p( y | x, w) とモデル化する
1 n
Ln ( w)    log p( yi | xi , w)
n i 1
を最小にするパラメータ w を求めればよい
例31(2値識別(1))
入力
出力
X  RM
C  0,1  Y
学習データ
( xi , yi )
1 n
Ln ( w)    log p( yi | xi , w)
n i 1
この変形は簡単なので省略
1 n
   yi log p(1 | xi , w)  (1  yi ) log(1  p(1 | xi , w))
n i 1
例31(2値識別(2))
1
p(1 | x, a, b) 
1  exp ax  b 
のモデルの場合
1 n
Ln ( w)    yi log p(1 | xi , w)  (1  yi ) log(1  p(1 | xi , w))
n i 1
の p(1 | x, w) に上記の式を入れて,
1 n
Ln (a, b)   yi log(1  exp(axi  b))  (1  yi ) log(1  exp(axi  b))
n i 1
(変形は簡単なので省略)
例32(多値識別(1))
X  RM
出力 C  1,2,, N   Y
学習データ ( xi , yi )
入力
p(k | x, w)  f k ( x, wk )
p(k | x, w) 
とモデル化すると
f k ( x, wk )
N
f
m 1
m
( x, wm )
1 n 
N

Ln ( w)    log f ki ( xi , wki )  log f m ( xi , wm ) 
n i 1 
 m1

k i は xi の識別クラス,つまり yi
例33(2乗誤差による多値識別(1))
xi の識別クラスが k のとき yi  (0,0,0,,0,1,0,,0)
と定める
k 番目だけ1あとは 0 のN次のベクトル
多値識別問題
X  RM
入力
Y  RN
出力
学習データ ( xi , yi )
から
q : x  ( p(1 | x), p(2 | x),, p( N | x))
を推定する問題
例33(2乗誤差による多値識別(2))
q : x  ( p(1 | x), p(2 | x),, p( N | x))
のモデルとして
f ( x, w) : R M  R N
を用い,損失関数として,以下の2乗誤差関数を用いる.
1 n
2
Ln ( w) 
||
y

f
(
x
,
w
)
||

i
i
2n i 1
Ln (w) を最小にする wˆ
を推定した関数とする
を求めて
ˆ)
f ( x, w
例33(2乗誤差による多値識別(3))
なぜ損失関数として2乗誤差関数でよいのか?
pp.32 より2乗誤差により,回帰関数が推定できる
rk (x) :回帰関数 r ( x)  E (Y | x) の第 k 成分
(補足資料参照)
y p ( x, y )dy
p(k ) p( x | k )

r ( x) 

 p (k | x)
 p( x, y)dy  p( j ) p( x | j )
k
k
N
j 1
関数近似誤差と統計誤差
同時確率密度関数の学習
q( x, y)
K (q || pw )   q( x, y) log
dxdy
pw ( x, y)
最小化する
wˆ を推定
w0 の時に本当に最小値をとるとすると,
pw0 ( x, y)
q( x, y)
K (q || pwˆ )   q( x, y) log
dxdy  q( x, y) log
dxdy
pw0 ( x, y)
pwˆ ( x, y)
関数近似誤差
モデルが原理的にもつ
近似の限界
統計誤差
パラメータに依存.データの
追加,学習アルゴリズムの改良
などより改善可能