PowerPoint プレゼンテーション

「データ学習アルゴリズム」
報告者 佐々木 稔
2003年4月23日
第1章 学習と確率
1.1 学習とは
1.2 確率変数と情報科学
1.3 確率と推論
1.4 確率変数の距離
確率と推論
X  ( X1 , X 2 ,, X M )
Y  (Y1 , Y2 ,, YN )
X と Y の組 ( X , Y )  ( X1 , X 2 ,, X M , Y1 , Y2 ,, YN )
X=x, Y=y が同時に成り立つ相対的な割合
p( x, y)  p( x1 , x2 ,, xM , y1 , y2 ,, y N )
同時密度関数
例 16
テレビの音声を X、映像を Y とすると、
同時密度関数は音声と映像がどのような
組み合わせで出現するかを表す。
音から映像,映像から音を想像できる
例 17
英文に現れる他動詞と目的語が確率変数をなす
他動詞を X、目的語を Y とする
同時密度関数 p(x, y) は、
他動詞を X、目的語を Y の共起しやすさ
2つの目的語について、
 p( x, y ) p( x, y )
1
2
x
が大きいほど、y1 と y2 が似ていると考えられる
推論と条件付き確率
確率変数 (X, Y) の同時密度関数 p(x, y)
p(x, y) が既知のとき、周辺密度関数 p(x), p(y)
p( x)   p( x, y)dy
y
p( y )   p( x, y )dx
x
X=x であるとき、Y の条件付き確率密度関数 p(y|x)
p( y | x) 
p ( x, y )

y
p ( x, y )

p ( x)
p( x, y )dy
p(x) = 0 となる x については、p(y|x) は定義されない
ベイズの定理
p( x, y)  p( y | x) p( x)  p( x | y) p( y)
例 18
推論システム
入力
xR
M
何かをもとに何かを予測
から、出力 y  R を答える
N
音声認識システム ・・・ 音声信号から音韻や単語を推論
文字認識システム ・・・ 文字画像から文字を推論
時系列予測システム ・・・ 過去の経済指標から未来を推論
例 19
p(x) = 0 は実問題においては問題が生じる
音声、文字、画像は高次元空間で定義され、広い領域で
p ( x)  0
p(x) が 0 に近いところでは、 正確な p(y|x) が得難い
例 20 ぼやけた画像から本当の星の姿を知る
本当の姿 X、ぼやけた画像 Y
望遠鏡で画像が劣化する過程 p(y|x)
p( y | x)  exp(( y  f ( x))2 )
f(x) : レンズで画像の高周波成分が劣化する関数
星の姿の出現しやすさ
p( x)  exp( g ( x))
と推定されるとき、
p( y | x) p( x) exp(( y  f ( x))  g ( x))
p( x | y ) 

p( y )
p( y )
2
これより、
( y  f ( x))2  g ( x)
を最大にする x が星の姿の推定値となる
例 21
文字画像の空間 RM のパターンを認識する問題
i 番目の文字が出現する確率 p(i)
文字の種類が分かっているときの密度関数 p(x|i)
p ( x | i ) p (i )
p (i | x) 

p( x)
p ( x | i ) p (i )

N
j 1
p( x | j ) p( j )
例 22 2つの推論「X→Y」、「Y→Z」の合成
3つの確率変数 (X, Y, Z) の同時確率密度関数 p(X, Y, Z)
 p( z | x, y) p( y | x)dy  p( z | x)
p(z|x, y) が x に依存しないとき、p(z|x, y) = p(z|y)
 p( z | x) p( y | x)dy  p( z | x)
X から Z を推論するとき、媒介する
確率変数 Y が少なからず必要
回帰関数
条件付き確率密度関数 p(y|x) について、回帰関数 r(x) を定義
yp( x, y)dy

r ( x)  E (Y | x)   yp( y | x)dy 
 p( x, y)dy
関数 r(x) は、X=x での y の平均値
補題 1
同時確率密度関数 p(x, y)、回帰関数 r(x)
RM から RN への関数 s(x) の汎関数 L(s) を定義
L( s )   y  s( x) p( x, y )dxdy
2
L(s) が最小となるのは、 p( x)  0 となる任意の x について
s ( x)  r ( x )
のときに限る
(証明)
L(s) に r(x) を挿入して展開すると、
L( s)   y  r ( x)  r ( x)  s( x) p( x, y )dxdy
2

  y  r ( x)  ( y  r ( x))( r ( x)  s( x))  r ( x)  s( x)
2
2
p( x, y)dxdy
ここで、
 ( y  r ( x))( r ( x)  s( x)) p( x, y)dxdy
  (r ( x)  s ( x)) yp ( y | x) p( x)dxdy   (r ( x)  s ( x)) r ( x) p( x, y )dxdy
  (r ( x)  s( x)) r ( x) p( x)dx   (r ( x)  s( x)) r ( x) p( x)dx
0
したがって、
L( s)   y  r ( x) p( x, y )dxdy   r ( x)  s( x) p( x)dx
2
これより、s(x) = r(x) のとき L(s) は最小となる
2
(証明終わり)
例 23
g(x) を x の生起確率、
q(y|x) を推論確率、
r(x) を平均推論
入力 x が与えられたときの
出力のばらつきを表す関数 v(x)
入力 x
q(y|x)<small?
x は知らない
入力である
v(x)>large?
y について
の推論困難
v( x)   y  r ( x) q( y | x)dy
2
y はおおよそ
r(x) である
独立性
p(x, y) = p(x)p(y) が成り立つとき、
2つの確率変数 X、Y は互いに独立
X、Y は互いに独立であるとき、
p(y|x) = p(y), p(x|y) = p(x)
3つ以上の変数 X1, X2, ・・・, Xn についても
n
p( x1 , x2 ,, xn )   p( xi )
i 1
互いに独立な確率変数 Xi (i=1, 2, ・・・, n) が、平均 mi,
共分散行列 Si を持つとき、
n
Y   X i の平均
i 1
m と共分散行列 S は
n
m   mi
i 1
n
S   Si
i 1
例 24
ひとつの確率変数を a 倍すると、平均は a 倍、分散は a2 倍になる
E (ax )   axp (ax )dx  a  xp ( x)dx  aE ( x)
2
2
2
2




S (ax)  E( ax  E(ax) )  E(a x  E( x) )  a S ( x)
互いに独立な確率変数 Xi(i=1, 2, ・・・, n) を a 個、和をとると
n
m  a mi
i 1
n
S  a  Si
i 1
例 25 ランダムウォーク問題
2次元平面において、時刻0に原点 (0, 0) を出発
1単位時間ごとにどれかひとつの座標を増やすか減らすかする
n 時刻後に原点に戻る確率と戻るまでの平均時間を計算
戻る確率は 1(いつか戻ってくる)、戻るまでの平均時間は無限大
3次元以上の場合は戻ってこない可能性もある