「データ学習アルゴリズム」 報告者 佐々木 稔 2003年4月23日 第1章 学習と確率 1.1 学習とは 1.2 確率変数と情報科学 1.3 確率と推論 1.4 確率変数の距離 確率と推論 X ( X1 , X 2 ,, X M ) Y (Y1 , Y2 ,, YN ) X と Y の組 ( X , Y ) ( X1 , X 2 ,, X M , Y1 , Y2 ,, YN ) X=x, Y=y が同時に成り立つ相対的な割合 p( x, y) p( x1 , x2 ,, xM , y1 , y2 ,, y N ) 同時密度関数 例 16 テレビの音声を X、映像を Y とすると、 同時密度関数は音声と映像がどのような 組み合わせで出現するかを表す。 音から映像,映像から音を想像できる 例 17 英文に現れる他動詞と目的語が確率変数をなす 他動詞を X、目的語を Y とする 同時密度関数 p(x, y) は、 他動詞を X、目的語を Y の共起しやすさ 2つの目的語について、 p( x, y ) p( x, y ) 1 2 x が大きいほど、y1 と y2 が似ていると考えられる 推論と条件付き確率 確率変数 (X, Y) の同時密度関数 p(x, y) p(x, y) が既知のとき、周辺密度関数 p(x), p(y) p( x) p( x, y)dy y p( y ) p( x, y )dx x X=x であるとき、Y の条件付き確率密度関数 p(y|x) p( y | x) p ( x, y ) y p ( x, y ) p ( x) p( x, y )dy p(x) = 0 となる x については、p(y|x) は定義されない ベイズの定理 p( x, y) p( y | x) p( x) p( x | y) p( y) 例 18 推論システム 入力 xR M 何かをもとに何かを予測 から、出力 y R を答える N 音声認識システム ・・・ 音声信号から音韻や単語を推論 文字認識システム ・・・ 文字画像から文字を推論 時系列予測システム ・・・ 過去の経済指標から未来を推論 例 19 p(x) = 0 は実問題においては問題が生じる 音声、文字、画像は高次元空間で定義され、広い領域で p ( x) 0 p(x) が 0 に近いところでは、 正確な p(y|x) が得難い 例 20 ぼやけた画像から本当の星の姿を知る 本当の姿 X、ぼやけた画像 Y 望遠鏡で画像が劣化する過程 p(y|x) p( y | x) exp(( y f ( x))2 ) f(x) : レンズで画像の高周波成分が劣化する関数 星の姿の出現しやすさ p( x) exp( g ( x)) と推定されるとき、 p( y | x) p( x) exp(( y f ( x)) g ( x)) p( x | y ) p( y ) p( y ) 2 これより、 ( y f ( x))2 g ( x) を最大にする x が星の姿の推定値となる 例 21 文字画像の空間 RM のパターンを認識する問題 i 番目の文字が出現する確率 p(i) 文字の種類が分かっているときの密度関数 p(x|i) p ( x | i ) p (i ) p (i | x) p( x) p ( x | i ) p (i ) N j 1 p( x | j ) p( j ) 例 22 2つの推論「X→Y」、「Y→Z」の合成 3つの確率変数 (X, Y, Z) の同時確率密度関数 p(X, Y, Z) p( z | x, y) p( y | x)dy p( z | x) p(z|x, y) が x に依存しないとき、p(z|x, y) = p(z|y) p( z | x) p( y | x)dy p( z | x) X から Z を推論するとき、媒介する 確率変数 Y が少なからず必要 回帰関数 条件付き確率密度関数 p(y|x) について、回帰関数 r(x) を定義 yp( x, y)dy r ( x) E (Y | x) yp( y | x)dy p( x, y)dy 関数 r(x) は、X=x での y の平均値 補題 1 同時確率密度関数 p(x, y)、回帰関数 r(x) RM から RN への関数 s(x) の汎関数 L(s) を定義 L( s ) y s( x) p( x, y )dxdy 2 L(s) が最小となるのは、 p( x) 0 となる任意の x について s ( x) r ( x ) のときに限る (証明) L(s) に r(x) を挿入して展開すると、 L( s) y r ( x) r ( x) s( x) p( x, y )dxdy 2 y r ( x) ( y r ( x))( r ( x) s( x)) r ( x) s( x) 2 2 p( x, y)dxdy ここで、 ( y r ( x))( r ( x) s( x)) p( x, y)dxdy (r ( x) s ( x)) yp ( y | x) p( x)dxdy (r ( x) s ( x)) r ( x) p( x, y )dxdy (r ( x) s( x)) r ( x) p( x)dx (r ( x) s( x)) r ( x) p( x)dx 0 したがって、 L( s) y r ( x) p( x, y )dxdy r ( x) s( x) p( x)dx 2 これより、s(x) = r(x) のとき L(s) は最小となる 2 (証明終わり) 例 23 g(x) を x の生起確率、 q(y|x) を推論確率、 r(x) を平均推論 入力 x が与えられたときの 出力のばらつきを表す関数 v(x) 入力 x q(y|x)<small? x は知らない 入力である v(x)>large? y について の推論困難 v( x) y r ( x) q( y | x)dy 2 y はおおよそ r(x) である 独立性 p(x, y) = p(x)p(y) が成り立つとき、 2つの確率変数 X、Y は互いに独立 X、Y は互いに独立であるとき、 p(y|x) = p(y), p(x|y) = p(x) 3つ以上の変数 X1, X2, ・・・, Xn についても n p( x1 , x2 ,, xn ) p( xi ) i 1 互いに独立な確率変数 Xi (i=1, 2, ・・・, n) が、平均 mi, 共分散行列 Si を持つとき、 n Y X i の平均 i 1 m と共分散行列 S は n m mi i 1 n S Si i 1 例 24 ひとつの確率変数を a 倍すると、平均は a 倍、分散は a2 倍になる E (ax ) axp (ax )dx a xp ( x)dx aE ( x) 2 2 2 2 S (ax) E( ax E(ax) ) E(a x E( x) ) a S ( x) 互いに独立な確率変数 Xi(i=1, 2, ・・・, n) を a 個、和をとると n m a mi i 1 n S a Si i 1 例 25 ランダムウォーク問題 2次元平面において、時刻0に原点 (0, 0) を出発 1単位時間ごとにどれかひとつの座標を増やすか減らすかする n 時刻後に原点に戻る確率と戻るまでの平均時間を計算 戻る確率は 1(いつか戻ってくる)、戻るまでの平均時間は無限大 3次元以上の場合は戻ってこない可能性もある
© Copyright 2025 ExpyDoc