情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論 確率論 事象 e とは、ある確率変数 X の値が x であること: e: X=x 事象 e の確率を p(e), p(X=x), p(x) などと書く。 N 全事象 e1, e2, ….. , eN (つまり事象数)とすると p( e i ) 1 i1 X=a とX=b が同時に起こった場合の確率を同時確率といい、p(a,b)と書く。 条件付確率 ベイズの定理 p(a | b) p(b j | a) p(a,b) p(b) p(a | b j ) p(b j ) p(a) p(a | b j ) p(b j ) iN1p(a | b i )p(bi ) 従属性 p(A,B)>p(A)p(B) が普通だが、これはAが起こればある確からしさでBが起こるような 場合もあるから。 ←→ 排反性 仮にAは起これば必ずBも起こるならBはAに従属するといい、 p(A,B)=p(A)=p(B) 独立性 Aが起こっても次にBが起こるかどうかは影響されない場合、AとBは独立といい、。 p(A,B)=p(A)p(B) 条件付確率 p(a | b) p(a,b) p(b) C+A+B+AB=N a A C a B AB b AB AB p(a, b) p(a | b) N B AB B AB p(b) N ベイズの定理の使い方(文書分類への応用 その1) インターネット上の文書(原理的には無限個ある)がいくつかの集合 に分類されている。ターム t を含む文書が C1とC2のどちらの分類 に属するかどうかを予測したい。つまり確率 p(C1|t) と p(C2|t)を求め たい。 しかし、これは無限の試行におけるモデルの値なので、観測 したデータを用いて推定するしかない。 そこで、サンプルとして集めた文書集合における確率を使って推定 する。まず、文書集合を分類し、 p(C1|t) と p(C2|t)の推定を求め、そ の大きい方を選ぶことにする。ところで、 p(C|t)=p(C,t)/p(t) である。 我々が注目しているのはtそのものではなく、Cとtの関係だから、 p(C,t)にだけ注目して最大のものを求めればよい。 p(C,t)=p(t|C)p(C)である。分類 C1,C2 に属する文書がターム t を含 む確率 p(t|C1),p(t|C2) は数えれば求まる。文書が分類 C に属する 確率p(C)は、 (分類Cの文書数)/(サンプル文書集合の全文書数) により求められる。 これは、p(C)が大きいなら、p(t|C)が少々小さくてもCと推定したほう がよいかもしれないという直観に対応する。 ベイズの定理の使い方(文書分類への応用 その2) このような考え方はベイズの定理で定式化できる。 p(t | C)p(C) p(C | t) p(t) さて、ベイズの定理の右辺がサンプルデータから計算できるので p(C1|t) と p(C2|t) うち最大のほうの正しい分類と考えることができる。 これは簡単なことだが、次のように書く。 C1,C2 のうち t によって分類される確率の高い分類 C-max argmax p(Ci| t) argmax p(t | Ci)p(Ci) i i argmax f(x) とは、f(x)を最大にする x を意味する ベイズの定理の使い方(文書分類への応用 その3) 今まではターム1個による分類だったが、複数のタームt1,t2,…,tn による分類に拡張しよう。 C-max=argmax p(Ci|t1,t2,.…,tn) ターム数が多いと t1,t2,.…,tn がすべて含まれる文書がサンプル文 書集合中に存在しないかもしれない。そこで、 argmax p(Ci|t1,t2,.…,tn)=argmax p(t1,t2,…,tn|Ci)p(Ci) しかし、このままでは事態は同じ。そこで、各タームの出現が独立で あるとすると argmax p(t1|Ci)p(t2|Ci)…p(tn|Ci)p(Ci) さらに log をとると arg max(logP(t1 | Ci ) log P(t2 | Ci ) ... log P(Ci )) i を最大化。これは小さな数の掛け算による0への丸めが起こらない のでよい。 p(tj|Ci) はサンプル文書集合から容易に計算できる。 母集団と大数の法則 標本と母集団: 我々が観測により得たデータはあくまでも背後にあ る膨大な確率的集合すなわち母集団の標本 (sample)である。 確率や統計は観測により得られたデータから母集団の統計的性質 を推測することである。 大数の法則 標本数が増えると、標本の平均値が母集団の平均値に近づく(確率 収束する) 問題:もし、ふたつの事象が完全に従属(例えば、姉が選んだ服を1 年後にかならず妹も選ぶから、姉の服Xと妹の1年後の服Yは従属) の場合、p(X)とp(Y)はどうような関係になるか? 平均と分散 サンプル集合における平均:母集団の期待値 E(X) xp(X x) xp(x) xX (母集団の)分散 V(X) E( (x - E(X)) ) E(X 2 ) - E(X) 2 サンプル集合における変動 サンプル集合における分散: 標準偏差: xX 2 分散 S(X) N i 1 p(x i )( x i - V(x) S(x) N -1 1 N 2 x p(x )) i i N i 1 確率分布 正規分布:最もよく使われる分布 1 ( x ) 2 /(2 2 ) n(x; , ) e 2 いろんな分布の変数Xを多数足し合わせた分布は正規分布に近づく。 (中心極限定理という) 二項分布(binominal distribution) b(r; n, p) r n-r C p ( 1 p) n r 二項分布は、赤と白の玉が適当な割合 p:1-p で入っている壷からn回玉を取り出 したとき、赤がr回、白が残りn-r回取り出される確率。 二項分布の平均値は np 、分散は np(1-p) である。 二項分布およびその極限であるPoisson分布は頻繁に使われる確立分布である。 エントロピー 事象の散らばり方あるいは random さの尺度 個々の事象(ある確率変数の個別の値)ではなく、ある確率変数の挙動全体 を測る尺度。これをビットを単位とする情報量と呼ぶ。 H(X) p(x) log 2 xX 1 p(x) こうみてもよい。 H(X) E(log 2 1 ) p(X) 問題1: 裏表が等確率ででるコインを投げる場合のエントロピーは? 問題2: 次の図のような通信路の受信側のエントロピーは?ただし、送られ p る0,1は等確率 0 0 0 1 1-p 1-q 1 q 結合エントロピー、条件付エントリピー、相互情報量 複数の確率変数の間にどれだけ相関(あるいは依存関係)があるかを測るために相 互情報量が定義される 結合エントロピー H(X,Y) p(x, y)log 2 p(x, y) xX yY 条件付エントロピー(Xの値が与えられたという条件下でのYのエントロピー) H(Y| X) p(x)H(Y| X x) p(x)[ p(y| x)log 2 p(y| x) ] xX xX p(y,x)log 2 p(y| x) yY xX yY H(X,Y) H(X) H(Y| X) 相互情報量 I(Y;X) H(Y) H(Y| X) H(X) H(Y) H(X,Y) p(x, y) p(x, y)log 2 p(x)p(y) xX, yY X,Yが独立なら I(X;Y)=0, 完全に従属なら、I(X;Y)=H(X) 問題 3:問題2の通信路の入力のエントロピーと出力のエントロピーを求め、さらに相 互情報量を計算せよ。 1 1 p q (1 p q) log 2 p(1 q) 1 1 q p (1 p q) log 2 q(1 p ) 問題3: 問題2の通信路における相互情報量 I(情報源;受信側)を計算せよ。 確率分布 正規分布:最もよく使われる分布 1 ( x )2 /( 2 2 ) P( X x) n(x; , ) e 2 いろんな分布の変数Xを多数足し合わせた分布は正規分布に近づく。 (中心極限定理という) 二項分布(binominal distribution) P( X x ) b(x; n, p) n C x p x (1 p) n-x 二項分布は、赤と白の玉が適当な割合 p:1-p で入っている壷からn回玉を取り出 したとき、赤がr回、白が残りn-r回取り出される確率。 問題: 二項分布の平均値と分散を求めよ。 二項分布およびその極限であるPoisson分布は頻繁に使われる確立分布である。つま り、np=λという一定値にしたまま、nを無限大にした分布。式は、 x P( X x) e x! 問題:Poisson分布の平均と分散を求めよ。 不偏推定、一致性、有効性 確率や統計は観測により得られたデータから母集団の統計的性質 を推測することである。 ある確率変数 x の母集団における統計量を t とする。 一致性:サンプル数を大きくすると、サンプル集合から得られる t の 推定値が 真の(つまり母集団の)t に収束する。 不偏性:このとき、サンプル集合における x の値の平均が t に等し いことを不偏性という。 E(x)=t また、 この性質を満たすE(x) を不偏推定量という。 有効性:いかなる不偏推定量よりも分散が小さい推定量を有効推定 量という。 最尤推定法 確率変数Xのサンプル観測値x1,x2,…,xnが与えられたとき、Xの母集団に おける尤もらしい推定値 t を求める。 サンプルの値が独立だとすると、同時確率は次のようになる。 n p t ( x1, x 2 ,.....,x n ) p t ( x i ) L(t) i1 最尤推定法とは、L(t) (これを尤度と呼ぶ)を最大にするような t の値として 最も尤もらしい t の値 t’ とする。つまり t’= argmax L(t) 実際は、尤度のlogをとって、 t で微分し0とおいて解く。 n log L(t) log p t ( x i ) 0 t i1t 問題:コインの表がn回中x回でた場合の二項分布の表が出る確率を最尤推 定せよ。 問題:正規分布 N ( , 2 ) でサンプル観測値x1,x2,…,xnが与えられたとき の母集団の正規分布の平均値と分散を最尤推定せよ。 尤度比 (likeli hood) ふたつの仮説のうちどちらがより尤もらしいかを調べる。例えば、あ る文書 d がある分類のクラス c に属するか、属さないか ~c はその 確率の比(これを尤度比という)が予め決められた閾値より大きいか 小さいかで決める。実際は、尤度比の対数をとって計算することが多 い。 or L(d) log p(c | d) p(c | d) この式の右辺の確率をさらにベイズの定理で書き換え、計算しやす くする場合もあり。 EMアルゴリズム その1 観測されたサンプルデータから内部状態が一意に特定できない場合 には、最尤推定で母集団のパラメタ-を推定できない。そのような場 合には Expectation & Maximization: 「期待値最大化」,略して EMアルゴリズム と呼ばれる枠組みを用いる。 基本アイデア:観測データ xi について母集団のパラメタ-θをθ’に 更新したときの対数尤度の差を最も大きく増加させる。 log P ' ( x i ) log P ( x i ) log P ( y | x i ) log[ y P ( y | x i ) log[ y P ( x i ) P ' ' ( x i ) P ' ( y, x i ) P ( y | x i ) ] P ( y, x i ) P ' ( y | x i ) P ' ( y, x i ) P (y | xi ) ] P ( y | x i ) log[ ] P ( y, x i ) P ' ( y | x i ) y EMアルゴリズム その2 次の式が成り立つので、第2項は常に正。よって、第1項を最大化す ればよい。 Q(x) P(x)log 0 P(x) x そこで Q( , ') P ( y | x i ) log P '( y | x i ) y とおくと、第1項は Q(θ,θ’)-Q(θ,θ) となるので、結局、Q(θ,θ’) を最大化するようにθ’を 選べばよい。 EMアルゴリズム その3 定式化 1. 2. θに適当な初期値を与える θが収束するまで次のEステップとMステップを繰り返す。 Eステップ:Q(θ,θ’)を計算する。 Mステップ: argmax Q( , ') によってθを更新する。 EMアルゴリズム その4 例 混合分布モデルの推定 M P(x) i Pi ( x ) j1 NM Q( , ') P ( j| x i ) log P '( j, x i ) i1j1 これを最大化する。ラグランジュ未定乗数法という簡単な方法を用いると、s つぎのような結果が得られる。 1 ' j N jP j ( x i ) N i1M jPj ( x i ) j1
© Copyright 2025 ExpyDoc