第8章 次元縮約 pLSIについて 7月1日 鈴木直也 次元縮約 • 現実のデータ解析では、動もするとデータを 表すベクトルが非常に高次元になります。 → ベクトル間の距離が離れている。 →妥当な結果を得られない 次元が多くて困っているなら減らせばよい。 →ただ減らせばよいというものではなくできるだ け元の形を残して減らしていく。 射影 n次元空間の点をk次元空間に変換する処理を射影と いいます。ここでn次元のデータがm個あるとき、こ のデータセットは行をデータに対応させるm×nの行 列Xで表現できます。 データをk次元に射影する1つの方法が、n×kの行列 Aを掛けることです。このときXAの行ベクトルがk次 に縮約されたデータのベクトルになります。次元縮 約を行うには多数あるAの中から、何らかの条件を 満たしたAを求める必要があります。 特異値分解 次元縮約を行う標準的な手法です。特異値分解では m×nの行列Xを3つの行列 の積に分解しま U , , V t す。 X m×n U m×r r×r V t r×n 図8.1:特異値分解 ∑は対角行列で、i行i列の対角要素を と置くと i 1 2 3 r 0 の関係があります。 ここで行列Vを右から掛けると X V U r×r m×n m×r n×r となります。 ここでXVはm×rの行列であり、元のm×nの行 列が縮約されたことになります。 次元縮約の結論 •U の列ベクトルはXの列ベクトルの張る空間 の正規直行基底である。 t • V の行ベクトルはXの行ベクトルの張る空間 の正規直行基底である。 t V • は の 番目の列ベクトル(あるいは i U i i の 番目の行ベクトル)の基底としての重要 度を表す。 LSI これは次元縮約の手法の1つですが、特異値 分解そのものです。ベクトル空間モデルで表 現された文書ベクトルを特異値分解によって 次元縮約する場合にLSIと呼びます。 文書ベクトルの各要素に重みをつける必要が ある →理論的な弱点 pLSI 文書ベクトルを想定した次元縮約の手法。 クラスタリングに直接利用することもできます。 文書ベクトルに重みも必要なく、頻度を要素と するベクトルでかまわない。 Aspectモデル 文書と単語を結ぶつける潜在的なクラスを想定したモデル。 文書dと単語wの出現をクラスzを用いて以下のようにモデル化 をする。 p( w | d ) p( w | z ) p ( z | d ) z ベイズの定理から p( z ) p(d | z ) p( z | d ) p(d ) p(d, w) p(d) p(w| d) また、 なので 続き p(d , w) p( z) p(w | z) p(d | z) (8.1) となります。 z K次に縮約する場合クラスをK個に設定します。 z1 , z2 , z3 , zK 文書dに対して ( p ( z1 , d ), p ( z2 , d ), p ( z K , d )) が縮約されたベクトルとなります。 潜在的なクラスをそのままクラスタリングにおけ るクラスと捉える。 →次元縮約の結果がクラスタリングを表す。 つまり、以下の式でデータdのクラスタ番号が得 られます。 arg max p ( d , z k ) arg max p ( z k ) p ( d | z k ) K K p ( z ), p ( w | z ), p (d | z ) を求めるにおいて一般的 な式を求める必要はない。 D {d1 , d2 ,, d N } 与えられた文書集合が で それに関した単語の集合がW {w1 , w2 , , wm } p ( zk ) である場合、各kに対する 、各kとmに対 p ( d n | zk ) p ( wm | zk ) する 、各kとnに対する が求まればよい。 →全部でK(1+M+N)個のパラメータを求める。 未知数(パラメータ) パラメータは最尤法で求めることができる。 n(d , w) 文書dに含まれる単語wの数を で表す と対数尤度関数Lは以下になります。 N M L n(di , w j ) log p(di , w j ) i 1 j 1 式8.1より N M K L n(di , wj )log p p( zk ) p(wi | zk ) p(di | zk ) (8.2) i 1 j 1 k 1 Lを最大化するパラメータを求める 1 →EMアルゴリズム を用いる。 ここで尤度関数に隠れ変数zが 埋め込まれているのでQ関数は 直接求められる。 ________________ *1:混合分布モデル参照 zの分布 z以外のパラメータを固定したときのzの分布を求める。 →つまり p ( z | d , w) Aspectモデルでは p (d , w, z ) p ( z ) p ( w | z ) p (d | z ) が定義されているので p(d , w, zk ) p ( zk ) p ( w | zk ) p ( d | zk ) p ( zk | d , w) K p (d , w) p ( zk ) p ( w | zk ) p (d | zk ) k 1 続き p ( z k | d i , w j ) Qijk 簡略化のために と置くと Qijk(t 1) p ( zk ) ( t ) p ( w | zk ) ( t ) p ( d | zk ) ( t ) K (t ) (t ) (t ) p ( z ) p ( w | z ) p ( d | z ) k 1 k k k となります。 zを固定した場合 Qijk zを固定つまり を固定したときのその他のパラ メータを求める。 N M K L n(di , w j ) log p( zk ) p( w j | zk ) p(di | zk ) (8.3) i 1 j 1 k 1 K p ( zk ) p ( w j | z k ) p ( d i | z k ) n(di , w j ) log Qijk (8.4) Qijk i 1 j 1 k 1 N M K p ( zk ) p ( w j | z k ) p ( d i | z k ) 1 n(di , w j ) Qijk log (8.5) Qijk i 1 j 1 k 1 N M _______________ *1:Jensenの不等式より 続き さらに変形して N M K L n(d i , w j ) Qijk log p ( zk ) p ( w j | zk ) p (d i | zk ) i 1 j 1 N M k 1 K n(d i , w j ) Qijk log Qijk i 1 j 1 k 1 第2項は定数になる。 →第1項を再びLと置く ラグランジュの未定乗数法の利用 前式よりLの最大化は N p ( d i , zk ) 1 i 1 M p( w , z ) 1 i k j 1 K k 1 p ( zk ) 1 の関係があるのでラグランジュの未定乗数法を利 用してとける。 K N M M K L k 1 p ( d i | z k ) k 1 p ( w j | zk ) 1 p ( zk ) k 1 j 1 j 1 i 1 k 1 p(di | zk ) uik , p ( w j | zk ) v jk , p ( zk ) wk uik , v jk , wk とおいて上記の式を で偏微分して極値問題を解く uik まず、 を解きます。 M j 1 n ( d i , w j ) Q ijk u ik よって u ik M j 1 k 0 n ( d i , w j ) Q ijk k 両辺をiに関して和をとると N N uik 1 i 1 M n(d , w )Q i i 1 j 1 k j ijk よって前式は N M k n(di , w j )Qijk 以上より i 1 j 1 M n(d , w )Q i j ijk j 1 N M uik p (di , zk ) n(d , w )Q i j i 1 j 1 更新式の形で書くと M (t ) n ( d , w ) Q i j ijk p ( d i , zk ) ( t ) j 1 N M (t ) n ( d , w ) Q i j ijk i 1 j 1 ijk v jk , wk 同様に でそれぞれ偏微分を行うと以下 の式を得られます。 N p ( w j , zk ) ( t ) (t ) n ( d , w ) Q i j ijk i 1 N M (t ) ijk n(d , w )Q i j i 1 j 1 N M (t ) n ( d , w ) Q i j ijk (t ) p ( zk ) i 1 j 1 K N M (t ) n ( d , w ) Q i j ijk k 1 i 1 j 1
© Copyright 2024 ExpyDoc