第8章次元縮約 pLSIについて

第8章　次元縮約
pLSIについて
7月1日
鈴木直也
次元縮約
• 現実のデータ解析では、動もするとデータを
表すベクトルが非常に高次元になります。
→　ベクトル間の距離が離れている。
→妥当な結果を得られない
次元が多くて困っているなら減らせばよい。
→ただ減らせばよいというものではなくできるだ
け元の形を残して減らしていく。
射影
ｎ次元空間の点をｋ次元空間に変換する処理を射影と
いいます。ここでｎ次元のデータがｍ個あるとき、こ
のデータセットは行をデータに対応させるｍ×ｎの行
列Ｘで表現できます。
データをｋ次元に射影する1つの方法が、ｎ×ｋの行列
Ａを掛けることです。このときＸＡの行ベクトルがｋ次
に縮約されたデータのベクトルになります。次元縮
約を行うには多数あるＡの中から、何らかの条件を
満たしたＡを求める必要があります。
特異値分解
次元縮約を行う標準的な手法です。特異値分解では
m×nの行列Xを３つの行列　の積に分解しま
U , , V t
す。
X
m×ｎ

U
m×r


r×r

V
t
r×n
図8.1：特異値分解
∑は対角行列で、i行i列の対角要素を　と置くと
i
1  2  3   r  0
の関係があります。
ここで行列Ｖを右から掛けると
X

V

U


r×r
m×ｎ
m×r
n×r
となります。
ここでＸＶはm×ｒの行列であり、元のm×nの行
列が縮約されたことになります。
次元縮約の結論
•U
の列ベクトルはＸの列ベクトルの張る空間
の正規直行基底である。
t
• V　の行ベクトルはＸの行ベクトルの張る空間
の正規直行基底である。
t
V
• 　は　の　番目の列ベクトル（あるいは　i
U
i
i
の　番目の行ベクトル）の基底としての重要
度を表す。
ＬＳＩ
これは次元縮約の手法の1つですが、特異値
分解そのものです。ベクトル空間モデルで表
現された文書ベクトルを特異値分解によって
次元縮約する場合にＬＳＩと呼びます。
文書ベクトルの各要素に重みをつける必要が
ある
→理論的な弱点
ｐLSI
文書ベクトルを想定した次元縮約の手法。
クラスタリングに直接利用することもできます。
文書ベクトルに重みも必要なく、頻度を要素と
するベクトルでかまわない。
Ａｓｐｅｃｔモデル
文書と単語を結ぶつける潜在的なクラスを想定したモデル。
文書ｄと単語ｗの出現をクラスｚを用いて以下のようにモデル化
をする。
p( w | d )   p( w | z ) p ( z | d )
z
ベイズの定理から
p( z ) p(d | z )
p( z | d ) 
p(d )
p(d, w)  p(d) p(w| d)
また、　なので
続き
p(d , w)   p( z) p(w | z) p(d | z)　（8.1）
となります。
z
Ｋ次に縮約する場合クラスをＫ個に設定します。
z1 , z2 , z3 , zK
文書ｄに対して ( p ( z1 , d ), p ( z2 , d ), p ( z K , d ))
が縮約されたベクトルとなります。
潜在的なクラスをそのままクラスタリングにおけ
るクラスと捉える。
→次元縮約の結果がクラスタリングを表す。
つまり、以下の式でデータｄのクラスタ番号が得
られます。
arg max p ( d , z k )  arg max p ( z k ) p ( d | z k )
K
K
p ( z ), p ( w | z ), p (d | z )
を求めるにおいて一般的
な式を求める必要はない。
D  {d1 , d2 ,, d N }
与えられた文書集合が　で
それに関した単語の集合がW  {w1 , w2 , , wm }
p ( zk )
である場合、各ｋに対する　、各ｋとｍに対
p ( d n | zk )
p ( wm | zk )
する　、各ｋとｎに対する
が求まればよい。
→全部でK(1+M+N)個のパラメータを求める。
未知数（パラメータ）
パラメータは最尤法で求めることができる。
n(d , w)
文書ｄに含まれる単語ｗの数を　で表す
と対数尤度関数Ｌは以下になります。
N
M
L   n(di , w j ) log p(di , w j )
i 1 j 1
式8.1より
N
M
 K

L   n(di , wj )log p   p( zk ) p(wi | zk ) p(di | zk ) 　（8.2）
i 1 j 1
 k 1

Ｌを最大化するパラメータを求める
1
→ＥＭアルゴリズム　を用いる。
ここで尤度関数に隠れ変数ｚが
埋め込まれているのでＱ関数は
直接求められる。
＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
*1：混合分布モデル参照
ｚの分布
ｚ以外のパラメータを固定したときのｚの分布を求める。
→つまり p ( z | d , w)
Aspectモデルでは p (d , w, z )  p ( z ) p ( w | z ) p (d | z )
が定義されているので
p(d , w, zk )
p ( zk ) p ( w | zk ) p ( d | zk )
p ( zk | d , w) 
 K
p (d , w)
 p ( zk ) p ( w | zk ) p (d | zk )
k 1
続き
p ( z k | d i , w j )  Qijk
簡略化のために　と置くと
Qijk(t 1) 
p ( zk ) ( t ) p ( w | zk ) ( t ) p ( d | zk ) ( t )
K
(t )
(t )
(t )
p
(
z
)
p
(
w
|
z
)
p
(
d
|
z
)
 k 1 k
k
k
となります。
ｚを固定した場合
Qijk
ｚを固定つまり　を固定したときのその他のパラ
メータを求める。
N
M
 K

L   n(di , w j ) log   p( zk ) p( w j | zk ) p(di | zk ) 　(8.3)
i 1 j 1
 k 1

 K
p ( zk ) p ( w j | z k ) p ( d i | z k ) 
  n(di , w j ) log   Qijk
(8.4)
　
Qijk
i 1 j 1
 k 1

N M
K
p ( zk ) p ( w j | z k ) p ( d i | z k )
1
  n(di , w j ) Qijk log
(8.5)
Qijk
i 1 j 1
k 1
N
M
＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
＊１：Jensenの不等式より
続き
さらに変形して
N
M
K
L   n(d i , w j ) Qijk log  p ( zk ) p ( w j | zk ) p (d i | zk )  i 1 j 1
N
M
k 1
K
 n(d i , w j ) Qijk log Qijk i 1 j 1
k 1
第2項は定数になる。
→第1項を再びＬと置く
ラグランジュの未定乗数法の利用
前式よりＬの最大化は
  N p ( d i , zk )  1
 i 1
 M p( w , z )  1

i
k
 j 1
 K
  k 1 p ( zk )  1
の関係があるのでラグランジュの未定乗数法を利
用してとける。
K
N
M
M





 K
L    k  1   p ( d i | z k )     k  1   p ( w j | zk )     1   p ( zk ) 
k 1
j 1
j 1
 i 1
 k 1 



p(di | zk )  uik , p ( w j | zk )  v jk , p ( zk )  wk
uik , v jk , wk
とおいて上記の式を　で偏微分して極値問題を解く
uik
まず、　を解きます。

M
j 1
n ( d i , w j ) Q ijk
u ik
よって
u ik 

M
j 1
k  0
n ( d i , w j ) Q ijk
k
両辺をiに関して和をとると
N
N
 uik 
１
i 1
M
 n(d , w )Q
i
i 1 j 1
k
j
ijk
よって前式は
N M
 k   n(di , w j )Qijk
以上より
i 1 j 1
M
 n(d , w )Q
i
j
ijk
j 1
N M
uik  p (di , zk ) 
 n(d , w )Q
i
j
i 1 j 1
更新式の形で書くと
M
(t )
n
(
d
,
w
)
Q
 i j ijk
p ( d i , zk ) ( t ) 
j 1
N M
(t )
n
(
d
,
w
)
Q
 i j ijk
i 1 j 1
ijk
v jk , wk
同様に　でそれぞれ偏微分を行うと以下
の式を得られます。
N
p ( w j , zk ) ( t ) 
(t )
n
(
d
,
w
)
Q
 i j ijk
i 1
N M
(t )
ijk
 n(d , w )Q
i
j
i 1 j 1
N
M
(t )
n
(
d
,
w
)
Q
 i j ijk
(t )
p ( zk ) 
i 1 j 1
K N M
(t )
n
(
d
,
w
)
Q
 i j ijk
k 1 i 1 j 1

Download Report