第8章 次元縮約 pLSIについて

第8章 次元縮約
pLSIについて
7月1日
鈴木直也
次元縮約
• 現実のデータ解析では、動もするとデータを
表すベクトルが非常に高次元になります。
→ ベクトル間の距離が離れている。
→妥当な結果を得られない
次元が多くて困っているなら減らせばよい。
→ただ減らせばよいというものではなくできるだ
け元の形を残して減らしていく。
射影
n次元空間の点をk次元空間に変換する処理を射影と
いいます。ここでn次元のデータがm個あるとき、こ
のデータセットは行をデータに対応させるm×nの行
列Xで表現できます。
データをk次元に射影する1つの方法が、n×kの行列
Aを掛けることです。このときXAの行ベクトルがk次
に縮約されたデータのベクトルになります。次元縮
約を行うには多数あるAの中から、何らかの条件を
満たしたAを求める必要があります。
特異値分解
次元縮約を行う標準的な手法です。特異値分解では
m×nの行列Xを3つの行列 の積に分解しま
U , , V t
す。
X
m×n

U
m×r


r×r

V
t
r×n
図8.1:特異値分解
∑は対角行列で、i行i列の対角要素を と置くと
i
1  2  3   r  0
の関係があります。
ここで行列Vを右から掛けると
X

V

U


r×r
m×n
m×r
n×r
となります。
ここでXVはm×rの行列であり、元のm×nの行
列が縮約されたことになります。
次元縮約の結論
•U
の列ベクトルはXの列ベクトルの張る空間
の正規直行基底である。
t
• V の行ベクトルはXの行ベクトルの張る空間
の正規直行基底である。
t
V
•  は の 番目の列ベクトル(あるいは i
U
i
i
の 番目の行ベクトル)の基底としての重要
度を表す。
LSI
これは次元縮約の手法の1つですが、特異値
分解そのものです。ベクトル空間モデルで表
現された文書ベクトルを特異値分解によって
次元縮約する場合にLSIと呼びます。
文書ベクトルの各要素に重みをつける必要が
ある
→理論的な弱点
pLSI
文書ベクトルを想定した次元縮約の手法。
クラスタリングに直接利用することもできます。
文書ベクトルに重みも必要なく、頻度を要素と
するベクトルでかまわない。
Aspectモデル
文書と単語を結ぶつける潜在的なクラスを想定したモデル。
文書dと単語wの出現をクラスzを用いて以下のようにモデル化
をする。
p( w | d )   p( w | z ) p ( z | d )
z
ベイズの定理から
p( z ) p(d | z )
p( z | d ) 
p(d )
p(d, w)  p(d) p(w| d)
また、 なので
続き
p(d , w)   p( z) p(w | z) p(d | z) (8.1)
となります。
z
K次に縮約する場合クラスをK個に設定します。
z1 , z2 , z3 , zK
文書dに対して ( p ( z1 , d ), p ( z2 , d ), p ( z K , d ))
が縮約されたベクトルとなります。
潜在的なクラスをそのままクラスタリングにおけ
るクラスと捉える。
→次元縮約の結果がクラスタリングを表す。
つまり、以下の式でデータdのクラスタ番号が得
られます。
arg max p ( d , z k )  arg max p ( z k ) p ( d | z k )
K
K
p ( z ), p ( w | z ), p (d | z )
を求めるにおいて一般的
な式を求める必要はない。
D  {d1 , d2 ,, d N }
与えられた文書集合が で
それに関した単語の集合がW  {w1 , w2 , , wm }
p ( zk )
である場合、各kに対する 、各kとmに対
p ( d n | zk )
p ( wm | zk )
する 、各kとnに対する
が求まればよい。
→全部でK(1+M+N)個のパラメータを求める。
未知数(パラメータ)
パラメータは最尤法で求めることができる。
n(d , w)
文書dに含まれる単語wの数を で表す
と対数尤度関数Lは以下になります。
N
M
L   n(di , w j ) log p(di , w j )
i 1 j 1
式8.1より
N
M
 K

L   n(di , wj )log p   p( zk ) p(wi | zk ) p(di | zk )  (8.2)
i 1 j 1
 k 1

Lを最大化するパラメータを求める
1
→EMアルゴリズム を用いる。
ここで尤度関数に隠れ変数zが
埋め込まれているのでQ関数は
直接求められる。
________________
*1:混合分布モデル参照
zの分布
z以外のパラメータを固定したときのzの分布を求める。
→つまり p ( z | d , w)
Aspectモデルでは p (d , w, z )  p ( z ) p ( w | z ) p (d | z )
が定義されているので
p(d , w, zk )
p ( zk ) p ( w | zk ) p ( d | zk )
p ( zk | d , w) 
 K
p (d , w)
 p ( zk ) p ( w | zk ) p (d | zk )
k 1
続き
p ( z k | d i , w j )  Qijk
簡略化のために と置くと
Qijk(t 1) 
p ( zk ) ( t ) p ( w | zk ) ( t ) p ( d | zk ) ( t )
K
(t )
(t )
(t )
p
(
z
)
p
(
w
|
z
)
p
(
d
|
z
)
 k 1 k
k
k
となります。
zを固定した場合
Qijk
zを固定つまり を固定したときのその他のパラ
メータを求める。
N
M
 K

L   n(di , w j ) log   p( zk ) p( w j | zk ) p(di | zk )  (8.3)
i 1 j 1
 k 1

 K
p ( zk ) p ( w j | z k ) p ( d i | z k ) 
  n(di , w j ) log   Qijk
(8.4)
 
Qijk
i 1 j 1
 k 1

N M
K
p ( zk ) p ( w j | z k ) p ( d i | z k )
1
  n(di , w j ) Qijk log
(8.5)
Qijk
i 1 j 1
k 1
N
M
_______________
*1:Jensenの不等式より
続き
さらに変形して
N
M
K
L   n(d i , w j ) Qijk log  p ( zk ) p ( w j | zk ) p (d i | zk )  i 1 j 1
N
M
k 1
K
 n(d i , w j ) Qijk log Qijk i 1 j 1
k 1
第2項は定数になる。
→第1項を再びLと置く
ラグランジュの未定乗数法の利用
前式よりLの最大化は
  N p ( d i , zk )  1
 i 1
 M p( w , z )  1

i
k
 j 1
 K
  k 1 p ( zk )  1
の関係があるのでラグランジュの未定乗数法を利
用してとける。
K
N
M
M





 K
L    k  1   p ( d i | z k )     k  1   p ( w j | zk )     1   p ( zk ) 
k 1
j 1
j 1
 i 1
 k 1 



p(di | zk )  uik , p ( w j | zk )  v jk , p ( zk )  wk
uik , v jk , wk
とおいて上記の式を で偏微分して極値問題を解く
uik
まず、 を解きます。

M
j 1
n ( d i , w j ) Q ijk
u ik
よって
u ik 

M
j 1
k  0
n ( d i , w j ) Q ijk
k
両辺をiに関して和をとると
N
N
 uik 
1
i 1
M
 n(d , w )Q
i
i 1 j 1
k
j
ijk
よって前式は
N M
 k   n(di , w j )Qijk
以上より
i 1 j 1
M
 n(d , w )Q
i
j
ijk
j 1
N M
uik  p (di , zk ) 
 n(d , w )Q
i
j
i 1 j 1
更新式の形で書くと
M
(t )
n
(
d
,
w
)
Q
 i j ijk
p ( d i , zk ) ( t ) 
j 1
N M
(t )
n
(
d
,
w
)
Q
 i j ijk
i 1 j 1
ijk
v jk , wk
同様に でそれぞれ偏微分を行うと以下
の式を得られます。
N
p ( w j , zk ) ( t ) 
(t )
n
(
d
,
w
)
Q
 i j ijk
i 1
N M
(t )
ijk
 n(d , w )Q
i
j
i 1 j 1
N
M
(t )
n
(
d
,
w
)
Q
 i j ijk
(t )
p ( zk ) 
i 1 j 1
K N M
(t )
n
(
d
,
w
)
Q
 i j ijk
k 1 i 1 j 1