第8章 次元縮約
pLSIについて
7月1日
鈴木直也
次元縮約
• 現実のデータ解析では、動もするとデータを
表すベクトルが非常に高次元になります。
→ ベクトル間の距離が離れている。
→妥当な結果を得られない
次元が多くて困っているなら減らせばよい。
→ただ減らせばよいというものではなくできるだ
け元の形を残して減らしていく。
射影
n次元空間の点をk次元空間に変換する処理を射影と
いいます。ここでn次元のデータがm個あるとき、こ
のデータセットは行をデータに対応させるm×nの行
列Xで表現できます。
データをk次元に射影する1つの方法が、n×kの行列
Aを掛けることです。このときXAの行ベクトルがk次
に縮約されたデータのベクトルになります。次元縮
約を行うには多数あるAの中から、何らかの条件を
満たしたAを求める必要があります。
特異値分解
次元縮約を行う標準的な手法です。特異値分解では
m×nの行列Xを3つの行列 の積に分解しま
U , , V t
す。
X
m×n
U
m×r
r×r
V
t
r×n
図8.1:特異値分解
∑は対角行列で、i行i列の対角要素を と置くと
i
1 2 3 r 0
の関係があります。
ここで行列Vを右から掛けると
X
V
U
r×r
m×n
m×r
n×r
となります。
ここでXVはm×rの行列であり、元のm×nの行
列が縮約されたことになります。
次元縮約の結論
•U
の列ベクトルはXの列ベクトルの張る空間
の正規直行基底である。
t
• V の行ベクトルはXの行ベクトルの張る空間
の正規直行基底である。
t
V
• は の 番目の列ベクトル(あるいは i
U
i
i
の 番目の行ベクトル)の基底としての重要
度を表す。
LSI
これは次元縮約の手法の1つですが、特異値
分解そのものです。ベクトル空間モデルで表
現された文書ベクトルを特異値分解によって
次元縮約する場合にLSIと呼びます。
文書ベクトルの各要素に重みをつける必要が
ある
→理論的な弱点
pLSI
文書ベクトルを想定した次元縮約の手法。
クラスタリングに直接利用することもできます。
文書ベクトルに重みも必要なく、頻度を要素と
するベクトルでかまわない。
Aspectモデル
文書と単語を結ぶつける潜在的なクラスを想定したモデル。
文書dと単語wの出現をクラスzを用いて以下のようにモデル化
をする。
p( w | d ) p( w | z ) p ( z | d )
z
ベイズの定理から
p( z ) p(d | z )
p( z | d )
p(d )
p(d, w) p(d) p(w| d)
また、 なので
続き
p(d , w) p( z) p(w | z) p(d | z) (8.1)
となります。
z
K次に縮約する場合クラスをK個に設定します。
z1 , z2 , z3 , zK
文書dに対して ( p ( z1 , d ), p ( z2 , d ), p ( z K , d ))
が縮約されたベクトルとなります。
潜在的なクラスをそのままクラスタリングにおけ
るクラスと捉える。
→次元縮約の結果がクラスタリングを表す。
つまり、以下の式でデータdのクラスタ番号が得
られます。
arg max p ( d , z k ) arg max p ( z k ) p ( d | z k )
K
K
p ( z ), p ( w | z ), p (d | z )
を求めるにおいて一般的
な式を求める必要はない。
D {d1 , d2 ,, d N }
与えられた文書集合が で
それに関した単語の集合がW {w1 , w2 , , wm }
p ( zk )
である場合、各kに対する 、各kとmに対
p ( d n | zk )
p ( wm | zk )
する 、各kとnに対する
が求まればよい。
→全部でK(1+M+N)個のパラメータを求める。
未知数(パラメータ)
パラメータは最尤法で求めることができる。
n(d , w)
文書dに含まれる単語wの数を で表す
と対数尤度関数Lは以下になります。
N
M
L n(di , w j ) log p(di , w j )
i 1 j 1
式8.1より
N
M
K
L n(di , wj )log p p( zk ) p(wi | zk ) p(di | zk ) (8.2)
i 1 j 1
k 1
Lを最大化するパラメータを求める
1
→EMアルゴリズム を用いる。
ここで尤度関数に隠れ変数zが
埋め込まれているのでQ関数は
直接求められる。
________________
*1:混合分布モデル参照
zの分布
z以外のパラメータを固定したときのzの分布を求める。
→つまり p ( z | d , w)
Aspectモデルでは p (d , w, z ) p ( z ) p ( w | z ) p (d | z )
が定義されているので
p(d , w, zk )
p ( zk ) p ( w | zk ) p ( d | zk )
p ( zk | d , w)
K
p (d , w)
p ( zk ) p ( w | zk ) p (d | zk )
k 1
続き
p ( z k | d i , w j ) Qijk
簡略化のために と置くと
Qijk(t 1)
p ( zk ) ( t ) p ( w | zk ) ( t ) p ( d | zk ) ( t )
K
(t )
(t )
(t )
p
(
z
)
p
(
w
|
z
)
p
(
d
|
z
)
k 1 k
k
k
となります。
zを固定した場合
Qijk
zを固定つまり を固定したときのその他のパラ
メータを求める。
N
M
K
L n(di , w j ) log p( zk ) p( w j | zk ) p(di | zk ) (8.3)
i 1 j 1
k 1
K
p ( zk ) p ( w j | z k ) p ( d i | z k )
n(di , w j ) log Qijk
(8.4)
Qijk
i 1 j 1
k 1
N M
K
p ( zk ) p ( w j | z k ) p ( d i | z k )
1
n(di , w j ) Qijk log
(8.5)
Qijk
i 1 j 1
k 1
N
M
_______________
*1:Jensenの不等式より
続き
さらに変形して
N
M
K
L n(d i , w j ) Qijk log p ( zk ) p ( w j | zk ) p (d i | zk ) i 1 j 1
N
M
k 1
K
n(d i , w j ) Qijk log Qijk i 1 j 1
k 1
第2項は定数になる。
→第1項を再びLと置く
ラグランジュの未定乗数法の利用
前式よりLの最大化は
N p ( d i , zk ) 1
i 1
M p( w , z ) 1
i
k
j 1
K
k 1 p ( zk ) 1
の関係があるのでラグランジュの未定乗数法を利
用してとける。
K
N
M
M
K
L k 1 p ( d i | z k ) k 1 p ( w j | zk ) 1 p ( zk )
k 1
j 1
j 1
i 1
k 1
p(di | zk ) uik , p ( w j | zk ) v jk , p ( zk ) wk
uik , v jk , wk
とおいて上記の式を で偏微分して極値問題を解く
uik
まず、 を解きます。
M
j 1
n ( d i , w j ) Q ijk
u ik
よって
u ik
M
j 1
k 0
n ( d i , w j ) Q ijk
k
両辺をiに関して和をとると
N
N
uik
1
i 1
M
n(d , w )Q
i
i 1 j 1
k
j
ijk
よって前式は
N M
k n(di , w j )Qijk
以上より
i 1 j 1
M
n(d , w )Q
i
j
ijk
j 1
N M
uik p (di , zk )
n(d , w )Q
i
j
i 1 j 1
更新式の形で書くと
M
(t )
n
(
d
,
w
)
Q
i j ijk
p ( d i , zk ) ( t )
j 1
N M
(t )
n
(
d
,
w
)
Q
i j ijk
i 1 j 1
ijk
v jk , wk
同様に でそれぞれ偏微分を行うと以下
の式を得られます。
N
p ( w j , zk ) ( t )
(t )
n
(
d
,
w
)
Q
i j ijk
i 1
N M
(t )
ijk
n(d , w )Q
i
j
i 1 j 1
N
M
(t )
n
(
d
,
w
)
Q
i j ijk
(t )
p ( zk )
i 1 j 1
K N M
(t )
n
(
d
,
w
)
Q
i j ijk
k 1 i 1 j 1
© Copyright 2026 ExpyDoc