スライド 1

2.文書クラスタリングの問題点

“似ている”の観点が必要
(f.g) 文書に出現する単語が等しい、
文書の記述者が等しい、
文書の作成日が等しい、etc
-クラスタを正確に作れない
-クラスタの名前が正確につけられない

クラスタの個数
3.代表的な手法(K-Means法(K平均法))例
文書1
文書3
文書2
0.9
0.5
0.6
文書4
文書2
1.クラスタの個数をユーザが指定
2.初期クラスタの中心をユーザが指定
(f.g)座標、文書ベクトル
3.各文書とクラスタの中心の距離(類似度)を計算し、
最も近い中心のクラスタに割り当てる
4.クラスタの中心を更新
5.クラスタの中心に変化がなくなるまで、
3~4の処理を繰り返す
3.K-Means法+ユーザの意思

ユーザの意思


must-link:文書1と文書5は同じクラスタになる
cannnot-link:文書2と文書5は同じクラスタにならない
以後、このユーザの意思を“制約”と呼ぶ
文書1
文書3
文書2
0.5
0.9
0.6
文書4
文書5
3.各文書とクラスタの中心の距離(類似度)を計算し、
制約を守っていて且つ最も近い中心のクラスタに割り当てる