スライド 1

２．文書クラスタリングの問題点

“似ている”の観点が必要
(f.g) 文書に出現する単語が等しい、
文書の記述者が等しい、
文書の作成日が等しい、etc
-クラスタを正確に作れない
-クラスタの名前が正確につけられない

クラスタの個数
３．代表的な手法(K-Means法(K平均法))例
文書１
文書3
文書2
0.9
0.5
0.6
文書4
文書２
1.クラスタの個数をユーザが指定
2.初期クラスタの中心をユーザが指定
(f.g)座標、文書ベクトル
3.各文書とクラスタの中心の距離(類似度)を計算し、
最も近い中心のクラスタに割り当てる
4.クラスタの中心を更新
5.クラスタの中心に変化がなくなるまで、
3～4の処理を繰り返す
３．K-Means法+ユーザの意思

ユーザの意思


must-link：文書1と文書5は同じクラスタになる
cannnot-link：文書2と文書5は同じクラスタにならない
以後、このユーザの意思を“制約”と呼ぶ
文書１
文書3
文書2
0.5
0.9
0.6
文書4
文書5
3.各文書とクラスタの中心の距離(類似度)を計算し、
制約を守っていて且つ最も近い中心のクラスタに割り当てる

Download Report

スライド 1

expydoc.com

Your ExpyDoc