2.文書クラスタリングの問題点 “似ている”の観点が必要 (f.g) 文書に出現する単語が等しい、 文書の記述者が等しい、 文書の作成日が等しい、etc -クラスタを正確に作れない -クラスタの名前が正確につけられない クラスタの個数 3.代表的な手法(K-Means法(K平均法))例 文書1 文書3 文書2 0.9 0.5 0.6 文書4 文書2 1.クラスタの個数をユーザが指定 2.初期クラスタの中心をユーザが指定 (f.g)座標、文書ベクトル 3.各文書とクラスタの中心の距離(類似度)を計算し、 最も近い中心のクラスタに割り当てる 4.クラスタの中心を更新 5.クラスタの中心に変化がなくなるまで、 3~4の処理を繰り返す 3.K-Means法+ユーザの意思 ユーザの意思 must-link:文書1と文書5は同じクラスタになる cannnot-link:文書2と文書5は同じクラスタにならない 以後、このユーザの意思を“制約”と呼ぶ 文書1 文書3 文書2 0.5 0.9 0.6 文書4 文書5 3.各文書とクラスタの中心の距離(類似度)を計算し、 制約を守っていて且つ最も近い中心のクラスタに割り当てる
© Copyright 2025 ExpyDoc