Data Clustering: A Review

Data Clustering: A Review
4 Similarity Measure
(類似性測定)
4月21日(水)
発表者:藤井 丈明
クラスタの定義
同特徴空間上から取り出されたパターン間
の類似性測定が最も重要
パターン間の相違性
特徴空間上に定義された距離の指標
連続的なパターンに焦点
特徴の測定基準
ユークリッド距離
12
d

2
d 2 (x i ,x j )    xi ,k  x j ,k  
 k 1

 x i x
j 2
*ミンコフスキーの測定基準の特別なケース(2次元の場
合)
ミンコフスキーの測定基準
1 p
d
p

d p (x i ,x j )    xi ,k  x j ,k 
 k 1

 x i x
j p
ユークリッド距離の特徴
ユークリッド距離:一般的に2,3次元内に
おいて目的が近似しているかの判断
ミンコフスキーの測定基準
の特徴
ミンコフスキーの測定基準:欠点として、他
を支配する最も大きくスケーリングされた
特徴の傾向が挙げられる
解決
特徴の正規化
特徴の線形相関はマハラノビス距離によっ
て歪める事が可能
マハラノビス距離
マハラノビス距離
d M x i ,x
d M , 

xi
xj
1
j
  x
i
x
 x
1
j
i
x

T
j
:異なった重りをそれらの変化に基づく
異なった特徴に割り当て
:共分散行列
:列ベクトル
:列ベクトル
パターンの近接手段
元のパターンセット
近接値のマトリクス
近接手段の発展
・様々な報告がされていった。(最近の例として、カ
ウントに基づく連続した特徴と距離における、名
目上の属性のためのメートル法の変更されたミ
ンコフスキーの組み合わせ )
パターンの表現
文字列構造、木構造を用いることでパター
ンの表現が可能。
様々な報告がされたが、結果的に劣って
いた
(1)mutual neighbor distance
(MND)
距離測定が考えられた。
s(x i ,x j )  f (x i ,x j ,  )
 :文脈
類似性を測る関数
MND
MND(x i ,x j )  NN (x i ,x j )  NN (x j ,x i )
NN :Neighbor Number
(2)mutual neighbor distance
(MND)
C
C
B
A
図4
AにとってBは最も近い
NN ( B, A)  1
BにとってAは最も近い MND( A, B)  2
NN ( A, B)  1
BにとってCは2番目
MND( B, C )  3
NN (C, B)  2
CにとってBは1番目 よってAとBの方が類似
NN ( B, C )  1
B
D A
F E
図5
BとCの方が類似
みにくいアヒルの子の定理(1)
醜いアヒルの子と普通のアヒルの子、すな
わち、白鳥の子とアヒルの子とは、似通っ
た2羽のアヒルの子が似ているのと同じ程
度に似ている
追加情報を使用しない場合、どんなパ
ターンも等しく同様である
みにくいアヒルの子の定理(2)
概念的なクラスタリングの場合、類似性は  が1セット
の事前に定義された概念である関数と定義される。
s(x i ,x j )  f (x i ,x j , ,  )
B
A
C
図6により例証
*ユークリッド距離はA,B間
の方が少ないが、BとCは同
一円上であるため、BとCの
方が類似している
図6
*概念的な類似性測定は最も一般的な類似性測定。
実践的な問題はセクション5に続く。