Data Clustering: A Review 4 Similarity Measure (類似性測定) 4月21日(水) 発表者:藤井 丈明 クラスタの定義 同特徴空間上から取り出されたパターン間 の類似性測定が最も重要 パターン間の相違性 特徴空間上に定義された距離の指標 連続的なパターンに焦点 特徴の測定基準 ユークリッド距離 12 d 2 d 2 (x i ,x j ) xi ,k x j ,k k 1 x i x j 2 *ミンコフスキーの測定基準の特別なケース(2次元の場 合) ミンコフスキーの測定基準 1 p d p d p (x i ,x j ) xi ,k x j ,k k 1 x i x j p ユークリッド距離の特徴 ユークリッド距離:一般的に2,3次元内に おいて目的が近似しているかの判断 ミンコフスキーの測定基準 の特徴 ミンコフスキーの測定基準:欠点として、他 を支配する最も大きくスケーリングされた 特徴の傾向が挙げられる 解決 特徴の正規化 特徴の線形相関はマハラノビス距離によっ て歪める事が可能 マハラノビス距離 マハラノビス距離 d M x i ,x d M , xi xj 1 j x i x x 1 j i x T j :異なった重りをそれらの変化に基づく 異なった特徴に割り当て :共分散行列 :列ベクトル :列ベクトル パターンの近接手段 元のパターンセット 近接値のマトリクス 近接手段の発展 ・様々な報告がされていった。(最近の例として、カ ウントに基づく連続した特徴と距離における、名 目上の属性のためのメートル法の変更されたミ ンコフスキーの組み合わせ ) パターンの表現 文字列構造、木構造を用いることでパター ンの表現が可能。 様々な報告がされたが、結果的に劣って いた (1)mutual neighbor distance (MND) 距離測定が考えられた。 s(x i ,x j ) f (x i ,x j , ) :文脈 類似性を測る関数 MND MND(x i ,x j ) NN (x i ,x j ) NN (x j ,x i ) NN :Neighbor Number (2)mutual neighbor distance (MND) C C B A 図4 AにとってBは最も近い NN ( B, A) 1 BにとってAは最も近い MND( A, B) 2 NN ( A, B) 1 BにとってCは2番目 MND( B, C ) 3 NN (C, B) 2 CにとってBは1番目 よってAとBの方が類似 NN ( B, C ) 1 B D A F E 図5 BとCの方が類似 みにくいアヒルの子の定理(1) 醜いアヒルの子と普通のアヒルの子、すな わち、白鳥の子とアヒルの子とは、似通っ た2羽のアヒルの子が似ているのと同じ程 度に似ている 追加情報を使用しない場合、どんなパ ターンも等しく同様である みにくいアヒルの子の定理(2) 概念的なクラスタリングの場合、類似性は が1セット の事前に定義された概念である関数と定義される。 s(x i ,x j ) f (x i ,x j , , ) B A C 図6により例証 *ユークリッド距離はA,B間 の方が少ないが、BとCは同 一円上であるため、BとCの 方が類似している 図6 *概念的な類似性測定は最も一般的な類似性測定。 実践的な問題はセクション5に続く。
© Copyright 2024 ExpyDoc