Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn ~5.Clustering techniques~ 院生ゼミ ‘04年4月27日(火曜日) 谷津 哲平 クラスタリング手法の分類 階層型 分割型 ※クラスタリングのためのアルゴリズムの仕様は柔軟性がある Agglomerative vs. divisive アルゴリズムの構造と操作 agglomerative(集塊性の) 各パターンが異なったクラスタにある状態で始まって, 停止基準を満たすまで連続するクラスタを結合させる ボトムアップ divisive(分析的な) すべてのパターンが単一のクラスタにある状態で始まって, 停止基準が満たされるまで分かれながら働く トップダウン Monothetic vs. polythetic 分類 monothetic 一連の二者択一的選択肢を当てはめて,それぞれ 固有の形質,特徴を持った個々の構成要素に細分して ゆく分類体系 polythetic すべての特徴においてパターンの間の距離の計算を し,その距離に基づいて決定 ※ほとんどのアルゴリズムはpolythetic Monothetic vs. polythetic monotheticの例 特徴X1によって2つのグループ に分ける (分割線V) 特徴X2によってさらに分割 (破線H1,H2) 問題点:2のd乗のクラスタを発生させる(d:パターンの次元数) dが大きい場合,クラスタ数が非常に大きくなる Hard vs. fuzzy 出力 hard(確かな) fuzzy(ぼやけた) 操作の間の単一のクラスタと その出力における各パターン を割り当てる 数個のクラスタのメンバー シップの度合いをそれぞれの 入力パターンに割り当てる 変換できる (メンバーシップの最も大きい基準で各パターンをクラスタに割り当てる) Deterministic vs. stochastic 分割型手法 deterministic(決定論の) 「伝統的テクニック」 stochastic(確率的な) + 「ランダムサーチ」 2乗された誤差関数を最適化 Incremental vs. non-incremental データの数 incremental(増加的な) Non-incremental(非増加的な) クラスタリングするように設定されたパターンが大きいと問題 実行時間やメモリースペースの制約がアルゴリズムの構造 に影響する Incremental vs. non-incremental 初期のクラスタリング方法論 大きいデータセットでは働かない データマイニング到来後 パターンセットを通るスキャンの 数を最小にする 実行の間に調べられたパターン の数を減らす アルゴリズムの操作に使用される データ構造のサイズを減らす クラスタリング アルゴリズムの 開発を促進
© Copyright 2024 ExpyDoc