Data Clustering: A Review

Data Clustering: A Review
A.K. Jain, M.N. Murty, P.J. Flynn
院生ゼミ '04年4月13日(火曜日)
新納浩幸
本日の私の担当
第1章: Introduction
1.1 Motivation
1.2 Component of a Clustering Task
1.3 The User's Dilemma and the Role of Expertise
1.4 History
1.5 Outline
第2章: Definitions and Notations
クラスタリングとは
似たものどうしに分類すること
分類の観点
「似ている」にはある観点が必要
形の類似性
クラスタリングの重要性
データの解析はコンピュータの応用システムの基盤
exploratory(調査)
データから法則を予想する
confirmatory(確認)
新規のデータに対してある決定を行う
どちらの処理においてもクラスタリングが
本質的な処理となる
クラスタリングの適用分野
パターン分析
grouping
意思決定
機械学習
データマイニング
文書検索
画像分割
パターン分類
...
データには事前の情報がない
例) 正規分布など
クラスタリングはデータ間の
関係を調べる基本手法
分類と識別(1)
clustering
discriminant analysis
違いは重要
データを分類する
(教師なし学習)
少数の分類されたデータが
与えられ,新たなデータを
それらクラスターのどれかに
分類する
(教師付き学習)
分類と識別(2)
クラスタリング
識別(→帰納学習)
予め分類されている
少数のデータ
未分類のデータ
本サーベイの位置づけ
クラスタリングの対象範囲は広い
クラスタリングのサーベイは困難
統計学,決定理論をルーツにもつクラスター分析の
中心的な概念と手法をサーベイする
パターン認識や画像分析...現状の要約
機械学習...非常に近い分野のスナップショット
その他...クラスタリングの重要性のイントロ
クラスタリングのステップ
Step 1. パターンの表現
(付加的に,素性抽出/選択を含む)
Step 2. 類似度(メジャー)の定義
Step 3. クラスタリング(分類)
Step 4. データの要約(必要があれば)
Step 5. 出力の評価(必要があれば)
Step1. パターンの表現
パターンはベクトルで表現される.ベクトルの各次元を
どのようなもの(観点)に対応させるか.
次元(観点)を素性と呼ぶ
(予想される)クラスターの数
利用可能なパターンの数
素性の数,タイプ,大きさ
これらを勘案して
決める
開発者には制御不可能なものも多い
素性選択と素性抽出
素性選択
素性をたくさん集めておき,そのクラスタリングで重要
そうな素性を選択する
素性抽出
入力した素性(複数かも)を変形して,新たな素性を
作成する
パターンの表現を決定する際には重要
Step2. 類似度の定義
通常はパターンを n 次元実数値ベクトルで表現し,
ユークリッド距離によって,非類似度を定義する.
その他,様々な類似度の定義が存在する
本サーベイの4章で紹介
Step3. クラスタリング
様々な手法が存在する
5章
* 出力の形はハードかファジー
ハード: パターンはどれかひとつのクラスターに属す
ファジー:パターンは各クラスターに属する度合いを持つ
* 手法は階層型か分割型
階層型: ボトムアップ,各パターンの統合を繰り返して
全体が1つのクラスタになる.
分割型: トップダウン,評価関数を最適にする分割を
求める
* その他,確率的な手法,グラフ理論からの手法
Step4. データの要約
得られた各クラスターに簡潔な表現を与える
人間からみて意味のある分類かどうかは不明なので,
人間が直感的に簡潔な表現を与えられるとは限らない
通常はクラスターの代表点がその表現に対応する
Step5. 出力の評価
クラスタリング手法の優劣は不可能
出力したクラスタリングはその手法にとっては意味がある
クラスタリング結果の評価(クラスター有効性分析)
評価関数を利用,しかしその関数は主観的
有効性分析:客観的評価,意味のある分類が偶然
起こったものでないことを確認,統計的な手法では
検定で可能,3つのタイプがある
(1) 外的評価... 事前の構造を作っておき比較
(2) 内的評価... データが本質的に適切かを決定
(3) 相対的評価... 構造を比較し,相対的なメリットを測る
クラスタリング手法の比較
どの手法を使えばよいのか?
Dubes and Jain [1976]
(1)クラスターが形成される方法
(2)データの構造
(3)データの構造に対する敏感性
1つの評価の指針,しかし,以下の重要な疑問を
扱う明確なクラスタリング手法はない
正規化の方法,ドメイン知識の利用方法,
膨大な数のデータに対するクラスタリング手法
万能のクラスタリング手法
どんなデータでも扱えるような万能な
クラスタリング手法はない
どんなクラスタリング手法もクラスターの
形状や類似度に基づくクラスターの構成
に関してなんらかの暗黙の仮定をもつため
人間には可能なのか?
No! 高次元になると人間にとっても難しい
よりよいクラスタリングへ
ユーザのやるべきこと
* 利用するクラスタリング手法をよく理解する
* データ収集の詳細を知ること
* 専門家(扱うデータの)を持つこと
領域固有の知識
素性抽出,類似度の計算.クラスタリング,
クラスターの表現,を改善する
データ発生過程の制約
mixture resolving [Titeerington et al. '85]
データは密度関数の混合から発生している
クラスタリングの問題
* いくつの密度関数の混合かを決める
* それぞれの密度関数のパラメータを決める
[Bajcsy '97] density clustering と素性空間の分割
クラスタリングの歴史
パターン認識,画像処理,文書検索,生物学,精神医学,
心理学,考古学,地質学,地理学,マーケッティング
などの分野で使われてきた,歴史がある
クラスタリングはいろいろな名前で呼ばれてきた
教師なし学習,分類学,ベクトル量子化,
観察による学習,
様々な解説本,解説記事も出版された
(具体的には論文参照)
本論文の構成
2章: 論文で使う用語と記号の定義
3章: パターンの表現,素性抽出,素性選択の概要
4章: 様々な類似度
大事,中心
5章: クラスタリング手法の整理,解説
6章: 応用事例,画像解析とデータマイニング
7章: まとめ
本ゼミでは省略
用語と記号の定義(1)
パターン(素性ベクトル,事例,データ)
x  x1 , x2 ,, xd 
素性(属性)
パターンの各次元
xi
次元
パターンが何次元のベクトルか d
用語と記号の定義(2)
パターン集合
パターンの集合,n個あるときは n 行 d 列の行列
クラス
クラスターのラベル(?)
ハード
ハードクラスタリング,
li i 番目のパターンが属するクラスラベル(1~k)
用語と記号の定義(3)
ファジー
ファジークラスタリング,
fij i 番目のパターンが j 番目のクラスに属する度合い
距離関数
素性空間上の距離を測るものさし