Java入門

Data Clustering:A Review
5.6 Representation of Cluster
(クラスタの表現)
紺野憲一
5.6 クラスタの表現
クラスの数がわかっているクラスタリングではデータの分割が出力となる。
また、その出力から用いた手法の有効性を検証する事も可能。
しかし多くの意思決定を含む手法では抽象化され密集したデータに対し
てクラスタリングを行わなければならず、意思決定の段階の手法はまだ
研究段階である。
クラスタの表現手法
(1)セントロイドもしくは離れた複数の点を用いてクラスタを表
現する方法。
(2)分類木を用いて表現する方法
(3)論理的な表現を用いた分類手法
(1)
y
y
B
B
D
A
C
D
F
A
E
C
F
E
x
(1.1)セントロイドを用いた表現
x
(1.2)複数の点を用いた表現
(2)、(3)
y
Δ
D
B
2
α
A
1
C
F
β
E
1
2
3
x
x>2
x<2
A
B
C
D
E
F
(2)分類木を用いた表現
α
y<2
β
y>2
Δ
(3)論理的な表現を用いた分類手法
複数のセントロイドの使用
セントロイドを用いた手法が最も一般的な手法
但し、クラスタが延長されたり等方性で無い場合適切なクラスタリングが出
来ない。
そこでクラスの形状が複雑な場合、セントロイドを複数利用する。
2
22
22 2
1 11
22 2
11
22 2
11 11
22 2
11
2
11 11
2
2
11
22 2
1
11
22 2
11 1
22 2
1
11
22 2
1
11
2
1
11
11
データの抽象化の利点
(1)直感的にわかりやすいクラスタ表現ができる。
(2)データを圧縮する事ができる。
(3)検索効率の上昇
2
2
2
22 2
1 11
22 2
11
22 2
11 11
22 2
11
2
11 11
2
2
11
22 2
1
11
22 2
11 11
22 2
11
22 2
1
11
2
1
11
11
(2)データの圧縮
2
1
2
1
1
2