クラスター分析 §2 クラスター分析の種類

クラスター分析
§2 クラスター分析の種類
11月20日 (木)
発表者:大城 亜里沙
クラスター分析の種類
(1)
(2)
(3)
(4)
(5)
最短距離法
最長距離法
群平均法
重心法
ウォード法
データとグラフ
y
変数
サンプル
y x
①
5
3
②
4
4
③
2
4
④
1
1
⑤
1
2
①
5
②
4
3
③
2
1
④ ⑤
1
2
3
4
5
x
最短距離法
各組に属する2つの点の中から1つずつ選んで距離をとったとき、
最も近い距離を、その組と組との距離と考える方法。
表1:サンプル間のユークリッド距離
①② ③④⑤
①
②
2
・・・ 32  12  10
・・・
2
1
③ 10
4
④ 20
18
⑤
③
17 13
⑤
1
10
5
④
1
2
3
4
22 12  5
従って、最短の 5 が
[ ④, ⑤]と ③ の距離
となる。
最長距離法
一番長い距離を組相互の距離と考える。
表1までは同じ。組相互の距離を計算する。
① ② ③ ④⑤
①②③ ④⑤
①
②
③
2
10 4
④⑤ 20 18 10
①②
③
10
④⑤ 20
10
群平均法①
○“最短”、“最長”の距離の平均を距離とする。
(ただし、その場合の平均とは、各組に属するサンプル数を考慮した、加重平均)
○距離の計算過程ではユークリッド平方距離(ユークリッド距離を2乗したもの)を用いて計算
し、最後に平方距離の平方根をとり、距離を求める。
<一般式>
― Str :クラスターtと別の任意のクラスターrとの間の距離
― n p :クラスターpの大きさ(クラスターに含まれる組あるいは点の数)
更新後の距離は、
np S pr  nq Sqr
Str 
np  nq
群平均法②
と
Ⅰ ④と ① の距離=20
⑤ ①
の距離=17
20+17
平均=
2
①② ③④⑤
①
と
②
の距離=13
2
③ 10
と
④ 20
① ② ③ ④⑤
①
4
の距離=5
18
⑤ 17 13
10
5
1
表2:サンプル間の平方距離
③ 10
4
Ⅱ
=15.5
Ⅲ ④と ③ の距離=10
⑤ 10+5
③
平均=
④⑤18.5 15.5 7.5
Ⅰ
④ と ② の距離=18
Ⅱ⑤ ②
18+13
平均=
2
② 2
=18.5
Ⅲ
2
=7.5
重心法(1)
クラスター間の距離を、各クラスターの重心の間の距離として定義する。
<公式>
2つのクラスターをまとめた場合の距離の更新
np
nq
np nq
Str 
 S pr 
 Sqr 
 S pq
2
np  nq
np  nq
(np  nq )
サンプル間の距離がユークリッド距離の場合のみ、妥当性を持つ。
重心法(2)
表2までは同じ。
公式を用い、新しいクラスターと他のクラスターとの距離を計算する。
p=4,q=5 なので、
Str 
1
1
1
S4r  S5r  S45
2
2
4
( ただし、 S45  1 )
① ② ③ ④⑤
①
②
2
③ 10 4
④⑤18.25 15.25 7.25
1
1
1
 20  17  1  18.25
2
2
4
1
1
1
18  13  1  15.25
2
2
4
1
1
1
10   5  1  7.25
2
2
4
ウォード法(1)
実用的で優れた方法としてよく利用されている。
<公式>
np  nr
nq  nr
nr
Str 
 S pr 
 Sqr 
 S pq
nt  nr
nt  nr
nt  nr
ただし、
nt  np  nq
ウォード法(2)
表2までは同じ。
公式を用い、新しいクラスターと他のクラスターとの距離を計算する。
p=4,q=5
(A)
①
②
③ ④⑤
①
② 2
③ 10
④⑤24.333 20.333 9.667
(A)
(B)
(C)
(B)
(C)
②
③
r・・・ ①
S42 =18
S43 =10
S4r・・・ S41=20
S52 =13
S5r・・・ S51=17
S53 =5
n2 =1
n3 =1
nr・・・ n1 =1
S45 =1, n4=1, nt  n4  n5=2,公式より
(A)・・・
n  n1
n4  n1
n1
 S41  5
 S51 
 S45
nt  n1
nt  n1
nt  n1
2
2
1
  20  17  1  24.333
3
3
3