クラスター分析 §2 クラスター分析の種類 11月20日 (木) 発表者:大城 亜里沙 クラスター分析の種類 (1) (2) (3) (4) (5) 最短距離法 最長距離法 群平均法 重心法 ウォード法 データとグラフ y 変数 サンプル y x ① 5 3 ② 4 4 ③ 2 4 ④ 1 1 ⑤ 1 2 ① 5 ② 4 3 ③ 2 1 ④ ⑤ 1 2 3 4 5 x 最短距離法 各組に属する2つの点の中から1つずつ選んで距離をとったとき、 最も近い距離を、その組と組との距離と考える方法。 表1:サンプル間のユークリッド距離 ①② ③④⑤ ① ② 2 ・・・ 32 12 10 ・・・ 2 1 ③ 10 4 ④ 20 18 ⑤ ③ 17 13 ⑤ 1 10 5 ④ 1 2 3 4 22 12 5 従って、最短の 5 が [ ④, ⑤]と ③ の距離 となる。 最長距離法 一番長い距離を組相互の距離と考える。 表1までは同じ。組相互の距離を計算する。 ① ② ③ ④⑤ ①②③ ④⑤ ① ② ③ 2 10 4 ④⑤ 20 18 10 ①② ③ 10 ④⑤ 20 10 群平均法① ○“最短”、“最長”の距離の平均を距離とする。 (ただし、その場合の平均とは、各組に属するサンプル数を考慮した、加重平均) ○距離の計算過程ではユークリッド平方距離(ユークリッド距離を2乗したもの)を用いて計算 し、最後に平方距離の平方根をとり、距離を求める。 <一般式> ― Str :クラスターtと別の任意のクラスターrとの間の距離 ― n p :クラスターpの大きさ(クラスターに含まれる組あるいは点の数) 更新後の距離は、 np S pr nq Sqr Str np nq 群平均法② と Ⅰ ④と ① の距離=20 ⑤ ① の距離=17 20+17 平均= 2 ①② ③④⑤ ① と ② の距離=13 2 ③ 10 と ④ 20 ① ② ③ ④⑤ ① 4 の距離=5 18 ⑤ 17 13 10 5 1 表2:サンプル間の平方距離 ③ 10 4 Ⅱ =15.5 Ⅲ ④と ③ の距離=10 ⑤ 10+5 ③ 平均= ④⑤18.5 15.5 7.5 Ⅰ ④ と ② の距離=18 Ⅱ⑤ ② 18+13 平均= 2 ② 2 =18.5 Ⅲ 2 =7.5 重心法(1) クラスター間の距離を、各クラスターの重心の間の距離として定義する。 <公式> 2つのクラスターをまとめた場合の距離の更新 np nq np nq Str S pr Sqr S pq 2 np nq np nq (np nq ) サンプル間の距離がユークリッド距離の場合のみ、妥当性を持つ。 重心法(2) 表2までは同じ。 公式を用い、新しいクラスターと他のクラスターとの距離を計算する。 p=4,q=5 なので、 Str 1 1 1 S4r S5r S45 2 2 4 ( ただし、 S45 1 ) ① ② ③ ④⑤ ① ② 2 ③ 10 4 ④⑤18.25 15.25 7.25 1 1 1 20 17 1 18.25 2 2 4 1 1 1 18 13 1 15.25 2 2 4 1 1 1 10 5 1 7.25 2 2 4 ウォード法(1) 実用的で優れた方法としてよく利用されている。 <公式> np nr nq nr nr Str S pr Sqr S pq nt nr nt nr nt nr ただし、 nt np nq ウォード法(2) 表2までは同じ。 公式を用い、新しいクラスターと他のクラスターとの距離を計算する。 p=4,q=5 (A) ① ② ③ ④⑤ ① ② 2 ③ 10 ④⑤24.333 20.333 9.667 (A) (B) (C) (B) (C) ② ③ r・・・ ① S42 =18 S43 =10 S4r・・・ S41=20 S52 =13 S5r・・・ S51=17 S53 =5 n2 =1 n3 =1 nr・・・ n1 =1 S45 =1, n4=1, nt n4 n5=2,公式より (A)・・・ n n1 n4 n1 n1 S41 5 S51 S45 nt n1 nt n1 nt n1 2 2 1 20 17 1 24.333 3 3 3
© Copyright 2024 ExpyDoc