階層型クラスタリング(演習

階層型クラスタリング
階層的クラスタリング
• 最短距離法(最近隣法)
• 最長距離法(最遠隣法)
• 群平均法
• ウォード法
• 樹形図
練習問題1
• 次の4点を階層的クラスタリング法で
クラスタリングする.
• ただし,クラスタ間の類似度計算には
最短距離法(最近隣法)を用いる.
a(1,2) , b(2,2), c(4,4) , d(6,1)
練習問題1(1)
• vec <- c(1,2,2,2,4,4,6,1)
• データを入力する.
• data <- matrix(vec,4,2,byrow=T)
• サンプルデータをマトリックス形式に整理する.
• colnames(data) <- c("x","y")
• 列に名前をつける.
• rownames(data) <- c("a","b","c","d")
• 行に名前をつける.
練習問題1(2)
• data.dist <- dist(data)
• サンプルデータ間のユークリッド距離を求める.
• round(data.dist)
• サンプルデータ間のユークリッド距離を表示する.
abc
b1
c43
d544
練習問題1(3)
• data.hc <- hclust(data.dist)
• data.dist についてデフォルトの方法(最遠隣法)でクラスタリングする.
• 利用法
• hclust(データセット名 , “分類方法”)
• summary(data.hc)
• 分析の数値データを表示する.
single
complete
average
centroid
median
ward
単連結法 (最短距離法)
完全連結法 (最長距離法)
群平均法
重心法
メディアン法
Ward法 (最小分散法)
mcquitty
McQuitty法
練習問題1(4)
• plot(data.hc)
• データの樹形図を表示する.
• plot(data.hc,main="Complete")
• データの樹形図にグラフタイトルを
つけてを表示する.
演習問題1
• 最遠距離法以外の方法でクラスタリングして結果を比較せよ.
演習問題2
• Ward法により樹形図を作成せよ
名前
A
B
C
D
E
F
最高血圧
80
60
160
140
100
200
たばこ本数/日
5
3
8
6
6
10
演習問題3
• Ward法により樹形図を作成せよ
A
B
C
D
E
F
G
年齢
25
35
70
50
30
20
40
性別
男
女
男
女
女
女
男
演習問題4
• 新しい携帯電話についてアンケートをとったところ,以下のような結
果となった.最も説明が適切しやすくなるように樹形図を作成せよ.
A
B
C
D
E
F
G
年齢
25
35
70
50
30
20
40
性別
男
女
男
女
女
女
男