PowerPoint プレゼンテーション

多変量データ分析B 第9回
第5章:クラスター分析
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.6.16. SFC5限
第5章 クラスター分析
1/63
第5章 クラスター分析
クラスター分析
目標
クラスター分析とは何ができる道具かを理解しよう
クラスター分析のコンピュータ出力を読み取れる力を身
につけよう
クラスター分析のからくりと前提を理解しよう
課題を通じて対応分析の使い手になろう
注)距離概念を理解すること,
JMPではクラスター分析結果のデンドログラム
の表示に特徴がある.
第5章 クラスター分析
2/63
適用例と解析ストーリー
データ
試験の成績データ
生徒
国語 x1 英語 x2 数学 x3
理科 x4
1
86
79
67
68
2
71
75
78
84
3
42
43
39
44
4
62
58
98
95
5
96
97
61
63
6
39
33
45
50
7
50
53
64
72
8
78
66
52
47
9
51
44
76
72
10
89
92
93
91
1)項目間(生徒)の距離を定義
2)データから距離を測定
3)集落(クラスター)の
作成と解釈
第5章 クラスター分析
3/63
適用例と解析の目的
スライド27のデータセットは,主成分分析で使ったデータである.
主成分分析では,主成分得点から主観的にサンプルの分類を
行った.これは,散布図の布置から視覚的に選び出したもの.
ここでは,サンプル間の多次元空間上の距離のみに基づいて
分類(クラスター化)する方法について紹介する.
クラスター分析は,元々,分類学などで用いられた統計的仮定の
まったくない方法であったが,統計学者がその有効性に着目して
研究し大きな発展があったといわれる.この意味において,クラス
ター分析は異端の方法とも言える.
クラスター分析は分類,集落化,層別化などを行う方法論の総称で,
クラスター分析の方法を分類するためにクラスター分析が必要である
と悪口を叩かれるくらい多くの方法が提唱されている.
第5章 クラスター分析
4/63
解析ストーリー
1)個々の対象間の近さを測るための距離,クラスターを併合する
際の距離を事前に決める.
個々の対象間の距離を全て計算し,距離が最小となる対象を
統合して最初のクラスターを作る.
新しいクラスターと対象間の距離を全て計算して,対象間の距離
を含めて最小のものを統合する.
これを全てのクラスターが統合されるまで繰り返す.
2)クラスターの統合過程をデンドログラム(樹形図)で表し,
適当な距離で切断することでグループ化する.
各グループに含まれる対象を調べて,グループの特徴を求める.
第5章 クラスター分析
5/63
変数が2個の場合のクラスター分析
最短距離法による分類
1)クラスターの生成方法
ユーグリッド空間を考え,その距離の小さいものから結合する.
2)デンドログラム
結合過程を樹形図で表し,適当な距離で切断し,クラスターを構成
後,そのクラスターの解釈を行う
上の4つの散布図について主観でクラスターを作成してみよ.
6/63
第5章 クラスター分析
5.1 一次元のクラスター分析
180
‘̏
d(ƒ|ƒ“ƒh)
160
140
120
B
100
80
60
45
図5.1
50
55 60 65
g’·(ƒCƒ“ƒ`)

70
75
身長と体重でのクラスター
上の散布図での確率楕円はクラスター分析により分
類した結果の表示である
クラスター分析は分類整理のためのツールである
クラスター化の方法について一次元のデータで考える
第5章 クラスター分析
7/63
5.1.1 階層的方法と非階層的方法 1/3
日常の分類整理方法の光景を思い浮かべる
1)沢山の商品カタログが分類されないで山積みになっている.
2)飲み干したワインのラベルが整理されないで箱に数多く入っている.
3)商品のCS調査の生データがDBに記録されたままになっている.
・・・
第5章 クラスター分析
8/63
5.1.1 階層的方法と非階層的方法 2/3
階層的分類
<方法 1>
①カタログやラベルなどを大きなテーブル -コンピュータ内の仮想的なもの
を含む- の上に並べる.
②内容のよく似た個体を一緒にまとめる.
③②を繰返すことで,似た個体の束ができる.束の数や大きさが適当なところ
で打ち切る.
分類する個体が多い場合には,方法 1 は困難であり,方法 2 が有利である.し
かし,方法 1 は,結果をみてクラスター数を決めることができる.方法 1 を階
層的方法,方法 2 を非階層的方法と呼ぶ.非階層的方法は,k 個の代表 -すな
わち平均― を用いて分類するため,k-means 法とよばれる.
第5章 クラスター分析
9/63
5.1.1 階層的方法と非階層的方法 3/3
非階層的方法
<方法 2>
①あらかじめ幾つに分類するか決めて箱を用意する.
②各箱に 1 つ個体を入れ箱の代表とする.
③箱の代表の選び方は,知見から典型的な個体を選ぶか,適当に仮決めし逐次
修正するか,いずれかである.
④各個体を箱の代表と比べて,一番近い箱に必ず入れる.
⑤すべて箱に入ったら中身を吟味し,箱の代表を再度選ぶ.
⑥箱の中の個体を代表と比べ,内容があまりにも違っている個体は,他の箱の
代表と比べ,一番近い箱へ移動させる.
⑦入替えがなくなるまで,⑤⑥を繰返す.
第5章 クラスター分析
10/63
難しい距離(類似度)の定義
①個体間の距離をどう定義するか.
②階層的方法では,幾つかの個体が寄り集まってできたクラスター間の距離を
どう定義するか.
活用術 5.1:標準化と CLUST
距離はすべての次元が等しく扱われるため,測定単位の違う変量を分析に用
いる場合は,測定単位に依存しない距離-標準化-に変換する必要がある.
第5章 クラスター分析
11/63
5.1.2 階層的クラスター
データ
表5.1
語句
得点
楽しい
カップアイスの評価得点
安心感
冷たい
|
|
11
31
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
最短距離法
重心法
図5.2
最も近い点で連結
最長距離法
クラスター間の距離の定義
重心で連結
第5章 クラスター分析
最も遠い点で連結
12/63
5.1.3 最短距離法
表5.1
語句
得点
楽しい
カップアイスの評価得点
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
冷たい
|
|
11
31
表5.2
語句
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
楽しい
冷たい
|
|
11
31
20
19
11
31
20
19
11
31
20
19
11
31
20
19
11
31
20
19
最短距離法の計算
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな
ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
10
18
13
7
8
54
60
(91,98)
50
106
160
220
60
78
8
10
18
13
54
60
(91,98,106)
50
160
220
60
78
54
10
18
13
60
(91,98,106)
(50,60)
160
220
78
54
18
13
60
(50,60)
(78,91,98,106)
160
220
18
54
60
第5章 クラスター分析
13/63
5.1.4 最長距離法
表5.1
語句
得点
楽しい
安心感
冷たい
|
|
11
31
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
表5.3
語句
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
カップアイスの評価得点
楽しい
冷たい
|
|
11
31
20
19
11
31
20
19
11
31
20
41
11
31
20
29
(11,31)
39
(11,31)
最長距離法の計算
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
10
18
13
7
8
54
60
50
60
78
(91,98)
106
160
220
10
18
20
15
54
60
(50,60)
78
(91,98)
106
160
220
28
20
15
54
60
(50,60)
78
(91,98,106)
160
220
28
28
69
60
(50,60)
78
(91,98,106)
160
220
28
28
69
60
(50,60,78)
(91,98,106)
160
220
第5章 クラスター分析
14/63
5.1.5 重心法
表5.1
語句
得点
楽しい
安心感
冷たい
|
|
11
31
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
表5.4
語句
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
隣同士の距離
得点
カップアイスの評価得点
楽しい
冷たい
|
|
11
31
20
19
11
31
20
19
11
31
20
24
11
31
20
24
21
34
21
重心法の計算
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
10
18
13
7
8
54
60
50
60
78
94.5
106
160
220
10
18
16.5
11.5
54
60
55
78
94.5
106
160
220
23
16.5
11.5
54
60
55
78
98.33333333
160
220
23 20.333
61.66666667
60
55
78
98.33333333
160
220
23 20.333
61.66666667
60
55
93.25
160
220
第5章 クラスター分析
15/63
5.1.7 Ward法
表5.1
語句
得点
語句
得点
√(ΔSW)
得点
√(ΔSW)
得点
√(ΔSW)
得点
√(ΔSW)
得点
√(ΔSW)
得点
楽しい
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
冷たい
|
|
11
31
楽しい
カップアイスの評価得点
表5.5
冷たい
|
|
11
31
14.14 13.44
11
31
14.14 13.44
11
31
14.14 19.60
11
31
14.14 19.60
21
27.76
21
安心感
Ward法の計算
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな
ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
7.07 12.73
9.19
4.95
5.66 38.18 42.43
50
60
78
94.5
106
160
220
7.07 12.73 13.47
9.39 38.18 42.43
55
78
94.5
106
160
220
18.78 13.47
9.39 38.18 42.43
55
78
98.33
160
220
18.78 17.61
53.40 42.43
55
78
98.33
160
220
18.78 17.61
53.40 42.43
55
93.25
160
220
第5章 クラスター分析
16/63
デンドログラムで比較
Å’Z‹——£–@

Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
Å’·‹——£–@

Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
図5.3
d

S–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
ŒQ•½‹Ï–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
Ward–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
5つの方法によるデンドログラム
使う方法により,デンドログラムの形が変わることに注目
第5章 クラスター分析
17/63
距離を考える
Å’Z‹——£–@

Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
Å
’·‹——£–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
図5.4
d

S–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
ŒQ•½‹Ï–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
Ward–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
ƒRƒN‚Ì‚ ‚é
”ü–¡‚µ‚¢
‚Æ‚Ä‚àŠÃ‚¢
ƒVƒ“ƒvƒ‹‚È
‚ƒJƒ

ƒŠ
[‚È
e‚µ‚Ý‚â‚·‚¢

ƒ{ƒŠƒ…
[ƒ€Š´
平方根変換後のデンドログラム
活用術 5.2:変数変換と CLUST
所得などのように,分布が歪んでいる場合には,そのまま CLUST を適用す
ると,高所得者が細分され,低所得者が全部ひとまとまりになる.先に対数変
換などの対称分布にしておく.
Å’Z‹——£–@

Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
Å’·‹——£–@

Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
d

S–@
ŒQ•½‹Ï–@
Šy‚µ‚¢
Šy‚µ‚¢
—₽‚¢
—₽‚¢
第5章
クラスター分析
ˆÀ
SŠ´
ˆÀ
SŠ´
Ward–@
Šy‚µ‚¢
—₽‚¢
ˆÀ
SŠ´
18/63
5.1.8 非階層的クラスター分析 1/7
1.階層的分類法
2.非階層的分類法
2.1分割最適化型分類法
2.1.1 k-means法
分類方法の本質的考え方
クラスタ-のまとまりの良さmあるいはクラスター間の離れ具合を,
何かの基準で測り,これを最大化(最小化)するという方針で分類
を行う
1)クラスターの約束
クラスター化のための評価基準,クラスター内の等質性
2)分類方法
分類のための算法(アルゴリズム)
3)分け方の数
n個の個体をg群に分けることの容易さ
19/63
第5章 クラスター分析
5.1.8 非階層的クラスター分析 2/7
数値例で確認
1変数35個体のデータを2分類することを考える
データ
5,11,12,9,11
4, 14,16,13,5
1, 6, 3, 4,11
12, 4, 8, 1, 6
15, 9,13, 7,12
3,10, 5,10, 3
5, 4, 2, 4,15
x
15
10
5
平均7.8
平方和 665.6
分散
19.58
0
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
7.8
•W
€•Î
·
4.4245306
•½‹Ï‚Ì•W
€Œë
·
0.7478822
•½‹Ï‚̏
㑤95%
M—ŠŒÀŠE 9.3198794
•½‹Ï‚̉º‘¤ 95%
M—ŠŒÀŠE
6.2801206
N
35
直感的な考え方
ヒストグラムを作り2山になっているところで区切ればよいだろう
問題点:客観性&アルゴリズム(一般性)がない.
20/63
第5章 クラスター分析
5.1.8 非階層的クラスター分析 3/7
では,35個のデータを2群に分けるとして,その方法は全部で
幾つあるか...
答え:171億7986万9183とおりある
・大規模データで2群に分けるとしても全ての方法を試すことは
現実的に不可能である.
・クラスターの評価基準が決まっても,それを最適にする分類の
組み合わせを網羅的に調べることができない
それに代わる方法を見つける必要があろう
・相関比η2を使う 群間変動と群内変動の比較
第5章 クラスター分析
21/63
5.1.8 非階層的クラスター分析 4/7
2つの分類方法を選び出した
171億数千万とおり
“ñ•Ï—Ê‚ÌŠÖŒW
ŒQ•ª‚¯1‚É‚æ‚éx‚̈ꌳ”z’u•ª
Í
12.4286(14)
4.7143(21)
1
16
14
12
10
8
6
4
2
0
x
x
16
14
12
10
8
6
4
2
0
ŒQ•ª‚¯2‚É‚æ‚éx‚̈ꌳ”z’u•ª
Í
2
8.000(17)
7.61111(18)
1
2
ŒQ•ª‚¯1
ŒQ•ª‚¯2
ˆêŒ³”z’u‚Ì•ªŽU•ª
Í
ˆêŒ³”z’u‚Ì•ªŽU•ª
Í
•ªŽU•ª
Í
•ªŽU•ª
Í
—vˆö
Ž©—R“x
•½•û˜a •½‹Ï•½•û
—vˆö
Ž©—R“x
•½•û˜a •½‹Ï•½•û
ŒQ•ª‚¯1
1
499.88571 499.886
ŒQ•ª‚¯2
1
1.32222
1.3222
Œë
·
33 165.71429
5.022
Œë
·
33 664.27778 20.1296
‘S‘Ì(
C
³
Ï‚Ý)
34 665.60000
‘S‘Ì(
C
³
Ï‚Ý)
34 665.60000
方法1が方法2よりも優れているようにみえる
全体の平方和を群間と群内に分解して評価すればよい
22/63
第5章 クラスター分析
5.1.8 非階層的クラスター分析 5/7
ST  SW  SB
クラスター内
(群内)平方和
クラスター間
(群間)平方和
クラスター内平方和が小さくて,クラスター間平方和が大きいほうが
うまく分類されたと考えればよいだろう.
つまりSB最大 あるいはSW最小を判断基準にすればよい
p変数空間でg個のクラスターに
分割するイメージ
第5章
・ある個体は複数のクラスター
にまたがって所属しない
・どの個体もいずれかのクラス
ターに所属している
23/63
クラスター分析
5.1.8 非階層的クラスター分析 6/7
分割の総数の計算
第2種のスターリング数によって表される
1 g g
g i n
P  n, g      1 i
g ! i 1  i 
g  2のと き
1 2  2
2i
P  n,2     1 i n  2n1 1
2! i 1  i 
n,gの与え方によって,あっという間に天文学的数字になる
全分割方法を調べるのは実質的に不可能なので
簡便法(一部実施方法によるアルゴリズムが必要)
第5章 クラスター分析
24/63
5.1.8 非階層的クラスター分析 7/7
分割方法のアルゴリズム概要
1)初期配置または初期分割
-クラスター数の決定
-全個体をクラスターに仮決めする
・クラスターの識別,初期の各クラスターの重心の設定
2)各クラスターの縮約値の計算
-平均ベクトル
-平方和,分散
3)最適化基準の改良,反復
-個体のクラスター間移動と再配置
-クラスターの最適化基準の比較
4)収束判定
-クラスター別の縮約値の算出
-クラスタリングの履歴の整理
25/63
第5章 クラスター分析
k-means法 1/4
k-means法
k個の分割(クラスター)について,平均値(ベクトル)と平方和
を用いて改良を進める方法
クラスター評価基準
・クラスター内平方和Sw(g)
方法
・平方和の分解公式を利用して,
個体1つずつ,クラスターを移動させて評価基準の変化の様子
を調べるものである.
第5章 クラスター分析
26/63
k-means法 2/4
x t , nt
xr
x k , nk
y k , nk 1
x l , nl
移動させる
群t
群k
群l
x t , nt
1個減る
xr
yx , nl 1
1個増える
l
クラスター内平方和の変化量
変化なし
nl p
l 2
S yl  Sxl 
xrj  x j 


nl 1 j 1
nk p
k 2
S yk  Sxk 
xrj  x j 


nk 1 j 1
第5章 クラスター分析
ここに着目
27/63
k-means法 3/4
個体rのクラスター間移動に伴なう平方和の変化量は
p
2
nl p
n
l
k 2
k
S 
xrj  x j  
xrj  x j 




nl 1 j 1
nk 1 j 1
従って,ΔS<0ならば個体rの移動により平方和が改善
それ以外は改善されなかったと判断
k-means法のアルゴリズム
手順1.n個の個体をg個のクラスターに初期分割する
手順2.移動させる候補の個体rを選び,順次クラスター移動
(クラスターサイズが1の場合は手順5へ:シングルトン)
手順3.ΔS<0となるクラスターが見つかれば移動
手順4.移動のあった2つのクラスターの平均ベクトル,平方和の
計算
手順5.ΔSの様子に変化が見られなかったら終了,聡でなければ
28/63
手順2へ
第5章 クラスター分析
k-means法 4/4
留意点
・初期配置の方式
クラスター数の決定,初期代表値の選定
・移動&再配置の方式
・最適化基準の選択
局所最適であること:分割の全てのとおり数の検索は困難
・アルゴリズム
・シングルトンの影響(外れ値)
・クラスターサイズへの配慮
第5章 クラスター分析
29/63
k-means法の手順
K-means法の計算
表5.6
語句
楽しい
得点
|
11
種子
境界値
ΔSW
境界値
ΔSW
境界値
ΔSW
境界値
ΔSW
境界値
安心感
美味しい
シンプルな
親しみやすい
コクのある
とても甘い
高カロリーな ボリューム感
|
|
|
|
|
|
|
|
50
60
78
91
98
106
160
220
〇
〇
〇
70.50
98.50
-659.92
30.67
81.75
162.00
2719.92
30.67
81.75
162.00
-4233.55
30.67
86.60
190.00
-239.12
38.00
93.25
190.00
冷たい
|
31
クラスタ―間変動S B
x1  x
x2  x
x3  x
クラスタ―内変動SW
x
x4  x
全変動
ST
x1
x2
x3
x4
図5.5
平方和の分解
第5章 クラスター分析
30/63
2次元でのクラスターの形成方法 1/5
簡単なデータセットによる理解
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
#3
5
#5
4
#4
3
グラフより直感的に
{(#4,#5),(#1,#2)},#3
であることが分かる
#2
2
#1
1
0
0
1
2
3
4
5
6
距離の定義
我々の世界の代表的な距離:ユーグリッド距離
相関関係の確率による距離:マハラノビス距離
より一般的な包含的距離 :ミンコフスキー距離
ここでは,分かりやすいユーグリッド距離を使う
第5章 クラスター分析
31/63
2次元でのクラスターの形成方法 2/5
平面におけるユーグリッド距離
x
j1
三平方の定理を利用して
, xj2 
dij 
 xi1, xi 2 
x
i1
 x j1    xi 2  x j 2 
2
2
5つの点のユーグリッド距離を計算すると
1
2
3
4
5
1
2
3
0
1.4142
0
5.6569 4.2426
0
3 2.2361 4.1231
4 3.1623
4
4
0
1
5
0
最短距離法は,5つの
クラスターの中で距離が
最短なクラスターを結合する
距離最短は#4-#5の距離1であるから,これらを
同じクラスターC1(4,5)とする.
第5章 クラスター分析
32/63
2次元でのクラスターの形成方法 3/5
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
#3
5
#5
C1
4
#4
3
今度は,
#1,#2,#3,C1
の距離を測る
#2
2
#1
1
0
0
1
2
3
4
5
6
C1から#1,#2,#3への距離は,#4と#5からの距離の短い方を採用
する.
C1
1
2
3
4
5
1
2
3
0
1.4142
0
5.6569 4.2426
0
3 2.2361 4.1231
4 3.1623
4
4
0
1
第5章 クラスター分析
5
最短は#1-#2の
距離d12=1.41
0
33/63
2次元でのクラスターの形成方法 4/5
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
#3
5
#5
C1
4
#4
3
今度は,
C2,#3,C1
の距離を測る
#2
2
C2
#1
1
0
0
1
2
3
4
5
6
C1から#3,C2への距離は,#4と#5からの距離の短い方を採用する.
C2から#3,C1への距離は,#1と#2からの距離の短い方を採用する.
C2
C1
1
2
3
4
5
1
2
3
0
1.4142
0
5.6569 4.2426
0
3 2.2361 4.1231
4 3.1623
4
4
0
1
5
最短はC1-C2の
距離dc1c2=2.24
0
第5章 クラスター分析
34/63
2次元でのクラスターの形成方法 5/5
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
#3
5
#5
C1
4
#4
3
今度は,
C3,#3
の距離を測る
#2
2
C3
C2
#1
1
0
0
1
2
3
4
5
6
C3から#3への距離は,#1,#2,#4と#5からの距離の最短を採用する..
C2
C3
C1
1
2
3
4
5
1
2
3
0
1.4142
0
5.6569 4.2426
0
3 2.2361 4.1231
4 3.1623
4
4
0
1
5
最短はC3-#3の
距離d3C3=4.00
0
第5章 クラスター分析
35/63
デンドログラム
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
5
ⅳ)
ⅰ)
4
3
ⅲ)
2
樹状図 5 ケース
最近隣法
ユークリッド距離
ⅱ)
1
4.5
0
4.0
0
結合距離
3.0
英が得意
2.0
英・国共に得意
1.5
国が得意
1.0
0.5
2
3
4
5
6
距離に着目してデンドログラムで
表すと分かりやすい
3.5
2.5
1
C_3
C_5
#3
#5
C_4
C_2
#4
#2
C_1
#1
主観的に距離2で切断する
・3つのクラスターが得られた
距離は客観的
クラスター数,解釈には分析者の
意図が入る
第5章 クラスター分析
36/63
変数がp個の場合のクラスター分析 1/2
変数がp個になっても同様の考え方で距離を測る
P次元のユーグリッド距離は
dij 
 x
p
k 1
ik
 x jk 
2
特定の問題以外は,ユーグリッド距離で測定すればよいので,
他の距離については,ここでは省略する.
JMPによる分析
・スライド3のデータを入力する
・メニューの分析の多変量から
クラスター分析をクリックする
1.変数を
全て指定
2.クリックして
読み込む
3.オプションで階層型,手法-最短距離法を
設定してOKボタンをクリックする. 37/63
第5章 クラスター分析
変数がp個の場合のクラスター分析 2/2
ŠK‘wŒ^ƒNƒ‰ƒXƒ^
[•ª
Í
JMPでの出力
Žè–@ = Å’Z‹——£–@

}
デンドログラム Ž÷Œ`
どの科目も
比較的に優秀
どの科目も
点数が高くはない
クラスターの解釈
クラスター分析
+主成分分析で
解釈すると理解しやすい
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2
5
8
Žå
¬•ª2
1
0
1
3
6
7
9
-1
-2
10
2
4
-3
-2
-1
0
1
Žå
¬•ª1
2
1
5
2
10
4
8
7
9
3
6
ƒNƒ‰ƒXƒ^
[•ª
Í‚Ì—š—ð
ƒNƒ‰ƒXƒ^
[‚̏
”
9
サンプルの結合過程 8
7
6
5
4
3
2
1
3
‹——£
0.666260446
0.748707427
1.052400469
1.297035918
1.463242000
1.501541188
1.574743389
1.747747904
1.899372402
Œ‹
‡
æ
3
7
1
1
1
1
1
1
1
距離の結合過程
第5章 クラスター分析
Œ‹
‡ŽÒ
6
9
5
2
10
4
8
7
3
38/63
クラスター間の距離
A.最短距離法
B.最長距離法
・最初に全てのサンプルの距離を計算する.
・クラスターを結合する場合に,最も近い距離をクラスター間の距離にするか,
最も遠い距離にするかの違いがある.
・最短距離法は,特定の場合,例えば地震や火山帯のクラスターに利用され
るが一般に用いると,鎖効果が出て好ましくない.
ⅰ)
ⅳ)
ⅲ)
ⅱ)
最短距離法
最長距離法
第5章 クラスター分析
39/63
Ward法
1)ウォード法の特徴
実用的であること.すなわちよいクラスターが作れる.
鎖効果がおきにくい.
ある1つのクラスターに対象が順次1つづつ追加されていく
現象
鎖効果が起きると対象の群分けが達成できなくなる.
鎖効果
よいクラスター
2)変数が2個の場合のウォード法
3)変数がp個の場合のウォード法
第5章 クラスター分析
40/63
変数が2個の場合のウォード法 1/5
生徒No. 国語x1
英語x2
1
5
1
2
4
2
3
1
5
4
5
4
5
5
5
6
5
4
#2
3
2
重心
1
#1
0
0
1
2
3
4
5
6
生徒#1と#2を1つのクラスタにまとめたときの平方和を計算
平方和とは重心からの距離の二乗和であった
2
2
S12   xik  x k 
2
i 1 k 1
 5  4.5   4  4.5  1 1.5   2 1.5  0.25  4  1
2
2
2
2
平面における2点の平均からの距離の二乗和を計算する
第5章 クラスター分析
41/63
変数が2個の場合のウォード法 2/5
平面における2点の平均からの距離の二乗和を計算する
X1,X2平均
x1,x2平方和
平方和
2
3
4
5
1
4.5 1.5
3
3
5 2.5
5
3
2
3
4
5
1
0.5 0.5
8
8
0 4.5
0
8
2
3
4
5
1
1
16
4.5
8
2
2.5
4.5
4.5
3
3.5
3
3.5
2
4.5
0.5
0.5
3
3
4
4.5
5
5
3
4.5
2
4.5
8
8
5
4.5
4
0.5
0
0
5
0.5
2
3
4
9
2.5
5
8.5
8
0.5
5
平面における平方和最小なのは(#4-#5)であるから
これをC1とする
第5章 クラスター分析
42/63
変数が2個の場合のウォード法 3/5
平面における各クラスターの二乗和の増分で判断する
X1,X2平均
2
3
45
1
4.5 1.5
3
3
5 3.33
2
2.5
3.5
4.667 3.667
3
3.667
4
4.667
5
x1,x2平方和
平方和
C1
2
3
45
増分
1
0.5 0.5
8
8
0 8.67
0 8.17
2
4.5
4.5
0.667 4.667
0.667 4.167
1
2
2
1
3
16
9
45 8.1666667 4.833333333
3
10.67
10.67
5
4.5
4
0.667
0.167
3
0
5
0.5
4
5
10.83333333
C1では#4,5と他のサンプルの平方和を計算し,その
増分で評価する 例) S145  8.67, S45  0.5, S1  0
C2は#1,2とする
S145  S145  S45  S1  8.167
第5章 クラスター分析
43/63
変数が2個の場合のウォード法 4/5
平面における各クラスターの二乗和の増分で判断する
X1,X2平均
2
3
45
1
4.5 1.5
3
3
5 3.33
2
3.333 2.667
4.75
3
3
3.667
4
4.667
5
x1,x2平方和
平方和
C1
2
3
45
増分
増分
0.5 0.5
8.17 8.17
0.25
9
2
3
45
12
8.667 8.667
0.75
10
0.75
9.5
3
10.67
10.67
5
4.5
4
0.667
0.167
C2=12
3
16.33333333
9.25
10.83333333
0
5
0.5
C1=45
C1,C2の平方和の増分の計算
S1245  10.75, S12  1.00, S45  0.5
S1245  S1245  S12  S45  10.75 1  0.5  9.25
C3をC1,C2とする
第5章 クラスター分析
44/63
変数が2個の場合のウォード法 5/5
平面における各クラスターの二乗和の増分で判断する
X1,X2平均
3
1245
4 3.4
3
1245
0.75
10
12 13.2
x1,x2平方和
平方和
3
差分
3
1245
25.2
14.45
C1
C3,#3の平方和の増分の計算
S12345  25.2, S1245  10.75, S3  0
S1245  S12345  S1245  S3  25.2 10.75  14.45
これで完了
第5章 クラスター分析
45/63
変数がp個の場合のウォード法
JMPを使いウォード法でスライドのデータを分析してみよう
ŠK‘wŒ^ƒNƒ‰ƒXƒ^
[•ª
Í
Žè–@ = Ward–@
Ž÷Œ`
}
1
5
8
2
10
4
3
6
7
9
ƒNƒ‰ƒXƒ^
[•ª
Í‚Ì—š—ð
ƒNƒ‰ƒXƒ^
[‚̏
”
9
8
7
6
5
4
3
2
1
‹——£
0.471117279
0.529416099
0.744159508
1.034668340
1.355895175
1.386843179
2.120907188
2.925488473
4.129762622
Œ‹
‡
æ
3
7
1
2
2
1
3
1
1
第5章 クラスター分析
Œ‹
‡ŽÒ
6
9
5
10
4
8
7
2
3
46/63
5.2 クラスター分析の活用指針
用いる方法によって,結果が大きく異なる可能
性がある.
構成されたクラスターが意味があるものなのか
を知見に基づいて判断する必要がある.
主成分と組み合わせると分りやすい
第5章 クラスター分析
47/63
5.2.1 クラスター分析の目的と到達レベル
データ分析者の CLUST の目的は,主に以下のような事柄であろう.
・多変量データを少数個(2~5 程度)のクラスターで説明する.
データ分析者の CLUST の目的は,主に以下のような事柄であろう.
・発見されたクラスターで個体の特徴を掴む.
・多変量データを少数個(2~5 程度)のクラスターで説明する.
・主成分上のクラスターの布置で仮説を発見する.
・発見されたクラスターで個体の特徴を掴む.
データ分析者のCLUSTの到達レベルは,例えば以下のようなものであろう
・主成分上のクラスターの布置で仮説を発見する.
・PCA や FA と複合させてポジショニングや狙いのセグメントを探索する
データ分析者のCLUSTの到達レベルは,
例えば以下のようなものであろう.
・顧客の使用実体と商品満足度を結び付け,
商品の持つ強み弱みを摘出する
・PCA
や FA と複合させてポジショニングや狙いのセグメントを探索する.
・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する.
・
顧客の使用実体と商品満足度を結び付け,商品の持つ強み弱みを摘出する.
・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する.
第5章 クラスター分析
48/63
5.2.2 クラスター分析の手順 1/4
分析前のチェック!!!
本当にCLUSTの問題かどうか検討しておく.
分析にあたっては,クラスター自体検討する必要のない場合
予め分類情報をもった変量がある場合など
事前検討に時間を使う.
事前に知見から,どの程度のクラスターが得られるか仮説を立てる
直接CLUSTには使わないがクラスターの性格を決めるような項目
の準備など
第5章 クラスター分析
49/63
5.2.2 クラスター分析の手順 2/4
①分析に必要な変量を選定する
分析目的に対して無意味な変量を含んでいると分析結果の
解釈が困難になる
変量選定には十分な吟味が必要である
②個体の数は目的に応じて集める
CLUSTは,記述の意味合いが強い手法であるので,無作為
に集まられた個体でも,意図的に集められた個体でもよい
③データは分析しやすいようにデータ行列にまとめる
DBの活用や実際にアンケート等によりデータを収集する
必要であれば,対数変換や単位当りの比率に加工しておく
第5章 クラスター分析
50/63
5.2.2 クラスター分析の手順 3/4
④外れ値チェック
データのモニタリングによって,外れ値 ―たった1個でクラス
ターが形成されそうな個体― には色を変えたり,マーカを変
えたりしておく
⑤距離の定義を決める
JMPの階層的方法では,標準化ユーグリッド距離が初期設
定になっている
⑥目的や個体数から階層的方法か非階層的方法か
を選ぶ
マイニング分野では,必然的に非階層的方法を選択せざる
を得ない
第5章 クラスター分析
51/63
5.2.2 クラスター分析の手順 4/4
⑦方法の選択
Ward法を実行し他の方法と比較する.クラスター数は,デンド
ログラムの結合の形や知見などから決定する(階層的方法)
クラスター数を決める(非階層的方法)
⑧クラスターの性格を決める
事前情報や分析に使わなかった項目も活用し,クラスターと
のクロス集計表分析などを行う(階層的方法)
何度か初期値を変えてCLUSTを実行する(非階層的方法)
知見とバイプロットやパラレルプロットからクラスターの性格を決める
⑨最後の確認
解釈が困難な場合には⑦に戻り再検討する
場合によっては,変量や個体の見直しCLUSTを再実行する
52/63
第5章 クラスター分析
JMPによる k-means法の分析 1/4
スライド3のデータを分析する
1.メニューの分析から
分類→大規模ファイルのクラスタ をクリックする
2.ダイアログが現れるので4つの変数を分析する変数に指定する
ここをクリックして
K Means法に変える
クラスター数を指定する
ここでは,クラスタ数を3とするが,探索的にクラスタ数を
決める必要がある
53/63
第5章 クラスター分析
JMPによる k-means法の分析 2/4
クラスター数の基準
Calinski-Harabaszの分散比基準
 SB  g    SW  g  
Vg  
/

g

1
n

g

 

gクラスター時での分散比で判断するもの
平方和基準で測れるようなクラスターが存在するときは
そのクラスター数付近で分散比は大きくなる
この基準はお手軽なものであるが,
データの空間配置のパターンにより
必ずしも最良の保証が得られるとは
限らない
第5章 クラスター分析
54/63
JMPによる k-means法の分析 3/4
赤▼をクリックしてバイプロット
を選択
”½•œƒNƒ‰ƒXƒ^
[•ª
Í
Ý’èƒpƒlƒ‹

K-MeansƒNƒ‰ƒXƒ^
[•ª
Í
ƒoƒCƒvƒ
ƒbƒg
•W
€•Î
·‚Ńf
[ƒ^‚ð•W
€‰»
ƒNƒ‰ƒXƒ^
[‚̏
F•ª‚¯
•W–{’Š
o—¦‚ðŽg‚Á‚Ä‹——£‚ðƒVƒtƒg
ƒNƒ‰ƒXƒ^
[“à‚Ì•W
€•Î
·‚ðŽg—p
2.0
5
1.5
1.0
ƒNƒ‰ƒXƒ^
[—v–ñ
Å‘å‹——£

0
0
0
‘
ΐ
96
62
39
3
0.0 3
6
-0.5
” Šw

61
98
45
101
” Šw

—
‰È 2
-1.0
9
-1.5
4
-2.0
‰pŒê
97
58
33
2
7
Ž–‘O‹——£
0
0
0
ƒNƒ‰ƒXƒ^
[•½‹Ï
ƒNƒ‰ƒXƒ^
[
1
2
3
1
‘
ΐ
‰pŒê
0.5
Žå
¬•ª2
ƒXƒeƒbƒv Šî
€
0
0
ƒNƒ‰ƒXƒ^
[ “x
”
1
0
2
0
3
0
8
—
‰È
63
95
50
-2
-1
0
Žå
¬•ª1
1
2
ŒÅ—L’l
2.720733 1.22179950.0524115 0.005056
ƒNƒ‰ƒXƒ^
[•W
€•Î
·
ƒNƒ‰ƒXƒ^
[
‘
ΐ
‰pŒê
” Šw

—
‰È
1 6.84790677 7.1853761 6.45602408 5.99217597
2 6.84790677 7.1853761 6.45602408 5.99217597
3 6.84790677 7.1853761 6.45602408 5.99217597
第5章 クラスター分析
55/63
JMPによる k-means法の分析 4/4
Žå
¬•ª1‚ÆŽå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2
分類されたけ-スに色分けして
第1&第2主成分平面に布置
5
8
Žå
¬•ª2
1
1
楕円で囲ったものが
ウォード法によるクラスタ
3
0
10
6
2
7
-1
-2
9
プロットの色がk-means法の
クラスタ
4
-3
-2
-1
0
Žå
¬•ª1
1
2
3
構成されるクラスタの要素が
異なることに注意
このデータでは,ウォード法の結果と第1&2主成分平面とよく
合っているが,K-means法の結果と第1&2主成分平面との布置の
一致はよろしくない.このような結果は,データ構造に依存する
56/63
第5章 クラスター分析
5.3.1 理想の恋人(1) 1/2
理想の恋人データを使う
非常に小さい標本であることに注意 n=20
階層型クラスター分析
手法 =Ward法
樹形図
経済力
性格
趣味
相性
容姿
距離
年齢
1
16
6
11
18
19
13
20
3
12
15
5
4
9
8
2
7
10
14
17
クラスター1
クラスター3
クラスター2
クラスター分析の履歴
クラスターの数
距離
19 0.593721010
18 1.061293413
17 1.120122650
16 1.387373407
15 1.516320855
14 1.718666956
13 1.763473563
12 1.878577843
11 1.931205232
10 1.997082103
9 2.153375333
8 2.273528880
7 2.778118129
6 2.921482497
5 2.949965045
4 3.350878295
3 3.644718593
2 4.738608270
1 5.196520211
結合先 結合者
3
12
14
17
4
9
3
15
13
20
1
16
18
19
6
11
3
5
10
14
4
8
6
18
6
13
2
7
3
4
2
10
1
6
1
3
1
2
クラスター分析の履歴
クラスターの数
距離
6
2.809925874
5
3.677529368
4
4.338605988
3
4.608817692
2
4.865357785
1
5.417249612
結合先
経済力
趣味
容姿
容姿
経済力
経済力
第5章 クラスター分析
結合者
性格
相性
距離
年齢
趣味
容姿
57/63
5.3.1 理想の恋人(1) 2/2
ƒpƒ‰ƒŒƒ‹ƒvƒ
ƒbƒg
ƒNƒ‰ƒXƒ^
[2
•½‹Ï(”N—î) •½‹Ï(Žï–¡)
ƒNƒ‰ƒXƒ^
[3
•½‹Ï(‘Š
«) •½‹Ï(‹——£) •½‹Ï(
«Ši)
•½‹Ï(—eŽp)
•½‹Ï(Œo
Ï—Í)
ƒNƒ‰ƒXƒ^
[1
図5.7 パラレルプロットによる3つのクラスターの特徴
個体クラスターの特徴や意味について検討
方法
各変量について,クラスターごとの平均を計算し,パラレルプロット
により相対的な検討を行う
クラスター1&3とクラスター2の違いは,クラスター2は,経済力,容
姿,正確,距離といった外観的な項目を相対的に重要視していない
クラスター1とクラスター2&3の違いは,クラスター1は,相性や趣味
といった項目を相対的に重要視していない.
第5章 クラスター分析
58/63
5.3.2 理想の恋人(2) 1/2
今度はマハラノビス距離を使う
主成分得点の利用
Ž÷Œ`
}
•W
€‰»Žå
¬•ª1‚Æ•W
€‰»Žå
¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2 -1.5 -1 -0.5 0 .5 1 1.5 2
•W
€‰»Žå
¬•ª1
•W
€‰»Žå
¬•ª2
1
13
2
6
19
18
11
3
16
20
12
5
15
4
8
9
7
10
14
17
図5.8
主成分得点へのCLUST
第5章 クラスター分析
59/63
5.3.2 理想の恋人(2) 2/2
ユーグリッド距離とマハラノビス距離では結果
がことなる
マハラノビス距離の注意点
活用術 5.3:主成分得点の CLUST
主成分得点に基づいて CLUST を行う場合は,以下の点に注意する.
・得点は標準化したものを使う.
・用いる主成分の数は固有値上位のものに限る.
第5章 クラスター分析
60/63
5.3.3 選挙データへの k-means法の適用 1/3
2000&2001年度の比例区の選挙データについてk-means法で
分析してみよう.
データについて,
手順1.各政党の得票数は総得票数で割って県別の
政党別得票率を求める
手順2.政党別得票率に対して対数変換する
手順4.変数として用いる政党は
自民,民主,公明,共産,自由,社民 の6政党
手順5.データセットは以下のように準備する
北海道
~沖縄
2000年
北海道
~沖縄
2001年
第5章 クラスター分析
変数:政党別得票率
の対数
61/63
5.3.3 選挙データへの k-means法の適用 2/3
JMPを使い k-means法を適用する
・求めるクラスター数は2とする
(ここでは,年度の違い(小泉効果)により群が構成
されるという仮説にたつ)
・得られたクラスターを保存する
・主成分分析で,第2主成分まで求める
・主成分平面とクラスターを視覚的に比較する
テキストでは群を3つに指定している
違いをも読み取ろう
第5章 クラスター分析
62/63
5.3.3 選挙データへの k-means法の適用 3/3
1Žå
¬•ª‚Æ2Žå
¬•ª‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2
‰ªŽR 橋本氏
1
2Žå
¬•ª
0
“‡
ª 青木氏
‹{
è 武藤氏
Ž-Ž™“‡
•Ÿˆä Ώ

ì -1
‰ªŽR “‡
ª 羽田氏
’·–ì ’·–ì ‹{
è •Ÿˆä Ž-Ž™“‡
森氏
Ώ

ì -2
クラスターは
確かに選挙年による
構成比率(の対数)の
構造変化を捉えてくれる
どの県についても小泉効果
(矢印方向と長さ)が認められる
-3
K-means法による
クラスターで色分け
-4
-2
ŠâŽè -1
保守(与党)軸
2001年
0
1Žå
¬•ª
小沢氏
ŠâŽè 1
2
革新(野党)軸
2000年
第5章 クラスター分析
63/63