情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』

情報知能学基礎演習
豊田秀樹(2008)『データマイニング入門』 (東京図
書)第6章
情報知能学科
白井 英俊
前回のコメント・質問
• 連関規則を作る時に、信頼度、サポートの下限の値を記入し
ますが、信頼度は事前確率より高くないといけないので、
itemFrequenryで出した値の中で、一番高いのより、少し高く
しといたほうがいいでしょうか。
• itemFrequencyPlotとすることによって一行前にあった
itemFrequencyという変数(?)をplotしてるのでしょうか?
• 温泉のデータマイニングの時、効能的には一緒なのにヘッド
とボディの部分を入れ替えるだけで確率が変わるのが少し
納得がいかなかった
• 信頼度とか前提確率とかはわかるのですがsupport(サポー
ト)っていったい何なんだろうと思った
前回のコメント・質問(続き)
• inspect(SORT(雨ルール, “support”)[1:10, ]) について
1. SORTって小文字でもいいのでは。何か意味があるのでし
ょうか?
2. [1:10,]ってところは1~10まで並べるって意味なのでしょ
うか?
• options(digits=2)での表示桁数の変更はなぜ行っているので
しょうか?
• print(inspect(温泉ルール[c(20,21, 70, 69, 3, 4, 127, 83, 61),
]), digits=3)で、表示の最後にNULLと表示されるのはなぜでし
ょうか?
• Rを開きなおさずに、それまでの実行をなかったことにできる
ようなコマンドやツールはないのですか?
6章 クラスター分析
• クラスター分析: 観測対象を、互いに似たも
の同士(「類似度」)でグループ分け
• 二つの分類:
1. 階層的: 「階層」とは動植物の体系のように、分
類が大分類から小分類へと段階的に分類が細
かくなっているようなもの
2. 非階層的
6.1 階層的クラスター分析
• 類似度の定義
ユークリッド距離(日常的な感覚の「距離」)
2変数の場合: ( xi1, xi 2 ) と ( x j1, x j 2 ) の
距離dij = ( xi1  x j1 ) 2  ( xi 2  x j 2 ) 2
多変量の場合(n次元)
d ij 
n
2
(
x

x
)
 ik jk
k 1
6.1.2 動物の分類を例に
• 階層的クラスター分類の手順
1. 変数を用いて個々の対象間の距離をすべて計算し、そ
の中で距離が最も短い対象同士を併合して、最初のク
ラスターを作成
2. 新しく併合されたクラスターと他の対象間の距離を再度
計算し、手順1で計算された対象間の距離を含めてもっ
とも近いものを併合する。
3. 手順2を繰り返して、すべてのクラスターが統合されるま
で計算
4. クラスターが併合される過程を表すデンドログラムを描く
動物の分類を例にした距離
動物
体重(kg)
脳の重さ(g)
標準化(平均0.0、分散1.0)
動物
体重
脳の重さ
牛
465
423
牛
0.921
-0.581
馬
521
655
馬
1.175
0.016
ゴリラ
207
406
ゴリラ
-0.246
-0.625
人間
62
1320
人間
-0.902
1.727
チンパンジー
52
440
チンパンジー
-0.947
-0.537
距離を求める
牛
「牛」と「馬」を一つのクラスターにする
最小値 馬
ゴリラ
馬
0.65
ゴリラ
1.17
1.56
人間
2.94
2.69
2.44
チンパンジー
1.87
2.19
0.71
人間
2.26
クラスター間の距離
ゴリラ
C1:牛+馬
ゴリラ
1.34
人間
2.80
チンパンジー
2.01
最小値
人間
2.44
0.71
2.26
「ゴリラ」と「チンパンジー」を
一つのクラスターにする
•
重心法: クラスターの重心(平均)からの距離
• 最短距離法: クラスター内の要素からの最短距離
• 最長距離法: クラスター内の要素からの最長距離
• 群平均法: クラスター内の要素からの距離の平均
デンドログラム
人間
1.0
距離行列
hclust (*, "average")
チンパンジー
ゴリラ
馬
牛
0.5
Height
1.5
2.0
2.5
動物のクラスター分析
6.1.4 ウォード法
• ウォード法:2つのクラスターを併合する時に、クラ
スター内の平方和を最小にするようにクラスターを併
合する
クラスター間の距離:2つのクラスターを併合した時
の平方和(散布度)の増加量で定義
平方和の増加量が大きい⇒2つのクラスターが類似していない
⇒平方和の増加量が小さいものから併合することで、似たも
の同士がまとまる
散らばりの変化量=併合後の平方和 - ∑(それぞれの平方和)
ウォード法(続き)
• 利点:鎖効果が起こりにくい
鎖効果:ある一つのクラスターに対象が一つずつ順
番に吸収されて、クラスターの形成がなされていく
減少。
特に最短距離法でこれが起こりやすい
重心法は、クラスター併合後に距離が短くなる場
合があり、距離の単調性が保証されない
クラスター法は実用場面でよく使われ、お勧め
ヒートマップ
(図6.5)
六本木
銀座
お台場
横浜
新宿
渋谷
上野
浅草
吉祥寺
先進的
派手
いそがしい
しゃれた
開放的
冷静
早稲田
6.2 非階層的クラスター分析
• 非階層的手法では、あらかじめ指定したクラ
スター数で観測対象を分類
• 利点:計算が速い。大量のデータを処理する場合
は、クラスター数の大体の目星をつけて、クラスター
数を変えて非階層的手法を数回実施した方が効率
が良い(場合が多い)
• 欠点: クラスター数を指定しなければ分析できない
k-means法
• MacQueen(1967)による提案
1. N個の観測対象をK個の初期クラスターに任意に
分類しておく
2. 各クラスターの中心点を計算
3. N個の観測対象のK個のクラスターの中心点への
距離を計算(N*K個)
4. すべての観測対象に関して、その時点で各自が
所属しているクラスターへの距離が、K個のクラス
ターの中で一番近ければ計算終了。さもなければ、
一番近いクラスターに割り当てなおして2へ。
k-means法の確認
4つの観測対象、2次元の特徴量
この観測対象を2つのクラスターに
分ける(K=2)
観測対象
(1) AB と CD に分類
(2) クラスターの中心点を
求める:
AB = (2,3), CD = (-1,-1)
x1
x2
A
6
4
B
-2
2
C
0
-2
D
-2
0
k-means法の確認(続)
(3) それぞれの観測対象から
、これらの中心点への距
離を計算(右表、赤字は各
行の最小値)
観測対象
(AB)
(CD)
A
17
74
B
17
10
C
29
2
D
25
2
(4) Bが誤分類されているため、 クラスター
を(A)と(BCD)に分類し、中心点を計算:
(A)=(6,4), (BCD)=(-1.3, 0 )
観測対象
(5)それぞれの観測対象か
ら、これらの中心点への距
離を計算(右表)⇒終了
(A)
(BCD)
A
0
69.8
B
68
4.44
C
72
5.78
D
80
0.44
非階層法の注意
• クラスターの解釈は分析者の責任
• 初期クラスターの初期値に依存するため、出
力はいつも同じとは限らない
• 分析者の判断により、適切なクラスター数を
決定して解釈を行う