クラスター分析 §1 クラスター分析とはなにか

クラスター分析
§1 クラスター分析とはなにか
11月14日 (金)
発表者:大城 亜里沙
クラスター分析とは



クラスター分析:
収集したデータから,似たもの同士を集めて,いくつかのグループに分類す
る手法の総称。サンプルあるいは変数相互の,似ている度合いによって分
類を行う。
サンプルクラスター:
個々のサンプルについて測定されたデータを用いて,データの値が近いサン
プル同士を集める分類方法。(距離を用いる)
変数クラスター:
個々の変数をいくつかのグループに分類する方法。(相関係数を用いる)
サンプル間の距離を測定する方法(1)
ユークリッド距離
[平面の場合]

PQの距離をdとすると、
Q( x2 , y2 )
d  ( x2  x1 ) 2  ( y2  y1 ) 2
P( x1 , y1 )
[空間の場合]
Q
( x2 , y2 , z2 )
P
( x1 , y1 , z1 )
d  ( x2  x1 ) 2  ( y2  y1 ) 2  ( z2  z1 ) 2
サンプル間の距離を測定する方法(2)

マハラノビスの汎距離 :
いくつかの点が存在するときに,まわりの点のばらつきを考慮して
計算された、任意の2点間の距離のこと。
マハラノビスの汎距離をDとおくと、
D 2   ( xij  x j )S jk ( xik  x)
(ただし S jk は、共分散行列の逆行列)
詳細は、上巻 3 「判別分析」の§3を参照
サンプル間の距離を測定する方法(3)

相関係数 :
2変数間の関係の強さを表す係数。
〇クラスター分析で用いる距離は,類似しているほど,その値が小さくな
らなければならない。
〇相関係数は,変数同士が類似しているほど,値が大きくなる。
変換を行う
距離 d=2×(1-r)
( ただし、rは相関係数 ,-1≤r≤1 )
相関係数の値が大きいほど,距離dの値は小さくなる。
クラスター分析の計算のしかた(1)
クラスター分析の計算方法は,階層的方法と非階層的方法の2つに分けられる。
① 階層的方法 :
最も近いサンプル(変数)から順に見つけ,最終的には似たサンプル
(変数)がとなりあうように並べるもの。
樹形図
クラスターの数
||
樹形図と横線と
の交点の数
4つのグループになる。
7
5
2
1
8
4
6
3
クラスター分析の計算のしかた(2)
② 非階層的方法 :
あらかじめ決められたグループ数に、各サンプルを分ける方法。
<分け方>
〇グループ間の距離はできるだけ遠く,グループ内のサンプル相互の距離はで
きるだけ近くなるように分ける。繰り返しによって最適な分け方を決定する。
(グループ間の距離) ・・・ B=級間分散を用いる。
( B/Wが、最大となる分類を発見する。)
(グループ内におけるサンプルの距離) ・・・ w=級内分散を用いる。
級間分散
級間分散 : クラス間の広がり
級間分散=(級間偏差平方和)/(級間自由度)
級間偏差平方和=
Σ[(各クラスのデータの個数)×(各クラスの平均値-全体の平均値)
の二乗]
級間自由度=(クラスの数)-1
級内分散
級内分散 : クラスの平均的な広がり
級内分散=(級内偏差平方和)/(級内自由度)
級内偏差平方和=Σ(各データ -各クラスの平均値)の二乗
級内自由度=Σ(各クラスのデータの個 -1)