クラスター分析 §1 クラスター分析とはなにか 11月14日 (金) 発表者:大城 亜里沙 クラスター分析とは クラスター分析: 収集したデータから,似たもの同士を集めて,いくつかのグループに分類す る手法の総称。サンプルあるいは変数相互の,似ている度合いによって分 類を行う。 サンプルクラスター: 個々のサンプルについて測定されたデータを用いて,データの値が近いサン プル同士を集める分類方法。(距離を用いる) 変数クラスター: 個々の変数をいくつかのグループに分類する方法。(相関係数を用いる) サンプル間の距離を測定する方法(1) ユークリッド距離 [平面の場合] PQの距離をdとすると、 Q( x2 , y2 ) d ( x2 x1 ) 2 ( y2 y1 ) 2 P( x1 , y1 ) [空間の場合] Q ( x2 , y2 , z2 ) P ( x1 , y1 , z1 ) d ( x2 x1 ) 2 ( y2 y1 ) 2 ( z2 z1 ) 2 サンプル間の距離を測定する方法(2) マハラノビスの汎距離 : いくつかの点が存在するときに,まわりの点のばらつきを考慮して 計算された、任意の2点間の距離のこと。 マハラノビスの汎距離をDとおくと、 D 2 ( xij x j )S jk ( xik x) (ただし S jk は、共分散行列の逆行列) 詳細は、上巻 3 「判別分析」の§3を参照 サンプル間の距離を測定する方法(3) 相関係数 : 2変数間の関係の強さを表す係数。 〇クラスター分析で用いる距離は,類似しているほど,その値が小さくな らなければならない。 〇相関係数は,変数同士が類似しているほど,値が大きくなる。 変換を行う 距離 d=2×(1-r) ( ただし、rは相関係数 ,-1≤r≤1 ) 相関係数の値が大きいほど,距離dの値は小さくなる。 クラスター分析の計算のしかた(1) クラスター分析の計算方法は,階層的方法と非階層的方法の2つに分けられる。 ① 階層的方法 : 最も近いサンプル(変数)から順に見つけ,最終的には似たサンプル (変数)がとなりあうように並べるもの。 樹形図 クラスターの数 || 樹形図と横線と の交点の数 4つのグループになる。 7 5 2 1 8 4 6 3 クラスター分析の計算のしかた(2) ② 非階層的方法 : あらかじめ決められたグループ数に、各サンプルを分ける方法。 <分け方> 〇グループ間の距離はできるだけ遠く,グループ内のサンプル相互の距離はで きるだけ近くなるように分ける。繰り返しによって最適な分け方を決定する。 (グループ間の距離) ・・・ B=級間分散を用いる。 ( B/Wが、最大となる分類を発見する。) (グループ内におけるサンプルの距離) ・・・ w=級内分散を用いる。 級間分散 級間分散 : クラス間の広がり 級間分散=(級間偏差平方和)/(級間自由度) 級間偏差平方和= Σ[(各クラスのデータの個数)×(各クラスの平均値-全体の平均値) の二乗] 級間自由度=(クラスの数)-1 級内分散 級内分散 : クラスの平均的な広がり 級内分散=(級内偏差平方和)/(級内自由度) 級内偏差平方和=Σ(各データ -各クラスの平均値)の二乗 級内自由度=Σ(各クラスのデータの個 -1)
© Copyright 2024 ExpyDoc