ダウンロード

2013/01/15 鈴木健太

一定の手続きによって似ている対象(個体または変量)を自動的に集めて分類する手
法である。
→つまり、調査対象を「似たものどうし」にまとめる手法。

各変数の得点範囲が異なる場合には(たとえば変数1が最低0~最高10,変数2が最低1
~最高100など),事前に「標準得点」(平均0,標準偏差1)に変換しておくのがよい
→標準化の仕方:[データ]メニューから[アクティブ
データセット内の変数の管理]→[変数の標準化]

デンドログラム(ツリーダイアグラム)という図が表示されるのが特徴。
→要するに樹形図。

ホームページのExcelデータ「10 data」をダウンロードし、「クラ
スタ分析-1」のシートの表をRに読み込みます。
※Rコマンダーの立ち上げコマンド:library(Rcmdr)
※読み込みの仕方:表をコピーして[データ]→[データのインポート]→[テキストファイルまたはクリップボード・・・]→クリップボードにチェック

Rコマンダー上メニューの[統計量]→[次元解析]→[クラスタ分
析]→[階層的クラスタ分析]

変数に2つとも選択。クラスタリング法:の右に好きな名前をつ
ける(デフォルトはHclust.1)

今回は、クラスタリングの方法「最短距離法」で、距離の測度
「ユークリッド距離」。また、「デンドログラムを描く」にチェックが
あることを確認。OKを押す。

Rのコマンドを入れるところに樹形図のような表が出たら成功。

例えば、Heightが10の所(右図の赤線)
で切ってみると、[1,2,3] , [4,5,6] ,
[7,8,9] という3つのグループが出来る。

このようにグループを分けてみて、各グ
ループの独自の特徴を考えてみる。うまく
特徴が見えてきたらクラスタ分析成功。

なお、クラスタ分析は「この基準で分けて
みたら興味深い,納得できる分類ができ
た」という態度で臨むもの。探索的に行う
もので、グループ分けの絶対的な基準が
あるわけではない。
あくまで分析者が考える結果を考えるた
めの材料提供。


Excelデータ「10 data」の「クラスタ分析-2」のシートの表をR
に読み込みます。

Rコマンダー上メニューの[統計量]→[次元解析]→[クラスタ分
析]→[階層的クラスタ分析]

変数に2つとも選択。クラスタリング法:の右に好きな名前をつ
ける(途中で切ってなければHclust.2になってる)

今度は、クラスタリングの方法「ウォード法」で、距離の測度
「ユークリッド距離」。また、「デンドログラムを描く」にチェックが
あることを確認。OKを押す。

Rのコマンドを入れるところに樹形図のような表が出たら成功。







今回は、例えばHeightが4のあたりで切ってみると4つのグループが
出来る。
次は、この4グループがどんな特徴を持っているか検討する。
下準備として
Rコマンダー上メニューの[統計量]→[次元解析]→[クラスタ分
析]→[階層的クラスタリングの結果をデータセットに保存]
「クラスタリング解の1つを選択」で今回実行した方を選択(自分で名
付けてなければHclust.2)
「クラスタ数」のスライドを動かして、グループ数の4にする。そしたら
OK。
データセットを表示(上メニュー[分布]の下)をすると、表にグループが
追加されたことが確認できるはず。下準備終わり。




Rコマンダー上メニューの[統計量]→[次元解析]→[ク
ラスタ分析]→[階層的クラスタリングの要約]
「クラスタリング解の1つを選択」で今回実行した方を
選択(自分で名付けてなければHclust.2)
「クラスタ数」のスライドを動かして、グループ数の4に
する。そしたらOK。
結果の見方は次ページ



Rコマンダーの出力ウィンドウに下のように表示されるはず。
各グループごとの検査別平均値が表示されている。
この結果より、
◦
◦
◦
◦
第1グループは検査1が中程度で検査2は低い
第2グループは検査1の得点が低く、検査2が高い
第3グループは検査1の得点が高く、検査2が中程度
第4グループは検査1も検査2も得点が低い

という特徴をもつ事がわかる

INDICES: 1

検査1 検査2

5.625 4.750

------------------------------------------------------------

INDICES: 2

検査1 検査2

3.50 7.75

------------------------------------------------------------

INDICES: 3

検査1 検査2

8.000000 6.333333

------------------------------------------------------------

INDICES: 4

検査1 検査2

3.0
5.2