PowerPoint プレゼンテーション

多変量解析B 第1回
第1章:データ分析とJMP
林俊克&廣野元久「多変量データの活用術」:海文堂
永田靖&棟近雅彦「多変量解析法入門」:サイエンス社
廣野元久
2004.4.14. SFC5限
第1章 データ分析とJMP
1/47
この授業での約束






遅刻,早退はしない(大幅減点)
授業中は携帯の電源を切る(大幅減点)
単位取得申請をしたらあきらめないで最後まで授業に出続ける
授業中の討論には積極的に参加する(加点)
課題は期日までに提出する(救済措置は取りません)
メインのソフトはJMP V5を使用するが,細かい操作手順は紹介
しないので自己学習する
 配布物は,そのとき限りとするので,やむを得ない事情で授業を
欠席した場合には,各自,友人からコピーをすること
 配布物の部数には限り(前回の授業参加数分を用意します)があ
るので,各自1部以上受け取らないこと
以上,如何なる理由があろうと守ってください.
第1章 データ分析とJMP
2/47
評価について
 最終報告書(60)
 手法の活用度(20)
 手法を正しく使っていること(20)
 報告書の論点がぶれていないこと(10)
 ストーリ展開の面白さ(10)
 授業態度(40)
 通常課題(30):1つの課題について評価の比率
は最終リポートと同じ
 積極的な質問や討論への参加(10)
第1章 データ分析とJMP
3/47
科学的データ分析
 自分の考えや方法を相手に理解させ,実現するには
①
②
③
④
威圧:力つく(暴力に訴えて)で押し切る
情念:情念や想いでハートに訴えかける
論理:具体的な命題を証明し,理屈で証明する
逃避:議論を避け,自分の殻の中で夢想を続ける
<現代のビジネスシーン>
世の中の具体的な現象を数量で代用し,
数量を論理的な段階を踏んで整理,分析することで
自身の提案の正しさを証明し,相手を説得する
データ分析は論理学である
第1章 データ分析とJMP
4/47
第1章 データ分析とJMP
本日の内容
多変量解析法とは何か
どのような方法があるのか
どういう形式のデータに適用するのか
どのような目的で用いるのか
どのような結果が得られるのか
第1章 データ分析とJMP
5/47
多変量データの分析目的
5つの観点
現象や構造の縮約と単純化
主成分分析,因子分析や対応分析
分類や層別による差異
クラスター分析や判別分析
予測
決定分析や重回帰分析
仮説の検証と検定
グラフィカルモデリングや構造方程式モデル
因果関係の把握と制御
実験計画法やコンジョイント分析
第1章 データ分析とJMP
6/47
本講座で扱うサンプルデータ
手法:掲載章
アイデア創出・仮説探索
現状認識
① 現象や構造の縮約と単純化
・合成指標の発見
(量的データ)
(質的データ)
分類・層別
② 分類や層別による差異
・潜在的な群の抽出
・既存の群の特徴抽出
・判別ルールの作成
・判別ルールによる予測
対策立案・仮説検証
③ 予測
・要因の制御
・効果の影響度
⑤ 因果関係の把握と制御
④ 仮説の検証と検定
・因果の同定
フォルダ
サンプル
ユーザ提供
ユーザ提供
ユーザ提供
ユーザ提供
ユーザ提供
ユーザ提供
サンプル
ユーザ提供
ユーザ提供
サンプル
ユーザ提供
ユーザ提供
ユーザ提供
サンプル
ユーザ提供
ユーザ提供
ユーザ提供
ユーザ提供
サンプル
ユーザ提供
サンプル
ユーザ提供
ユーザ提供
ユーザ提供
-ファイル無-
ファイル名
ビッグクラス
3
電子部品A
部下の上司評価
主成分分析
理想の恋人
食の好み
選挙データ2001
主成分数値例
車の調査
4
8人の好物
対応分析
プリンタ評価
ビッグクラス
5
クラスター例
クラスター分析
理想の恋人
選挙データ2001
ビッグクラス
6
部品調達
判別分析
デジカメデザイン
色差と嗜好
商品購入重要度
車の調査
7
化粧品
決定分析
あやめ
色差と嗜好
8
多重共線性
重回帰分析
商品満足度
**
(コンジョイント分析)
(FAXの選好度)
*
(IC工程)
9
*
*
グラフィカルモデリング JMP未対応 (市販乳の外観イメージ)
*
(従業員満足度)
第1章 データ分析とJMP
7/47
道具としての統計的方法
• 統計解析の見方,考え方
– はじめに
• 知りたいことは,調べてみないと分からない
• 多くの知りたいことは,すべてを調べることはでき
ない
• 知りたい多くの事柄は変動している
• 主要な部分(共通性)に光をあてる
---金鉱から純金を分離する作業
• KKD(勘・経験・度胸)にたよらずに,
科学的手順(作法)で
ものの本質を解明する
第1章 データ分析とJMP
8/47
1.1 データの見方・考え方
 知りたいことは調べて見ないと分からない
 現象を数値データや言語情報で代用する
 知りたいことの多くは,全てを調べることができない
 知りたい多くの事柄は変動している
 得られたデータは,時と場所,場合によって異なる
 得られたデータの1つ1つは異なる(ばらついている)
 得られたデータの代表値も標本ごとに異なる
 知りたいことの多くはばらつきを持っているものである
 ばらつきに惑わされないで,ものの本質を理解する
 ばらつきの中から主要な部分(共通性)に光をあてる
 金鉱から純金を分離する作業
 KKD(勘・経験・度胸)に頼らずに科学的手順(作法)で解明する
 ばらつきの大きさを評価する
第1章 データ分析とJMP
9/47
1.1.1 事実から真実の推測
例としてVTRの録画可能時間を調べてみる
データ
測定したVTRテープの録画時間の余裕度の100個
のデータは表1に示すとうりである.測定単位は(秒)で
ある.
表1 VTRテープ100本の余裕度のデータ
(単位:秒)
第1章 データ分析とJMP
10/47
1.1.1 事実から真実の推測
 100個の測定データから共通性を見つけるのは難しいので,
グラフにしたりデータを要約する
•ªˆÊ“ _
˜^‰ 掞ŠÔ‚̍
·(•b)
240
58
230
220
210
200
190
180
170
160
100.0%
Å ‘å’l

99.5%
97.5%
90.0%
75.0%
4•ªˆÊ“_
50.0% ’†‰›’l(ƒ
ƒfƒBƒAƒ“)
25.0%
4•ªˆÊ“_
10.0%
2.5%
0.5%
0.0%
ō

¬’l
237.00
237.00
220.00
217.90
210.75
203.00
196.25
191.10
179.10
140.00
140.00
ƒ‚ 
[ƒ 
ƒ “ ƒg
150
49
140
130
タイトル
•½‹Ï
202.83
•W
€•Î
·
12.051284
•½‹Ï‚Ì•W
€Œë
·
1.2051284
•½‹Ï‚̍
㑤95%
M—ŠŒÀŠ E 205.22124
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠ E200.43876
N
100
図1.1 録画時間の差(秒)の分布
第1章 データ分析とJMP
11/47
1.1.1 事実から真実の推測
• H氏は,ビデオテープの録画時間を調べるため
に100個のデータを測定した
• 録画時間は表示より3分23秒長い
標本
母集団
標本で知りえたこと
(事実)
研究対象
本当に知りたいこと 母集団でもあてはまるか
(真実)
(普遍性)
第1章 データ分析とJMP
12/47
1.1.1 事実から真実の推測
標本で知りえたこと
(事実)
標本1
標本2
標本3
標本4
母集団
標本i
値は標本毎に
研究対象
違っている
本当に知りたいこと
母集団でもあてはまるか
(変動)
(普遍性)
(真実)
第1章 データ分析とJMP
13/47
1.1.1 事実から真実の推測
•
•
•
•
真実の探求
不確定要素の集まりによりものは変動する
値が動くもの 変量(variable) と呼ぼう
変動が確率的に考えられるもの
確率変量(random variable) X,Y,
概念
実現値(記号)
X
x
第1章 データ分析とJMP
実際の値
69 (kg)
167 (cm)
42 (才)
男
14/47
1.2 JMPの分析メニュー
メニュー
JMPスタータ
スタータを使えば,素早く
目的の分析ができる
図1.2 JMPの起動画面
 JMPウインドウ
 コマンド:JMPの機能をコントロールする
 メニュー:コマンドを目的別にまとめたもの
 分析プラットフォーム:分析のためのウインドウ
第1章 データ分析とJMP
15/47
1.2 JMPの分析メニュー
ファイルメニュー
図1.3 ファイルメニュー一覧
第1章 データ分析とJMP
16/47
1.2 JMPの分析メニュー
編集メニュー
図1.5 テーブルメニュー一覧
図1.4
編集メニュー一覧
第1章 データ分析とJMP
17/47
1.2 JMPの分析メニュー
 行メニュー
図1.6
行メニュー一覧
第1章 データ分析とJMP
18/47
1.2 JMPの分析メニュー
 列メニュー
図1.7
列メニュー一覧
第1章 データ分析とJMP
19/47
1.2 JMPの分析メニュー
 分析メニュー
主成分分析
重回帰分析
図1.8
分析メニューの一覧
第1章 データ分析とJMP
20/47
1.2 JMPの分析メニュー
 その他のメニュー
図1.9 その他のメニューの一覧
第1章 データ分析とJMP
21/47
変量の役割
第1章 データ分析とJMP
22/47
1.2.2 JMPの基本操作 –起動と終了–
 JMPをインストールするとアイコンが画面に表示される
図1.10 JMPのショートカット
 起動:アイコンをダブルクリックする
 データ読込:ファイルメニューから既存のデータファイ
ルを読み込む
 分析:目的に合わせた分析を分析メニューから選び実
行する
 保存:分析結果をジャーナルやスクリプトに保存する
 終了:ファイルメニューの終了をクリックして終わらせる
第1章 データ分析とJMP
23/47
1.3 データ分析の活用指針
 データをコンピュータに入力すると,役に立つ結
果が自動的に出てこない
 自動課題解決装置ではない
 データ分析は考える人の筆記用具
 データが得られたら,まずグラフにして分析戦略
を考える
 データの中には,よい子もいれば,普通の子もい
れば,悪い子もいる
第1章 データ分析とJMP
24/47
1.4 データと測定の尺度
 分析するデータの形式
変量名
テーブルパネル
x1 , x2 ,
, xi ,
, xp
個体
1
2
3
・
・
・
データグリッド
行:個体(オブザベーション)
列:変量
n
個体番号
図1.12 ビッグクラスのデータ
(個体)×(変量)の形式のデータを多変量データと呼ぶ
第1章 データ分析とJMP
25/47
1.4 データと測定の尺度
図1.13
変量の持つ尺度
第1章 データ分析とJMP
26/47
多変量データ
A
B
問題意識
多変量解析
手法選択
C
・
・
・
解析
結果
1.知見に照らし合わせて
解釈を行う
2.報告書作成
3.プレゼン
データの観測・収集
多変量解析はデータの統合化
合成指標の作成
Z  w1x1  w2 x2 
 wp xp
合成指標=重み×生データの特性
第1章 データ分析とJMP
27/47
重回帰分析
中古マンションデータ
サンプル
広さx1
築年数x2
価格y
1
51
16
3.0
2
38
4
3.2
3
57
16
3.3
4
51
11
3.9
5
53
4
4.4
6
77
22
4.5
e  (In  x( x ' x) x ') y
7
63
5
4.5
3)モデル式の確定
8
69
5
5.4
9
72
2
5.4
10
73
1
6.0
yˆ  b0  b1x1  b2 x2
1)重みを計算する
1
b  ( x ' x) x ' y
2)誤差を調べる
1
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
28/47
重回帰分析
1.データ:都内の中古マンションデータ(価格と広さと築年数)
・予測や制御したい1個の変量がある
・予測や制御に使う複数の変量がある
知りたいこと
1)価格は広さと築年数とによって予測できるか
2)予測できるとすれば,その精度はどのくらいか
3)同じ地区で広さ70m2,築10年のとき価格5800万円は妥当か
分かること
1)回帰式の推定 yˆ  1.02  0.0668x1  0.0808x2 x1 : 広さ ,x2 : 築年数
により予測可能
2)自由度調整済寄与率0.933であり,精度は十分である
3)回帰式に x1  70, x2  10 を代入すると yˆ  4.89
を得る
信頼率95%の予測区間(4210,5570)
相場より高い
第1章 データ分析とJMP
29/47
数量化1類
成績データ
サンプル
線形代数x1 サークルx2
総合成績y
1)ダミー変数を作る
1
優
所属
96
2
優
所属
88
3
優
無所属
0 優
0 優
0 所属
x11  
, x12  
, x2  
1 無所属
1 良
1 可
77
4
優
無所属
89
5
良
所属
80
6
良
無所属
71
7
良
無所属
77
8
可
所属
78
9
可
所属
70
10
可
無所属
62
2)重みを計算する
1
b  ( x ' x) x ' y
3)残差の検討,モデル式確定
yˆ  b0  b1x1  b2 x2
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
30/47
数量化1類
1.データ:大学卒業時の成績データ
(線形代数とサークル所属と総合成績)
・予測や制御したい1個の変数がある
・予測や制御に使う複数の変数がある
知りたいこと
1)総合成績は線形代数の成績とサークル所属の有無より予測できるか
2)予測できるとすれば,その精度はどのくらいか
3)線形代数が優でサークル無所属の学生の総合成績はどのように予測できるか
 0 優
分かること

 0 無所属
ˆ
y  83.0   10.0 良   
1)回帰式の推定

9.0
所属

19.0 可  
により予測可能


2)自由度調整済寄与率0.727であり,精度はそこそこである
3)回帰式に線形代数が優=0,サークル無所属=1を代入する
yˆ  83.0
を得る
第1章 データ分析とJMP
31/47
判別分析
健康診断データ
サンプル
状態 y
検査値 x1
検査値2 x2
1
健常者
50
15.5
2
健常者
69
18.4

 群1 y=n2 /  n1  n2 
  ( x ' x) x ' y 

群2 y=-n1/  n1  n2 
3
健常者
93
26.4
2)判別率を調べる
4
健常者
76
22.9
5
健常者
88
18.6
6
患者
43
16.9
7
患者
56
21.6
8
患者
38
12.2
9
患者
21
16.0
10
患者
25
10.5
1)2群の相関比η2を最大に
1
判定
A B
実 A
群 B
3)モデル式の確定とルール化
DF   0 1x1  2 x2   p xp
ここの符号(正負)で判定
値そのものに意味はない
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
32/47
判別分析
1.データ:健康診断データ(健常/患者と検査値1と検査値2)
・グループ分けに使いたい複数個の変数がある
・グループを示す1個の質的変数がある
知りたいこと
1)疾患にかかっているか否かを2つの検査値から判別できるか
2)判別できるとすれば,その精度はどのくらいか
3)同じ健康診断で検査1=68,検査2=21.6は健常者か
分かること(テキストとは異なる)
1)判別関数の推定 yˆ  -6.639  0.226 x1  0.334 x2 x1 : 検査1,x2 : 検査2
により予測可能
2)判別率9/10=0.9であり十分である
yˆ  1.51を得る
3)判別関数に x1  68, x2  21.6 を代入すると
この場合,健常者は正値であるので健常者と予測できる
第1章 データ分析とJMP
33/47
数量化2類
健康診断データ
サンプル
状態 y
吐き気 x1
頭痛 x2
1)ダミー変数を作る
1
健常者
無
少
2
健常者
少
無
0 無
0 無
0 無
0 無
x11  
, x12  
, x21  
, x22  
1 少
1 多
1 少
1 多
3
健常者
無
無
4
健常者
無
無
5
健常者
無
無
6
患者
少
多
7
患者
多
無
8
患者
少
少
9
患者
少
多
10
患者
多
少
(永田&棟近 多変量解析法入門,
サイエンス社,2000より引用)
2)2群の相関比η2を最大に

 群1 y=n2 /  n1  n2 
  ( x ' x) x ' y 

群2 y=-n1/  n1  n2 
1
3)モデル式の確定とルール化
DF   0 1x1  2 x2   p xp
A
ここの符号(正負)で判定
値そのものに意味はない
第1章 データ分析とJMP
B
A
B
34/47
数量化2類
1.データ:健康診断データ(健常/患者と吐き気と頭痛)
・グループ分けに使いたい複数個の変数がある
・グループを示す1個の質的変数がある
知りたいこと
1)疾患にかかっているか否かを吐き気と頭痛から判別できるか
2)判別できるとすれば,その精度はどのくらいか
3)同じ健康診断で吐き気=無,頭痛=多は健常者か
吐き気
頭痛
 0 無  0 無
分かること

 

yˆ  12.80   9.6 少    6.4 少 
1)判別関数の推定
20.8 多   14.4 多 
により予測可能

 

2)判別率10/10=0であり十分である
3)判別関数に吐き気=無,頭痛=多を代入すると yˆ  1.60 を
得る この場合,健常者は正値であるので患者と予測できる
第1章 データ分析とJMP
35/47
主成分分析
試験の成績データ
生徒
国語 x1 英語 x2 数学 x3
理科 x4
1
86
79
67
68
2
71
75
78
84
3
42
43
39
44
4
62
58
98
95
5
96
97
61
63
6
39
33
45
50
7
50
53
64
72
8
78
66
52
47
9
51
44
76
72
10
89
92
93
91
1)分散最大の合成変数を順次
作る
A  UDV '
2)主成分軸の確定
Z   0 1x1  2 x2 
 p x p
3)主成分軸の解釈
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
36/47
主成分分析
1.データ:学業成績データ(国語,英語,数学,理科)
・合成指標を作る複数個の変数がある
・変数の役割は全て同じ
知りたいこと
1)主成分の構成により低い次元でデータを解釈できないか
2)それぞれの主成分の説明力はどれくらいか
3)科目や生徒の特徴付け,分類をどのようにできるか
国語 英語 数学
理科
 x  
 x  
 x  
 x  
z  0.487 
分かること
  0.493 
  0.511
  0.508 

  
 

 

 

1)主要成分の推定
 x  
 x  
 x  
 x  
1
1
2
2
3
3
4
4
1
1
z2  0.527  1
 1
2
1
  0.474 

 2
2
3
2
  0.481

 3
3
4
3
  0.516 
 4

4
4


2)第2主成分までの累積寄与率は0.986であり十分である
3)係数の値より,第1主成分は総合力,第2主成分は文系,理
系の違い
第1章 データ分析とJMP
37/47
主成分分析
‘ŠŠÖ‚Æ ˆöŽq•‰‰×—Ê
Žå
¬ •ª •ª
Í : ‘ŠŠÖŒ W
”
s—ñ‚©‚ç
ŒÅ—L’l
2.7207
1.2218
0.0524
0.0051
Šñ—^—¦
68.0183 30.5450
1.3103
0.1264
—ݍ
ÏŠñ—^—¦ 68.0183 98.5633 99.8736 100.0000
ŒÅ—Lƒx ƒNƒgƒ‹
‘Œê

0.48727 0.52734 0.49897 0.48529
‰pŒê
0.51054 0.47400 -0.53867 -0.47383
” Šw

0.50832 -0.48075 0.50411 -0.50632
—
‰È
0.49349 -0.51587 -0.45467 0.53256
0.75
1
1
‘
ΐ
‰pŒê
0.5
3
0.25
0
10
6
Žå
¬•ª2
Žå
¬•ª2
—
‰ È Žå
¬•ª1
Žå
¬•ª2
0.3113
0.8037
0.5829
0.3983
0.8421
0.5239
0.9721
0.8385 -0.5314
1.0000
0.8140 -0.5702
0.8140
1.0000
0.0000
-0.5702
0.0000
1.0000
1
5
8
2
7
-1
-2
-1
0
Žå
¬•ª1
1
主成分得点
”
Šw
—
‰È
-0.5
4
-2
0
-0.25
9
-3
‰pŒê 
” Šw
0.9670
0.3761
1.0000
0.4146
0.4146
1.0000
0.3983
0.9721
0.8421
0.8385
0.5239 -0.5314
Žå
¬ •ª 1‚ÆŽå
¬ •ª 2‚Ì“ñ•Ï— Ê‚ÌŠÖŒ W
Žå
¬ •ª 1‚ÆŽå
¬ •ª 2‚Ì“ñ•Ï— Ê‚ÌŠÖŒ W
2
‘Œê

1.0000
0.9670
0.3761
0.3113
0.8037
0.5829
‘
ΐ
‰pŒê
” Šw

—
‰È
Žå
¬•ª1
Žå
¬•ª2
2
3
-0.75
-1
-1
-0.75 -0.5 -0.25 0
.25
Žå
¬•ª1
第1章 データ分析とJMP
因子負荷量
.5
.75
1
38/47
主成分分析の例
第一成分
新しい物好きの選好度
丈夫そうな
現代的な
質感
B
高級感
楽しい
全体の選好度
好きな
親しみのある
G
新鮮な
G
F
精密感
D
オリジナリティー
使いやすそうな
飽きのこない
小さく見える
カメラらしい
目立つ
B
E
F
第二成分
D
A
E
C
A
第1章 データ分析とJMP
C
1994年
39/47
正準判別分析の例
デジタルカメラのデザイン評価による布置
4
3
非流線
機能
I
F
B
2
1
E
伝統
J
新規
A
H
-1
D
G
0
C
³
€2
期待
-2
精密
-3
抵抗
-4
-4
-3
-2
-1
0
³

€1
1
2
3
4
2002:これは,正準判別と呼ばれる手法を使っています
第1章 データ分析とJMP
40/47
対応分析
児童の得意科目データ
生徒
1
国語 x1
社会 x2
算数 x3
○
○
3
○
4
○
図工 x6
○
○
○
○
○
○
○
6
○
7
○
○
○
9
○
体育 x7
○
○
5
10
音楽 x5
○
2
8
理科 x4
○
○
○
○
○
○
○
○
○
○
○
○
1)行と列との相関が高くなるように並べ替える
2)データの頻度から合理的な得点を与える
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
41/47
対応分析
1.データ:学童の好きな科目データ(国語,英語,数学,理科,等)
・合成指標を作る複数個の質的な変数がある
・変数の役割は全て同じ
知りたいこと
1)科目と児童に数量を与え,低い次元でデータを解釈できないか
2)そのような数量化によって説明力はどれくらいか
3)科目や児童の特徴付け,分類をどのようにできるか
分かること
1)科目に与える主要な数量として,成分1(-0.581,-0.840,・・・,
-0.949)と成分2(-0.336,-0.335,・・・,1.000)を得る.児童に与える
数量として (0.167,1.120,・・・, -0.291)と成分2(-0.179,-397,
・・・,-0.616)を得る.
2)第2成分までの累積寄与率は0.655でありほどほどの説明力
3)数量で散布図を描くと,科目や児童の特徴付けができる
第1章 データ分析とJMP
42/47
対応分析
ڍ

×
JMP出力
ƒ‚ƒUƒCƒN
}
1.00
10
9
8
7
6
5
4
3
2
1
Ž™“¶
0.75
0.50
0.25
0.00
‰¹Šy ŽZ ” ŽÐ‰ï ‘̈ç
‘Œê

}

H
‰È–Ú
—
‰È
“ÁˆÙ’l
Šµ
«
”ä—¦ —ݍ
Ï
0.74966 0.56198 0.4417 0.4417
0.54189 0.29364 0.2308 0.6725
0.42648 0.18188 0.1430 0.8155
0.33831 0.11445 0.0900 0.9055
0.32467 0.10541 0.0829 0.9883
0.12187 0.01485 0.0117 1.0000
‰È–Ú
c1
c2
c3 Ž™“¶
‰¹Šy -1.307 0.5287 -0.0208 1
‘Œê

0.443 -0.8475 0.2678 2
ŽZ 
”
-0.408 0.0000 -0.6800 3
ŽÐ‰ï 0.865 0.4814 -0.3945 4
}

H
-0.650 0.4464 0.7240 5
‘̈ç
1.152 0.5462 0.2461 6
—
‰ È -0.287 -0.5409 -0.0298 7
8
9
10
1.5
c1
-0.219
-1.052
1.064
0.205
1.345
-0.998
-0.890
0.725
0.320
-0.112
5
ŽÐ‰ï
8
‘Œê

0.5
9
c1
4
0.0
10
1—
‰È
ŽZ ”
-0.5
}

H
7
クロス表のカテゴリ数が多い場合に,
その詳細を検討する
-1.0
-1.5
-1.5
c3
0.7518
0.0181
0.6025
-0.4904
-0.1739
0.5263
-0.5711
0.0525
-0.0612
-0.3455
‘̈ç
3
1.0
c2
-0.5794
0.5998
-0.2779
-0.4184
0.9483
0.2671
-0.0075
-0.1664
0.6801
-0.8540
-1.0
-0.5
6
.0
c2
2
‰¹Šy
.5
1.0
1.5
‰È–Ú Ž™“¶
第1章 データ分析とJMP
43/47
クラスター分析
試験の成績データ
生徒
国語 x1 英語 x2 数学 x3
理科 x4
1
86
79
67
68
2
71
75
78
84
3
42
43
39
44
4
62
58
98
95
5
96
97
61
63
6
39
33
45
50
7
50
53
64
72
8
78
66
52
47
9
51
44
76
72
10
89
92
93
91
1)項目間(生徒)の距離を定義
2)データから距離を測定
3)集落(クラスター)の
作成と解釈
(永田&棟近 多変量解析法入門,サイエンス社,2000より引用)
第1章 データ分析とJMP
44/47
クラスター分析
1.データ:学童の成績データ(国語,英語,数学,理科)
・距離を作る複数個の量的な変数がある
・変数の役割は全て同じ
知りたいこと
1)似た能力を持った生徒をグルーピングできないか
2)そのようなグループにはどのような特徴をもった生徒が多いか
分かること
1)距離2500で切ると{1,5,8}, {2,4,10} , {3,6,7,9}の3グループ
2) {1,5,8}は総合力が高く文系科目が得意, {2,4,10} は総合力
が高く理系科目が得意, {3,6,7,9}は総合的学力が低い
第1章 データ分析とJMP
45/47
クラスター分析
JMP出力(ウォード法)
Ž÷Œ`
}
ƒNƒ‰ƒXƒ^
[ ‚̍
”
9
8
7
6
5
4
3
2
1
‹——£
0.471117279
0.529416099
0.744159508
1.034668340
1.355895175
1.386843179
2.120907188
2.925488473
4.129762622
Œ‹
‡
æ
3
7
1
2
2
1
3
1
1
Œ‹
‡ŽÒ
6
9
5
10
4
8
7
2
3
Œ‹
‡
æ
” Šw

‘Œê

‘Œê

Œ‹
‡ŽÒ
—
‰È
‰pŒê
” Šw

ƒNƒ‰ƒXƒ^
[•ª 
Í ‚Ì—š—ð
ƒNƒ‰ƒXƒ^
[ ‚̍
”
3
2
1
‹——£
0.500842402
0.545108074
3.312815361
‘
ΐ
‰pŒê
”Š w

—
‰È
1
5
8
2
10
4
3
6
7
9
ƒNƒ‰ƒXƒ^
[•ª 
Í ‚Ì—š—ð
クラスターは樹形図をみながら主観的に分割する
第1章 データ分析とJMP
46/47
グラフィカルモデリング
 比較的新しい多変量解析の手法
 グラフ理論と多変量正規分布に基づく条件付独立
性の変数選択が結び付いたもの
 G-GM(ソフト)により解析する
 因果推論と内部要約の双方の分析が可能
 解釈はグラフにより行う
上司に対する従業員満足度
(テクノメ研,グラフィカルモデリングの実際,日科技連1999)
第1章 データ分析とJMP
47/47