第2章 データ分析の進め方

データ分析入門(8)
第8章 散布図と相関係数
廣野元久
1
本章の概要
2つの量的データのばらつき方を調べ,その関連
(相関関係)をグラフと数値で評価する
2変量間の相関関係には,
因果関係と擬似相関があるため,
関連を見誤らないように,
現象からの考察の重要性を学習する
JMPを使った散布図や相関係数の求め方を
理解する
第8章 散布図と相関係数
廣野元久 &高橋行雄
2/28
1.相関と相関係数
1.1相関
2変量の関連を調べるにはグラフ(散布図)を作
ることが第一である.
2つの変量に直線的関連が見えるとき
身長が高ければ体重が重い(右上がり):正相関
紙コプタの重りが増えれば滞空時間が短い:負相関
電子時計の精度と価格
:無相関
2つの変量に曲線的関係が見えるとき
年齢と運動能力
直線的な相関関係では測れない
第8章 散布図と相関係数
廣野元久 &高橋行雄
3/28
1.1相関
Dasampleの
県データ.jmpより
強い正相関
強い負の相関
無相関
相関の強さは
赤の楕円の状態でみる
面積の広い円から,
面積の小さい直線的な楕円
になるにつれ相関が強くなる
第8章 散布図と相関係数
廣野元久 &高橋行雄
4/28
1.2 相関係数
散布図は,2変量の関連を視覚的に理解できる
相関係数の値
1.0 ~ 0.7
0.7 ~ 0.4
0.4 ~ 0.2
0.2 ~-0.2
-0.2 ~-0.4
-0.4 ~-0.7
-0.7 ~-1.0
相関係数の強弱
強い正の相関がある
中程度の正の相関がある
弱い正の相関がある
ほとんど相関がない
弱い負の相関がある
中程度の負の相関がある
強い負の相関がある
上は一応の目安:標本の数や
研究分野で異なる
第8章 散布図と相関係数
廣野元久 &高橋行雄
5/28

2. 散布図と相関係数
2.1 散布図を描く
ビッグクラス.jmpをロードする
多変量の相関をクリック
第8章 散布図と相関係数
廣野元久 &高橋行雄
6/28
2.1散布図を描く(1)
1.身長(インチ)をクリック
2.&4.Y,列をクリック
3.体重(ポンド)をクリック
5.OKボタンをクリック
第8章 散布図と相関係数
廣野元久 &高橋行雄
7/28
2.1散布図を描く(1)
1.相関係数行列が表示される
自分自身との相関なので,
ここは1となる
‘½•Ï—Ê
‘ŠŠÖ
’·(ƒCƒ“ƒ`)
g
‘̐
d(ƒ|ƒ“ƒh)
g’·(ƒCƒ“ƒ`) ‘̐

d(ƒ|ƒ“ƒh)
1.0000
0.7092
0.7092
1.0000
ŽU•z
}
s —ñ
身長と体重の相関
体重と身長の相関
つまり同じもの
70
65
60
g’·(ƒCƒ“ƒ`)

55
180
160
140
‘̐
d(ƒ|ƒ“ƒh)
120
100
80
55
60
65
70
80 100 120 140 160 180
このようなテーブル(行列)を
対称行列という
変量が増えると一覧としてみ
やすい表現
第8章 散布図と相関係数
廣野元久 &高橋行雄
8/28
‘½•Ï—Ê
‘ŠŠÖ
2.1散布図を描く(2)
g’·(ƒCƒ“ƒ`) ‘̐

d(ƒ|ƒ“ƒh)
g’·(ƒCƒ“ƒ`)

1.0000
0.7092
‘̐
d(ƒ|ƒ“ƒh)
0.7092
1.0000
ŽU•z
}
s —ñ
確率楕円
70
楕円内に95%の
データが分布している
範囲を表す
65
60
g’·(ƒCƒ“ƒ`)

55
180
160
140
‘̐
d(ƒ|ƒ“ƒh)
120
100
80
55
60
65
70
80 100 120 140 160 180
相関が低いほど円に近い
相関ゼロで,円
相関が高いほど面積が小さい
相関±1で,直線
身長と体重は,
正の相関(直線的傾向)が
かなり強いことが分かる
第8章 散布図と相関係数
廣野元久 &高橋行雄
9/28
2.2 散布図による2変量間の関係の表現
(1)
県データ.jmpをロードする
都道府県
面積(平方km2)
人口(千人)
持家比率%
商店数(千店)
電力消費量
一人当
地方税収入(千円)
一人当
地方交付税交付金(千円)
第8章 散布図と相関係数
廣野元久 &高橋行雄
自動車
保有台数
(千台)
10/28
2.2 散布図による2変量間の関係の表現
(2)
県データの散布図行列を描画する
強い正相関
ŽU•z
}
s—ñ
90000
70000
50000
30000
10000
10000
6000
–ʐ
Ï
lΞ

2000
対角成分のセルクリックして,
別な対角成分のセルに
ドラック&ドロップすれば
散布図行列の順番が変わる
80
60
40
600
400
200
0
3500
2500
1500
500
Ž
‰ Æ”ä— ¦
’n•ûŒð•t
Å
’n•û
Å Žû
125
¤ “X

”
75
25
25000
‘ŠŠÖ
–ʐ
Ï
1.0000
lΞ

0.1121
Ž
‰ Æ ”ä— ¦ -0.1098
’n•ûŒð•t
Å
0.8636
’n•û
Å Žû
0.0155
Ž©“®ŽÔ•Û—L
¤ “X

”
0.0977
“d—͐
Á ”ï—Ê
0.0485
Ž©“®ŽÔ•Û—L 0.1749
25 75 125 5000 20000500 2000
“d—͐
Á ”ï—Ê –ʐ
Ï
15000
5000
2500
1500
500
1000060000 2000 8000 40 60 80 0 200 500 500 2500
第8章 散布図と相関係数
廣野元久 &高橋行雄
lŒû Ž

‰ Æ ”ä—
’n•ûŒð•t
¦
Å ’n•û
Å Žû
0.1121 -0.1098
0.8636
0.0155
1.0000 -0.8039
-0.1541
0.7239
-0.8039
1.0000
0.0536 -0.5028
-0.1541
0.0536
1.0000 -0.1803
0.7239 -0.5028
-0.1803
1.0000
0.9756 -0.8113
-0.1547
0.7665
0.9919 -0.8054
-0.2271
0.7573
0.9690 -0.7504
-0.1074
0.6397
“X
¤
” “d—͐
Á ”ï—ÊŽ©“®ŽÔ•Û—L
0.0977
0.0485
0.1749
0.9756
0.9919
0.9690
-0.8113
-0.8054
-0.7504
-0.1547
-0.2271
-0.1074
0.7665
0.7573
0.6397
1.0000
0.9841
0.9265
0.9841
1.0000
0.9407
0.9265
0.9407
1.0000
11/28
2.2 散布図による2変量間の関係の表現
(3)
(1)高い相関と低い相関、無相関
高い相関
人口 と商店数,人口と電力消費量
低い相関
人口と地方交付税
無相関
持家比率と地方交付税
第8章 散布図と相関係数
廣野元久 &高橋行雄
12/28
2.2 散布図による2変量間の関係の表現
(4)
(2)正の相関と負の相関
正の相関
人口と商店数:散布図は右上がり相関係数正
負の相関
地方交付税と商店数:散布図は右下がり相関係数負
地方交付税と人口 :散布図は右下がり相関係数負
地方交付税
地方
中小土木
人口
商店数
第8章 散布図と相関係数
廣野元久 &高橋行雄
都市部
多産業、本社
13/28
3. 相関と因果
3.1 相関と因果の関係
因果
ある現象が原因となって別の現象(結果)を引き起こす
通貨供給量と物価
北海道から南下するに従い、青色の嗜好が下がる
(1979:読売新聞調べ)
因果と散布図
因果関係があると強い相関を持つ
散布図に右上がり正相関(右下がり負相関)が見られる
相関と因果
逆に相関があるからといって、直ちに因果があるとはい
えない
第8章 散布図と相関係数
廣野元久 &高橋行雄
14/28
3.1 相関と因果の関係(2)
車とテレビ.jmpをロードする
‘½•Ï—Ê
‘ŠŠÖ
Ž©“®ŽÔ
ƒJƒ‰
[ ƒeƒŒƒr
Ž©“®ŽÔ
1.0000
0.9368
ƒJƒ‰
[ ƒeƒŒƒr 0.9368
1.0000
相関あり
→因果は背後の変量
ŽU•z
}
s —ñ
Car
9000
7000
5000
Ž©“®ŽÔ
0.9368
TV
(疑似相関)
3000
1000
20000
15000
ƒJƒ‰
[ ƒeƒŒƒr
10000
5000
X(豊かさ)
0
1000 4000 7000
0 5000
15000
第8章 散布図と相関係数
廣野元久 &高橋行雄
所得
経済成長
価格低下
15/28
3.1 相関と因果の関係(3)
廃棄物処理.jmpをロードする
‘ ½•Ï —Ê
‘ ŠŠÖ
相関あり →因果
lŒû ƒSƒ ~Žû

W—Ê
l
Ξ
1.0000
0.9832
ƒSƒ ~Žû
W — Ê0.9832
1.0000
ŽU • z
}
s— ñ
600000
500000
人口
400000
l
Ξ
300000
廃棄物量
200000
住民生活ごみ
人口が増れば廃棄物も増る
100000
150000
100000
ƒSƒ ~Žû
W—Ê
50000
100000
300000
500000
50000
100000 150000
相関は統計量から分かるが,
因果は変量の意味が
分からなければ解釈できない
第8章 散布図と相関係数
廣野元久 &高橋行雄
16/28
3.2 みせかけの相関(疑似相関) (1)
•第3の変量zが原因で,第1と第2の変量x、yに影響を与え,
xとyに相関が生じたとき,xとyを疑似相関と呼ぶ
本来は無関係
Car
相関が出た
TV
Car
TV
年と共に,所得が増え
その結果
豊かさ(経済成長)に起因して増えたもの
ならどんな項目でも良い
例)
土地価格
ビール消費量
大学進学率
第8章 散布図と相関係数
廣野元久 &高橋行雄
豊かさ
経済成長
17/28
3.2 みせかけの相関(疑似相関) (2)
県データ.jmpをロードする
‘½•Ï—Ê
‘ŠŠÖ
lŒû “d—͐

Á ”ï—ÊŽ©“®ŽÔ•Û—L
l
Ξ
1.0000
0.9919
0.9690
“d—͐
Á ”ï—Ê
0.9919
1.0000
0.9407
Ž©“®ŽÔ•Û—L 0.9690
0.9407
1.0000
ŽU•z
}
s—ñ
12000
10000
8000
6000
4000
l
Ξ
2000
25000
20000
15000
消費電力と自動車保有台数
の相関は因果があるか
消費電力が上がれば,
自動車保有台数が増えるの?
自動車保有台数が減れば,
消費電力が減るの?
疑似相関
“d—͐
Á ”ï—Ê
10000
5000
3000
2500
2000
1500
1000
Ž©“®ŽÔ•Û—L
PCで相関を調べ,
人間の知恵で因果を考察
疑似相関の罠から逃れよう
500
2000 6000 10000 5000 1500025000500 1500 2500
第8章 散布図と相関係数
廣野元久 &高橋行雄
18/28
4. 層別
データ全体から幾つかのグループに分類(層別)したとき
分類毎に散布図を作ると“ものの本質”が分かる
層別
無相関
異なるグループを混ぜると
相関が消える
第8章 散布図と相関係数
廣野元久 &高橋行雄
強い相関
強い相関
19/28
4.1 層別 (2)
1.あやめ.jmpをロードする
2.二変量の関係をクリック
6.yをクリック
4.xをクリック
3.がくの長さをクリック
5.がくの幅をクリック
第8章 散布図と相関係数
廣野元久 &高橋行雄
7.OKをクリック
20/28
あやめのデータ
第8章 散布図と相関係数
廣野元久 &高橋行雄
21/28
4.1 層別 (3)
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
1.散布図が描画される
がくの長さ と がくの幅の
相関が見られないぞ!
4.5
4.0
‚ª‚­‚Ì•
3.5
3.0
2.5
3.グループ別をクリック
2.0
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚­‚Ì’·‚³
2.▼をクリック
4.層別する変量候補が
リストに表示される
第8章 散布図と相関係数
廣野元久 &高橋行雄
22/28
4.1 層別 (4)
2.OKをクリック
1.種類をクリック
3.メニューから
Density Ellipses(確率楕円)をクリックし,
.95(95%信頼区間)をクリック
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
4.0
‚ª‚­‚Ì•
3.5
3.0
2.5
2.0
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚­‚Ì’·‚³
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa"
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor"
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
第8章 散布図と相関係数
廣野元久 &高橋行雄
23/28
4.1 層別 (5)
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
4.0
アヤメの品種で層別したら
相関が発見できた
‚ª‚­‚Ì•
3.5
3.0
2.5
2.0
4.0 4.5 5.0 5.5 6.0 6.5
‚ª‚­‚Ì’·‚³
練習問題
7.0 7.5 8.0
他の変量間にも,
このような発見が
Ží—Þ=="setosa"
可能であろうか
Ží—Þ=="versicolor"
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
第8章 散布図と相関係数
廣野元久 &高橋行雄
24/28
4.1 層別 (6)
1.一変量の分布
をクリック
2.種類をクリック,
3.Y,列をクリック
4.OKをクリック
ˆê •Ï —Ê‚Ì•ª•z
Ž í—Þ
v irginica
v ers icolor
6.Setosaデータは
反転していることを
確認
s et os a
5.Setosaをクリック
“x
”
 
…
€
“x
”
setosa
50
第8章 散布図と相関係数
versicolor
50
廣野元久
&高橋行雄
virginica
50
Š„
‡
0.33333
0.33333
0.33333
25/28
4.1 層別 (7)
1.抽出(サブセット)をクリック
2.Setosaだけのデータセットができる
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
4.0
4.0
‚ª‚­‚Ì•
3.5
‚ª‚­‚Ì•
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
3.0
2.5
3.5
3.0
2.5
2.0
4.5
5.5
6.0
‚ª‚­‚Ì’·‚³
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚­‚Ì’·‚³
5.0
3.Setosaだけの
散布図が描画できる
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa"
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor"
第8章
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
散布図と相関係数
廣野元久 &高橋行雄
26/28
4.2 相関を利用したグループの判定
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
Setosa領域
4.0
‚ª‚­‚Ì•
3.5
新しいデータ1
Setosaの95%確率楕円内
Virginica,Versicolorの
95%確率楕円の外
3.0
2.5
2.0
それ以外
このデータは,Setosaと
考えるのが妥当であろう
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚­‚Ì’·‚³
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa"
Setosa以外だが,Virginicaか
Virginicaの可能性が高い
“ñ•Ï—ʐ
³
‹K‘ȉ~
P=0.950
Ží—Þ=="versicolor"
Versicolorかまでは分からない
“ñ•Ï—ʐ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
第8章 散布図と相関係数
廣野元久 &高橋行雄
27/28
4.2 相関を利用したグループの判定
4.5
4.0
‚ª‚­ ‚Ì•
3.5
A
3.0
D
2.5
C
B
E
2.0
A,B,C,D,Eをどう判定する?
他の変量も利用せよ.
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚­‚Ì ’·‚³
第8章 散布図と相関係数
廣野元久 &高橋行雄
28/28