医療統計学 vol.9

医療統計学 vol.9
木村 朗
*この章では相関の基礎を学ぶ
あるデータと、それとは別のデー
タの関係を調べる
• データ間の関係が、どの程度関係するのか、その
程度を数値で表す方法を考える。
例)体重と身長、年齢と血圧、数学と英語の成績、
など
具体例で考える
科目
A
B
C
D
E
F
G
学生a 10
10
20
30
20
30
40
学生b 20
20
10
10
40
40
30
学生c 30
30
40
40
10
10
20
学生d 40
40
30
20
20
20
10
傾向が同じ
関係がなさそう
傾向が逆
データ同士の関係を相関図でグ
ラフ化する
• 表ではつかみにくい>視覚化する
科目Aと科目B学生abcdの成績
45
4つの点が直
線y=xの線上
に並んでいる
40
35
30
25
20
15
10
5
0
0
0.5
1
1.5
2
2.5
A
B
3
3.5
4
4.5
2つの値をx座標とy座標に
とり、データをx-y平面上の
点で表した図を相関図あ
るいは散布図という。
相関が強い、弱い、ない、とは?
相関があるとは 一方の増せばもう一方も増す> 正の相関 、
その逆 負の相関
G
グラフ タイトル
50
50
40
40
30
30
20
20
10
10
0
0
0
2
4
A
30
20
10
0
0
20
40
E
40
60
50
40
40
30
30
30
20
20
20
10
10
10
0
0
0
40
60
F
50
50
20
20
60
B
D
0
C
40
0
6
50
40
0
0
20
40
相関が弱い 強いとは、
1つの直線に近づくほど強く、離れるほど弱い
20
40
60
60
傾向がみられない 相関がない
データ同士の関係の度合いを数
値で表す相関係数
• 負の完全相関 -1
グラフ タイトル
45
40
35
30
25
20
15
10
5
0
0
1
2
3
A
4
5
40
30
20
10
0
20
• 正の完全相関
1
相関の強さを数値化したと
き正の相関はプラス、負の
相関はマイナス、完全に直
線にデータが乗る時1とする
50
10
0
B
G
0
• 相関がない
30
40
50
相関係数を表す式を知っておこ
う
• 相関係数(積率相関係数)
今2種類のデータを以下のように表す
x1、x2、・・・xn
Y1、y2、・・・yn
この時、相関係数は
r=Σ(xiーxm)(yiーym)/√(Σ((xiーxm)^2×Σ((yiーy
m)^2)
xm=Σxi/n ym=Σyi/n
相関係数の計算方法1
科目 学生a 学生b 学生c 学生d
A
10
20
30
40
B
10
20
30
40
Σ(xiーxm)(yiーym)=(10-25)^2+(20-25)^2+(30-25)^2+(40-25)^2
=(-15)^2+(-5)^2+5^2+15^2
=225+25+25+225=500
√(Σ((xiーxm)^2×Σ((yiーym)^2) Σ((xiーxm)^2=Σ((yiーym)^2)なので
Σ((xiーxm)^2
=(10-25)^2+(20-25)^2+(30-25)^2+(40-25)^2
=(-15)^2+(-5)^2+5^2+15^2
=225+25+25+225=500
従って 相関係数r=500/√(500)^2=1
相関係数の計算 演習
(xi-xm)
(yi-ym (xiーxm)
yi
yiーym
^2
)^2
×(yi-ym)
科目Aの
偏差の2 科目Aの
AとBの偏差
偏差
偏差
偏差の2乗
成績
乗
成績
の積
10
-15
225
10
-15
225
225
20
-5
25
20
-5
25
25
30
5
25
30
5
25
25
40
15
225
40
15
225
225
100
0
500
100
0
500
500
計
25=ym
平均 25=xm
Xi
xiーxm
Σ(xiーx
m)^2
Σ(yiーy Σ(xiーxm)
m)^2
(yiーym)
係数の整理-相関係数のまとめ• 一般に相関係数が高いからと言って、いつも一方
が他方に影響をおよぼす因果関係があるわけで
はない。
• 例)1都市当たりの人口と居酒屋の数の相関関係
は高いはず、これは人口が増えれば居酒屋の数
は増加するという因果関係を裏付ける根拠になる
だろう。しかし、居酒屋が増えたからといって、必
ずしも人口が増えるわけではない。
• 相関関係が高いからといって因果関係があると
は限らないことに注意。
課題
• 科目AとEの相関係数を求めよ