相関分析
1
共分散
いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,(不偏) 共分散は
1 ∑
=
(xi − x¯)(y − y¯)
n − 1 i=1
n
sxy
で与えられる.ここに,x
¯, y¯ は,x, y の平均値
1∑
x¯ =
xi ,
n i=1
n
1∑
y¯ =
yi
n i=1
n
である.共分散 sxy が正値のとき,正の相関関係 (x が大きくなるほど,y も大きくなる) があ
り,負値のとき,負の相関関係 (x が大きくなるほど,y が小さくなる) と解釈される.
2
相関係数
相関係数は,共分散を尺度化することで,-1 から 1 までの範囲をとるようにしたものである.
いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,相関係数は
n
∑
(xi − x¯)(y − y¯)
sxy
i=1
√ n
=√ n
r=
sx sy
∑
∑
(xi − x¯)2
(yi − y¯)2
i=1
i=1
で与えられる.ここに,sx , sy は,それぞれ,x, y の (不偏) 標準偏差
v
v
u
u
n
n
∑
u 1
u 1 ∑
2
t
sx =
(xi − x¯) , sy = t
(yi − y¯)2
n − 1 i=1
n − 1 i=1
である.
2.1
標準化された場合の相関係数
いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,それぞれを標準化し,
x′i =
xi − x¯
,
sx
yi′ =
xi − y¯
sy
とする.このとき,x′i と yi′ の相関係数は
rx′ y′
s′xy
= √ √ = s′x y
1 1
となる.ここに,s′xy は
1 ∑ ′
1 ∑ ′ ′
=
(xi − 0)(yi′ − 0) =
x y = sxy
n − 1 i=1
n − 1 i=1 i i
n
s′xy
n
である.すなわち,規準化後の共分散と相関係数は一致する.
2.2
相関係数に対する一つの目安
相関係数は,-1∼1 の範囲をとる.このとき,-1 に近くなるほど負の相関関係 (x が大きくな
るほど y が小さくなる) となり,1 に近づくほど正の相関関係 (x が大きくなるほど y も大きく
なる) となる.また,0 に近いほど無相関 (x と y には関連性がない) と解釈される.ここでは一
般的に言われている目安を書く.しかしながら,分野によってその考え方が異なる.心理学な
どでは,0.5 程度でも相関があると考えるが,検査機器などでは,かなり 1 に近い数値でないと
いけない.
1.0 ≥ |r| ≥ 0.7
0.7 ≥ |r| ≥ 0.5
0.5 ≥ |r| ≥ 0.4
0.4 ≥ |r| ≥ 0.3
0.3 ≥ |r| ≥ 0.2
0.2 ≥ |r| ≥ 0.0
3
3.1
かなり高い相関がある
高い相関がある
中程度の相関がある
ある程度の相関がある
弱い相関がある
ほとんど相関がない
相関係数に基づく推測
相関係数に対する区間推定
いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,その相関係数 (の点推定値)
を r とする.このとき,100(1 − α)%信頼区間は
[
]
exp(2b) − 1
exp(2a) − 1
,
exp(2a) + 1
exp(2b) + 1
で与えられる.ここに,
(
)
1
1+r
1
a = log
z(α/2),
−√
2
1−r
n−3
1
b = log
2
(
1+r
1−r
)
+√
1
z(α/2)
n−3
であり,z(α/2) は,標準正規分布の上側 α/2 パーセント点である.とくに,α = 0.05 のとき,
z(0.05/2) = 1.96 である.因みに,log は自然対数である.
3.2
無相関性の検定
標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,無相関性の検定は
帰無仮説 H0 : ρ = 0(X と Y の母相関ρは 0 である)
対立仮説 H1 : ρ ̸= 0(X と Y の母相関ρは 0 でない)
を検定する.r を X と Y の標本相関係数とするとき,検定統計量 t0 は
√
r n−1
t0 = √
1 − r2
である.検定統計量 t0 は,帰無仮説のもとで自由度 t − 1 の t 分布に従う.無相関性の検定
では,棄却限界値 tn−1 (α/2)(自由度 n − 1 の t 分布における上側 α/2 パーセント点) に対して
|t0 | > tn−1 (α/2) ならば帰無仮説を棄却 (有意である) し,|t0 | ≤ tn−1 (α/2) ならば帰無仮説を受
容する,両側対立仮説の形式をとる.
3.3
相関係数の差の検定
A nA
いま,標本サイズ nA の 2 個の標本 {xA
i , yi }i=1 での相関係数 (の点推定値) を rA とし,標本
B nB
サイズ nB の 2 個の標本 {xB
i , yi }i=1 での相関係数 (の点推定値) を rB とする.それぞれの母相
関係数を ρA , ρB とするとき,相関係数の差の検定は
帰無仮説 H0 : ρA = ρB
対立仮説 H1 : ρA ̸= ρB
を検定する.検定統計量 z0 は
z0 =
1
2
(
1 + rA
1 + rB
log
− log
1 − rA
1 − rB
√
1
1
+
nA − 3 nB − 3
)
である.ここで log は自然対数である.検定統計量 z0 は帰無仮説のもとで標準正規分布に従う.
相関係数の差の検定では,棄却限界値 z(α/2)(標準正規分布における上側 α/2 パーセント点) に
対して |z0 | > z(α/2) ならば帰無仮説を棄却 (有意である) し,|t0 | ≤ tn−1 (α/2) ならば帰無仮説
を受容する,両側対立仮説の形式をとる.
4
偏相関係数
いま,3 個の標本 {xi , yi , zi }ni=1 が与えられたとき,X と Y の相関係数 ρxy , X と Z の相関係数
ρxz , Y と Z の相関係数 ρyz の 3 個の相関係数を計算できる.しかしながら,これらの相関係数
は相互に影響があり,2 変数間だけの純粋な相関関係を表していない.X と Z の相関関係,Y
と Z の相関関係の影響を除いた状況での X と Y の相関係数を表す統計量を偏相関係数という.
Z とその他の変数のあいだの相関関係を除いた X と Y の偏相関係数 rxy·z は
rxy − rxz · ryz
rxy·z = √
√
2 ·
2
1 − rxz
1 − ryz
で与えられる.
練習問題
問 1: 次の表は 10 名の新生児の体重と胎盤重量を調査したデータである.以下の問いに答えな
さい.
番号
新生児体重
胎盤重量
1
2
3840 3540
700 680
3
3900
590
4
2920
570
5
3820
630
6
3910
510
7
3300
580
8
2770
640
9
3000
500
10
3900
810
[1 ] 共分散を求めなさい.
[2 ] 相関係数を求めなさい.
[3 ] 相関係数の 95%信頼区間を求めなさい.
[4 ] 無相関性の検定を行いなさい.
問 2: 次の表は 8 台の自動車の 0∼400m までの加速 (秒) と燃費 (km/l) を調査したデータである.
以下の問いに答えなさい.
番号
加速
燃費
1
14.7
6.3
2
15.8
7.1
3
16.2
5.6
4
16.8
6.7
5
17.0
9.1
6
16.8
9.0
7
15.4
5.0
8
17.4
6.3
[1 ] 共分散を求めなさい.
[2 ] 相関係数を求めなさい.
[3 ] 相関係数の 95%信頼区間を求めなさい.
[4 ] 無相関性の検定を行いなさい.
問 3: ある工場で男子工員のなかから 50 人,女子工員のなかから 40 人をそれぞれ無作為に抽出
し,作業 x に要する時間と作業 y に要する時間を測定したところ,男子工員における x と
y の相関係数は 0.72, 女子工員における x と y の相関係数は 0.59 だった.相関係数に性差
があるか否かについて,有意水準 0.05 で検定しなさい.
問 4: ある調査研究において,50m 走のタイム (秒),年収 (万円),および年齢 (歳) を調査した
結果,下表のような相関係数が得られた.果たして,50m 走のタイム (秒) と年収 (万円)
にはこれほど高い正の相関関係が認められるのだろうか.偏相関係数を利用して,第 3 の
変数である年齢の影響を省いた相関関係を評価しなさい.
50m 走
年収
年齢
50m 走
1
0.8781
0.9407
年収
年齢
1
0.9400
1
問 5: これは西ヨーロッパ 21 カ国での心臓病死亡率 (心臓病),脂肪摂取量 (脂肪比率),および
動物性蛋白質摂取量 (動物蛋白) を調査したデータの相関係数である.動物性蛋白質を第 3
の変数と考え,その影響を省いたうえで心臓病死亡率と脂肪摂取量の相関係数を計算し,
次に,脂肪摂取量を第 3 の変数と考え,その影響を省いたうえで心臓病死亡率と動物性蛋
白質の相関係数を計算しなさい.そして結果を考察しなさい.
心臓病
脂肪比率
動物蛋白
心臓病
1
0.547
0.704
脂肪比率
動物蛋白
1
0.823
1
回答
1-1:先ず,新生児体重 x と胎盤重量 y の平均値 x¯ および y¯ は
3840 + 3540 + 3900 + 2920 + 3820 + 3910 + 3300 + 2770 + 3000 + 3900
x¯ =
= 3490
10
700 + 680 + 590 + 570 + 630 + 510 + 580 + 640 + 500 + 810
y¯ =
= 621
10
である.したがって,下表を作成する:
番号
1
2
3
4
5
6
7
8
9
10
新生児体重 x
3840
3540
3900
2920
3820
3910
3300
2770
3000
3900
上表より
n
∑
胎盤重量 y
700
680
590
570
630
510
580
640
500
810
x − x¯
350
50
410
-570
330
420
-190
-720
-490
410
y − y¯ (x − x¯)(y − y¯)
79
27650
59
2950
-31
-12710
-51
29070
9
2970
-111
-46620
-41
7790
19
-13680
-121
59290
189
77490
合計
134200
(xi − x¯)(yi − y¯) = 134200
i=1
なので,共分散は
1 ∑
134200
=
(xi − x¯)(yi − y¯) =
= 14911.11
n − 1 i=1
9
n
sxy
である.
1-2:次のような表を作成する:
番号
1
2
3
4
5
6
7
8
9
10
合計
x
3840
3540
3900
2920
3820
3910
3300
2770
3000
3900
34900
y
700
680
590
570
630
510
580
640
500
810
6210
x − x¯
350
50
410
-570
330
420
-190
-720
-490
410
−
y − y¯ (x − x¯)2
79
122500
59
2500
-31
168100
-51
324900
9
108900
-111
176400
-41
36100
19
518400
-121
240100
189
168100
−
1866000
(y − y¯)2
6241
3481
961
2601
81
12321
1681
361
14641
35721
78090
(x − x¯)(y − y¯)
27650
2950
-12710
29070
2970
-46620
7790
-13680
59290
77490
134200
上表より
n
∑
(xi − x¯) = 1866000,
2
i=1
n
∑
(yi − y¯) = 78090,
2
n
∑
i=1
(xi − x¯)(yi − y¯) = 134200
i=1
なので,相関係数は
n
∑
(xi − x¯)(y − y¯)
sxy
134200
i=1
√ n
√
r=
=√ n
=√
= 0.352
sx sy
∑
∑
1866000
·
78090
(xi − x¯)2
(yi − y¯)2
i=1
i=1
である.したがって,ある程度の相関関係が認められた.
1-3:標準正規分布の上側 0.05/2 パーセント点は z(0.05/2) = 1.96,および母相関係数の点推定
値は r = 0.352 なので
(
)
(
)
1+r
1 + 0.352
1
1
1
1
a =
log
−√
z(α/2) = log
−√
· 1.96 = −0.3736
2
1−r
2
1 − 0.352
n−3
10 − 3
(
)
(
)
1+r
1 + 0.352
1
1
1
1
b =
log
+√
z(α/2) = log
+√
· 1.96 = 1.1080
2
1−r
2
1 − 0.352
n−3
10 − 3
より 95%信頼区間は
exp(2a) − 1
exp(2 · −0.3736) − 1
=
= −0.357
exp(2a) + 1
exp(2 · −0.3736) + 1
exp(2 · 1.1080) − 1
exp(2b) − 1
=
= 0.803
上側信頼限界 :
exp(2b) + 1
exp(2 · 1.1080) + 1
下側信頼限界 :
だった.
1-4:仮説は
帰無仮説 H0 : ρ = 0
対立仮説 H1 : ρ ̸= 0
である.検定統計量は
√
√
r n−1
0.352 · 10 − 1
t0 = √
= √
= 1.127
1 − r2
1 − 0.3522
だった.すなわち,帰無仮説が受容された.したがって,母相関係数が 0 でないという根拠は
得られなかった.
2-1:先ず,加速 x と燃料 y の平均値 x¯ および y¯ は
14.7 + 15.8 + 16.2 + 16.8 + 17.0 + 16.8 + 15.4 + 17.4
= 16.263
8
6.3 + 7.1 + 5.6 + 6.7 + 9.1 + 9.0 + 5.0 + 6.3
y¯ =
= 6.888
8
x¯ =
である.したがって,下表を作成する:
番号
1
2
3
4
5
6
7
8
加速 x
14.7
15.8
16.2
16.8
17.0
16.8
15.4
17.4
上表より
燃費 y
6.3
7.1
5.6
6.7
9.1
9.0
5.0
6.3
n
∑
x − x¯
-1.5625
-0.4625
-0.0625
0.5375
0.7375
0.5375
-0.8625
1.1375
y − y¯
-0.5875
0.2125
-1.2875
-0.1875
2.2125
2.1125
-1.8875
-0.5875
合計
(x − x¯)(y − y¯
0.918
-0.098
0.080
-0.101
1.632
1.135
1.628
-0.668
4.526
(xi − x¯)(yi − y¯) = 4.526
i=1
なので,共分散は
1 ∑
4.526
=
(xi − x¯)(yi − y¯) =
= 0.647
n − 1 i=1
7
n
sxy
である.
2-2:次のような表を作成する:
番号
1
2
3
4
5
6
7
8
合計
x
14.7
15.8
16.2
16.8
17.0
16.8
15.4
17.4
130.1
y
6.3
7.1
5.6
6.7
9.1
9.0
5.0
6.3
55.1
x − x¯
-1.5625
-0.4625
-0.0625
0.5375
0.7375
0.5375
-0.8625
1.1375
−
y − y¯
-0.5875
0.2125
-1.2875
-0.1875
2.2125
2.1125
-1.8875
-0.5875
−
(x − x¯)2
2.441
0.214
0.004
0.289
0.544
0.289
0.744
1.294
5.819
(y − y¯)2
0.345
0.045
1.658
0.035
4.895
4.463
3.563
0.345
15.349
(x − x¯)(y − y¯
0.918
-0.098
0.080
-0.101
1.632
1.135
1.628
-0.668
4.526
上表より
n
∑
i=1
(xi − x¯) = 5.819,
2
n
∑
i=1
(yi − y¯) = 15.349,
2
n
∑
i=1
(xi − x¯)(yi − y¯) = 4.526
なので,相関係数は
n
∑
(xi − x¯)(y − y¯)
sxy
4.526
√ n
√
r=
=√
= 0.479
= √ n i=1
sx sy
∑
∑
5.819
·
15.349
(xi − x¯)2
(yi − y¯)2
i=1
i=1
である.したがって,ある程度の相関関係が認められた.
2-3:標準正規分布の上側 0.05/2 パーセント点は z(0.05/2) = 1.96,および母相関係数の点推定
値は r = 0.479 なので
)
)
(
(
1
1
1
1
1+r
1 + 0.479
a =
log
−√
z(α/2) = log
−√
· 1.96 = −0.3549
2
1−r
2
1 − 0.479
n−3
8−3
(
)
(
)
1
1
1+r
1
1 + 0.479
1
z(α/2) = log
· 1.96 = 1.3982
b =
log
+√
+√
2
1−r
2
1 − 0.479
n−3
8−3
より 95%信頼区間は
exp(2a) − 1
exp(2 · −0.3549) − 1
=
= −0.341
exp(2a) + 1
exp(2 · −0.3549) + 1
exp(2b) − 1
exp(2 · 1.3982) − 1
上側信頼限界 :
=
= 0.885
exp(2b) + 1
exp(2 · 1.3982) + 1
下側信頼限界 :
だった.
2-4:仮説は
帰無仮説 H0 : ρ = 0
対立仮説 H1 : ρ ̸= 0
である.検定統計量は
√
√
r n−1
0.479 · 8 − 1
t0 = √
= √
= 1.444
1 − r2
1 − 0.4792
だった.すなわち,帰無仮説が受容された.したがって,母相関係数が 0 でないという根拠は
得られなかった.
問 3:いま,男子工員での母相関係数を ρA ,女性工員での母相関係数を ρB とすると,仮説は
次のようになる:
帰無仮説 H0 : ρA = ρB
対立仮説 H1 : ρA ̸= ρB
それぞれの標本相関係数は rA = 0.72,rB = 0.59 であり,標本サイズは nA = 50, nB = 40 なの
で,母相関係数の差の検定における検定統計量 z0 は
(
)
(
)
1 + rA
1
1 + 0.72
1 + 0.59
1
1 + rB
log
− log
log
− log
2
1 − rA
1 − rB
2
1 − 0.72
1 − 0.59
√
√
z0 =
=
= 1.046
1
1
1
1
+
+
nA − 3 nB − 3
50 − 3 40 − 3
である.検定統計量 z0 は帰無仮説のもとで標準正規分布に従う.有意水準 α = 0.05 のとき,棄
却限界値は z(0.05) = 1.96(標準正規分布の上側 α/2 パーセント点) なので z0 < z(0.05) であり,
帰無仮説が受容される.したがって,作業間の相関関係に性差は認められなかった.
問 4:50m 走と年収の相関係数を rxy = 0.8781, 年収と年齢の相関係数を ryz = 0.9407, 50m 走と
年齢の相関係数を rxz = 0.9400 とすると,年齢を第 3 の変数 (コントロール) としたときの 50m
走と年収の偏相関係数 rxy·z は
rxy·z = √
rxy − rxz · ryz
0.8781 − 0.9407 · 0.9400
√
=√
= −0.0532
√
2 ·
2
1 − 0.94072 · 1 − 0.94002
1 − rxz
1 − ryz
である.50m 走と年収の相関関係は殆ど存在しないことがわかる.高齢になるほど 50m 走のス
ピードが遅くなり (すなわち数値が高くなる),一方で高齢なほど年収が高くなる傾向にある.
すなわち,年齢が第 3 の変数として媒介することで見かけの相関関係が見られたと考えられる.
問 5:心臓病 x と脂肪比率 y の相関係数を rxy = 0.547, 心臓病 x と動物蛋白 z の相関係数を
ryz = 0.704, 脂肪比率 y と動物蛋白 z の相関係数を rxz = 0.823 とすると,動物蛋白を第 3 の変
数 (コントロール) としたときの心臓病と脂肪比率の偏相関係数 rxy·z は
rxy − rxz · ryz
0.547 − 0.704 · 0.823
√
= −0.0798
rxy·z = √
=√
√
2
2
1 − 0.7042 · 1 − 0.8232
1 − rxz · 1 − ryz
次いで,脂肪比率を第 3 の変数 (コントロール) としたときの心臓病と動物蛋白の偏相関係数
rxz·y は
rxz − rxy · ryz
0.704 − 0.547 · 0.823
√
√
√
rxz·y = √
=
= 0.5336
2 ·
2
1 − rxy
1 − ryz
1 − 0.5472 · 1 − 0.8232
だった.したがって,心臓病死亡率と脂肪摂取量の相関関係は殆ど 0 だったものの,心臓病死
亡率と動物性蛋白質摂取量では高い相関関係が認められた.