相関係数

相関係数
植物生態学研究室
木村 一也
相関係数
相関係数とは、二つの確率変数の間の相関
(類似性の度合い)を示す統計学的指標であ
る。
計算によって求めるころができ、原則として
単位は無く、-1 から 1 の間の実数値をとる。
•
r≦|0.2|
• |0.2|<r≦|0.4|
• |0.4|<r≦|0.7|
• |0.7|<r≦|1.0|
-1.0
-0.7
-0.4
ほとんど相関なし
弱い相関あり
中程度の相関あり
強い相関あり
-0.2
0.0
0.2
0.4
0.7
1.0
また、この二つの確率変数が正規分布し
ているか、していないかで、算出の方法が
異なる。
正規分布している
→Pearsonの相関係数
正規分布していない(ノンパラメトリック)
→Spearmanの相関係数
(順位相関係数)
Pearsonの相関係数
N
r=
∑(xi-x)(yi-y)
i=1
√ ∑(x -x) ∑(y -y)
N
i
i=1
・
2
N
i
2
i=1
はそれぞれの平均を表す。
・ 分子・分母を表本数Nで割ると、それぞれ、共分散・標
準偏差を表す。
Spearmanの相関係数
6
1-
n(n2-1)
n
∑ (xi-yi)
2
i=1
確率変数が順位に変わっただけで、Pearsonの相関係数の式の変形
から求めることが出来る。
また、正規分布しないため、順位から求める。
例①
・ 身長と体重に相関はあるか。
a
b
c
d
e
f
g
h
i
j
k
l
身長
166 176 174 171 180 162 171 165 167 168 171 179
体重
56
62
68
59
72
52
62
55
58
59
75
74
身長・体重は正規分布しているので、Pearsonの相
関係数の計算を用いる。
初めに、Rを用いて散布図を描く。
75
70
体重
65
60
55
165
170
身長
175
180
散布図を見ると身長と体重は相関があること
が予測される。
r=
N
実際に
∑(xi-x)(yi-y)
i=1
√
N
N
i=1
i=1
2
2
∑(xi-x) ∑(yi-y)
の式で計算してみる。
身長の標準偏差‥18.59211
体重の標準偏差‥25.74231
共分散‥392.33
392.33 ÷(18.59211×25.74231)
= 0.8197452
身長と体重は強い相関があるという
結果となった。
R
次に を利用して答えを出す。
それぞれのデータ(身長(a)と体重(b))を打ち込
んだ後に、
cor.test(a,b)で値を出すことが出来る。
Pearson's product-moment correlation
data: a and b
t = 4.5262, df = 10, p-value = 0.001098
alternative hypothesis: true correlation is not
95 percent confidence interval:
0.4642528 0.9477669
sample estimates:
cor
0.8197452
equal to 0
Rを用いても同じ数値となり、身長と体重が強い相関
があることが言える。
例②
• 高度差と気圧(hPa)の関係を調べる。
高度差(m)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
気圧(hPa) 1013 899 795 701 616 540 472 411 356 307 264
これは正規分布していないので、Spearmanの
相関係数を用いる。
先ほどと同様、初めにRを用いて散布図を作成
する。
1000
800
pressure
600
400
0
2000
4000
6000
height
8000
10000
散布図より、相関があることが予想できる。
6
1-
n(n2-1)
n
∑ (xi-yi)
2
i=1
上の式で求めるために、高度・気圧それぞれの順位を決め、差の二乗を求める。
高度順位
11
10
9
8
7
6
5
4
3
2
1
気圧順位
1
2
3
4
5
6
7
8
9
10
11
(xi-yi)2
100
64
36
16
4
0
4
16
36
64
100
以上より、差の二乗の和は440と求めることが出来る。
nに11を代入して計算すると、-1と値が出た。
R
次に を利用して答えを出す。
それぞれのデータ(height,pressure)を打ち込んだ後に、
cor.test(height,pressure,method=“spearman”)で値を出
し事が出来る。
Spearman's rank correlation rho
data: height and pressure
S = 440, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-1
Rでも-1という値が出た。これはとてつもなく相関が強いことが言
える。
実際に高度と気圧は比例するので、これは信頼性があると言っ
ていいであろう。