相関係数 植物生態学研究室 木村 一也 相関係数 相関係数とは、二つの確率変数の間の相関 (類似性の度合い)を示す統計学的指標であ る。 計算によって求めるころができ、原則として 単位は無く、-1 から 1 の間の実数値をとる。 • r≦|0.2| • |0.2|<r≦|0.4| • |0.4|<r≦|0.7| • |0.7|<r≦|1.0| -1.0 -0.7 -0.4 ほとんど相関なし 弱い相関あり 中程度の相関あり 強い相関あり -0.2 0.0 0.2 0.4 0.7 1.0 また、この二つの確率変数が正規分布し ているか、していないかで、算出の方法が 異なる。 正規分布している →Pearsonの相関係数 正規分布していない(ノンパラメトリック) →Spearmanの相関係数 (順位相関係数) Pearsonの相関係数 N r= ∑(xi-x)(yi-y) i=1 √ ∑(x -x) ∑(y -y) N i i=1 ・ 2 N i 2 i=1 はそれぞれの平均を表す。 ・ 分子・分母を表本数Nで割ると、それぞれ、共分散・標 準偏差を表す。 Spearmanの相関係数 6 1- n(n2-1) n ∑ (xi-yi) 2 i=1 確率変数が順位に変わっただけで、Pearsonの相関係数の式の変形 から求めることが出来る。 また、正規分布しないため、順位から求める。 例① ・ 身長と体重に相関はあるか。 a b c d e f g h i j k l 身長 166 176 174 171 180 162 171 165 167 168 171 179 体重 56 62 68 59 72 52 62 55 58 59 75 74 身長・体重は正規分布しているので、Pearsonの相 関係数の計算を用いる。 初めに、Rを用いて散布図を描く。 75 70 体重 65 60 55 165 170 身長 175 180 散布図を見ると身長と体重は相関があること が予測される。 r= N 実際に ∑(xi-x)(yi-y) i=1 √ N N i=1 i=1 2 2 ∑(xi-x) ∑(yi-y) の式で計算してみる。 身長の標準偏差‥18.59211 体重の標準偏差‥25.74231 共分散‥392.33 392.33 ÷(18.59211×25.74231) = 0.8197452 身長と体重は強い相関があるという 結果となった。 R 次に を利用して答えを出す。 それぞれのデータ(身長(a)と体重(b))を打ち込 んだ後に、 cor.test(a,b)で値を出すことが出来る。 Pearson's product-moment correlation data: a and b t = 4.5262, df = 10, p-value = 0.001098 alternative hypothesis: true correlation is not 95 percent confidence interval: 0.4642528 0.9477669 sample estimates: cor 0.8197452 equal to 0 Rを用いても同じ数値となり、身長と体重が強い相関 があることが言える。 例② • 高度差と気圧(hPa)の関係を調べる。 高度差(m) 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 気圧(hPa) 1013 899 795 701 616 540 472 411 356 307 264 これは正規分布していないので、Spearmanの 相関係数を用いる。 先ほどと同様、初めにRを用いて散布図を作成 する。 1000 800 pressure 600 400 0 2000 4000 6000 height 8000 10000 散布図より、相関があることが予想できる。 6 1- n(n2-1) n ∑ (xi-yi) 2 i=1 上の式で求めるために、高度・気圧それぞれの順位を決め、差の二乗を求める。 高度順位 11 10 9 8 7 6 5 4 3 2 1 気圧順位 1 2 3 4 5 6 7 8 9 10 11 (xi-yi)2 100 64 36 16 4 0 4 16 36 64 100 以上より、差の二乗の和は440と求めることが出来る。 nに11を代入して計算すると、-1と値が出た。 R 次に を利用して答えを出す。 それぞれのデータ(height,pressure)を打ち込んだ後に、 cor.test(height,pressure,method=“spearman”)で値を出 し事が出来る。 Spearman's rank correlation rho data: height and pressure S = 440, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho -1 Rでも-1という値が出た。これはとてつもなく相関が強いことが言 える。 実際に高度と気圧は比例するので、これは信頼性があると言っ ていいであろう。
© Copyright 2024 ExpyDoc