相関分析 1 共分散 いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,(不偏) 共分散は 1 ∑ = (xi − x¯)(y − y¯) n − 1 i=1 n sxy で与えられる.ここに,x ¯, y¯ は,x, y の平均値 1∑ x¯ = xi , n i=1 n 1∑ y¯ = yi n i=1 n である.共分散 sxy が正値のとき,正の相関関係 (x が大きくなるほど,y も大きくなる) があ り,負値のとき,負の相関関係 (x が大きくなるほど,y が小さくなる) と解釈される. 2 相関係数 相関係数は,共分散を尺度化することで,-1 から 1 までの範囲をとるようにしたものである. いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,相関係数は n ∑ (xi − x¯)(y − y¯) sxy i=1 √ n =√ n r= sx sy ∑ ∑ (xi − x¯)2 (yi − y¯)2 i=1 i=1 で与えられる.ここに,sx , sy は,それぞれ,x, y の (不偏) 標準偏差 v v u u n n ∑ u 1 u 1 ∑ 2 t sx = (xi − x¯) , sy = t (yi − y¯)2 n − 1 i=1 n − 1 i=1 である. 2.1 標準化された場合の相関係数 いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,それぞれを標準化し, x′i = xi − x¯ , sx yi′ = xi − y¯ sy とする.このとき,x′i と yi′ の相関係数は rx′ y′ s′xy = √ √ = s′x y 1 1 となる.ここに,s′xy は 1 ∑ ′ 1 ∑ ′ ′ = (xi − 0)(yi′ − 0) = x y = sxy n − 1 i=1 n − 1 i=1 i i n s′xy n である.すなわち,規準化後の共分散と相関係数は一致する. 2.2 相関係数に対する一つの目安 相関係数は,-1∼1 の範囲をとる.このとき,-1 に近くなるほど負の相関関係 (x が大きくな るほど y が小さくなる) となり,1 に近づくほど正の相関関係 (x が大きくなるほど y も大きく なる) となる.また,0 に近いほど無相関 (x と y には関連性がない) と解釈される.ここでは一 般的に言われている目安を書く.しかしながら,分野によってその考え方が異なる.心理学な どでは,0.5 程度でも相関があると考えるが,検査機器などでは,かなり 1 に近い数値でないと いけない. 1.0 ≥ |r| ≥ 0.7 0.7 ≥ |r| ≥ 0.5 0.5 ≥ |r| ≥ 0.4 0.4 ≥ |r| ≥ 0.3 0.3 ≥ |r| ≥ 0.2 0.2 ≥ |r| ≥ 0.0 3 3.1 かなり高い相関がある 高い相関がある 中程度の相関がある ある程度の相関がある 弱い相関がある ほとんど相関がない 相関係数に基づく推測 相関係数に対する区間推定 いま,標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,その相関係数 (の点推定値) を r とする.このとき,100(1 − α)%信頼区間は [ ] exp(2b) − 1 exp(2a) − 1 , exp(2a) + 1 exp(2b) + 1 で与えられる.ここに, ( ) 1 1+r 1 a = log z(α/2), −√ 2 1−r n−3 1 b = log 2 ( 1+r 1−r ) +√ 1 z(α/2) n−3 であり,z(α/2) は,標準正規分布の上側 α/2 パーセント点である.とくに,α = 0.05 のとき, z(0.05/2) = 1.96 である.因みに,log は自然対数である. 3.2 無相関性の検定 標本サイズ n の 2 個の標本 {xi , yi }ni=1 が与えられたとき,無相関性の検定は 帰無仮説 H0 : ρ = 0(X と Y の母相関ρは 0 である) 対立仮説 H1 : ρ ̸= 0(X と Y の母相関ρは 0 でない) を検定する.r を X と Y の標本相関係数とするとき,検定統計量 t0 は √ r n−1 t0 = √ 1 − r2 である.検定統計量 t0 は,帰無仮説のもとで自由度 t − 1 の t 分布に従う.無相関性の検定 では,棄却限界値 tn−1 (α/2)(自由度 n − 1 の t 分布における上側 α/2 パーセント点) に対して |t0 | > tn−1 (α/2) ならば帰無仮説を棄却 (有意である) し,|t0 | ≤ tn−1 (α/2) ならば帰無仮説を受 容する,両側対立仮説の形式をとる. 3.3 相関係数の差の検定 A nA いま,標本サイズ nA の 2 個の標本 {xA i , yi }i=1 での相関係数 (の点推定値) を rA とし,標本 B nB サイズ nB の 2 個の標本 {xB i , yi }i=1 での相関係数 (の点推定値) を rB とする.それぞれの母相 関係数を ρA , ρB とするとき,相関係数の差の検定は 帰無仮説 H0 : ρA = ρB 対立仮説 H1 : ρA ̸= ρB を検定する.検定統計量 z0 は z0 = 1 2 ( 1 + rA 1 + rB log − log 1 − rA 1 − rB √ 1 1 + nA − 3 nB − 3 ) である.ここで log は自然対数である.検定統計量 z0 は帰無仮説のもとで標準正規分布に従う. 相関係数の差の検定では,棄却限界値 z(α/2)(標準正規分布における上側 α/2 パーセント点) に 対して |z0 | > z(α/2) ならば帰無仮説を棄却 (有意である) し,|t0 | ≤ tn−1 (α/2) ならば帰無仮説 を受容する,両側対立仮説の形式をとる. 4 偏相関係数 いま,3 個の標本 {xi , yi , zi }ni=1 が与えられたとき,X と Y の相関係数 ρxy , X と Z の相関係数 ρxz , Y と Z の相関係数 ρyz の 3 個の相関係数を計算できる.しかしながら,これらの相関係数 は相互に影響があり,2 変数間だけの純粋な相関関係を表していない.X と Z の相関関係,Y と Z の相関関係の影響を除いた状況での X と Y の相関係数を表す統計量を偏相関係数という. Z とその他の変数のあいだの相関関係を除いた X と Y の偏相関係数 rxy·z は rxy − rxz · ryz rxy·z = √ √ 2 · 2 1 − rxz 1 − ryz で与えられる. 練習問題 問 1: 次の表は 10 名の新生児の体重と胎盤重量を調査したデータである.以下の問いに答えな さい. 番号 新生児体重 胎盤重量 1 2 3840 3540 700 680 3 3900 590 4 2920 570 5 3820 630 6 3910 510 7 3300 580 8 2770 640 9 3000 500 10 3900 810 [1 ] 共分散を求めなさい. [2 ] 相関係数を求めなさい. [3 ] 相関係数の 95%信頼区間を求めなさい. [4 ] 無相関性の検定を行いなさい. 問 2: 次の表は 8 台の自動車の 0∼400m までの加速 (秒) と燃費 (km/l) を調査したデータである. 以下の問いに答えなさい. 番号 加速 燃費 1 14.7 6.3 2 15.8 7.1 3 16.2 5.6 4 16.8 6.7 5 17.0 9.1 6 16.8 9.0 7 15.4 5.0 8 17.4 6.3 [1 ] 共分散を求めなさい. [2 ] 相関係数を求めなさい. [3 ] 相関係数の 95%信頼区間を求めなさい. [4 ] 無相関性の検定を行いなさい. 問 3: ある工場で男子工員のなかから 50 人,女子工員のなかから 40 人をそれぞれ無作為に抽出 し,作業 x に要する時間と作業 y に要する時間を測定したところ,男子工員における x と y の相関係数は 0.72, 女子工員における x と y の相関係数は 0.59 だった.相関係数に性差 があるか否かについて,有意水準 0.05 で検定しなさい. 問 4: ある調査研究において,50m 走のタイム (秒),年収 (万円),および年齢 (歳) を調査した 結果,下表のような相関係数が得られた.果たして,50m 走のタイム (秒) と年収 (万円) にはこれほど高い正の相関関係が認められるのだろうか.偏相関係数を利用して,第 3 の 変数である年齢の影響を省いた相関関係を評価しなさい. 50m 走 年収 年齢 50m 走 1 0.8781 0.9407 年収 年齢 1 0.9400 1 問 5: これは西ヨーロッパ 21 カ国での心臓病死亡率 (心臓病),脂肪摂取量 (脂肪比率),および 動物性蛋白質摂取量 (動物蛋白) を調査したデータの相関係数である.動物性蛋白質を第 3 の変数と考え,その影響を省いたうえで心臓病死亡率と脂肪摂取量の相関係数を計算し, 次に,脂肪摂取量を第 3 の変数と考え,その影響を省いたうえで心臓病死亡率と動物性蛋 白質の相関係数を計算しなさい.そして結果を考察しなさい. 心臓病 脂肪比率 動物蛋白 心臓病 1 0.547 0.704 脂肪比率 動物蛋白 1 0.823 1 回答 1-1:先ず,新生児体重 x と胎盤重量 y の平均値 x¯ および y¯ は 3840 + 3540 + 3900 + 2920 + 3820 + 3910 + 3300 + 2770 + 3000 + 3900 x¯ = = 3490 10 700 + 680 + 590 + 570 + 630 + 510 + 580 + 640 + 500 + 810 y¯ = = 621 10 である.したがって,下表を作成する: 番号 1 2 3 4 5 6 7 8 9 10 新生児体重 x 3840 3540 3900 2920 3820 3910 3300 2770 3000 3900 上表より n ∑ 胎盤重量 y 700 680 590 570 630 510 580 640 500 810 x − x¯ 350 50 410 -570 330 420 -190 -720 -490 410 y − y¯ (x − x¯)(y − y¯) 79 27650 59 2950 -31 -12710 -51 29070 9 2970 -111 -46620 -41 7790 19 -13680 -121 59290 189 77490 合計 134200 (xi − x¯)(yi − y¯) = 134200 i=1 なので,共分散は 1 ∑ 134200 = (xi − x¯)(yi − y¯) = = 14911.11 n − 1 i=1 9 n sxy である. 1-2:次のような表を作成する: 番号 1 2 3 4 5 6 7 8 9 10 合計 x 3840 3540 3900 2920 3820 3910 3300 2770 3000 3900 34900 y 700 680 590 570 630 510 580 640 500 810 6210 x − x¯ 350 50 410 -570 330 420 -190 -720 -490 410 − y − y¯ (x − x¯)2 79 122500 59 2500 -31 168100 -51 324900 9 108900 -111 176400 -41 36100 19 518400 -121 240100 189 168100 − 1866000 (y − y¯)2 6241 3481 961 2601 81 12321 1681 361 14641 35721 78090 (x − x¯)(y − y¯) 27650 2950 -12710 29070 2970 -46620 7790 -13680 59290 77490 134200 上表より n ∑ (xi − x¯) = 1866000, 2 i=1 n ∑ (yi − y¯) = 78090, 2 n ∑ i=1 (xi − x¯)(yi − y¯) = 134200 i=1 なので,相関係数は n ∑ (xi − x¯)(y − y¯) sxy 134200 i=1 √ n √ r= =√ n =√ = 0.352 sx sy ∑ ∑ 1866000 · 78090 (xi − x¯)2 (yi − y¯)2 i=1 i=1 である.したがって,ある程度の相関関係が認められた. 1-3:標準正規分布の上側 0.05/2 パーセント点は z(0.05/2) = 1.96,および母相関係数の点推定 値は r = 0.352 なので ( ) ( ) 1+r 1 + 0.352 1 1 1 1 a = log −√ z(α/2) = log −√ · 1.96 = −0.3736 2 1−r 2 1 − 0.352 n−3 10 − 3 ( ) ( ) 1+r 1 + 0.352 1 1 1 1 b = log +√ z(α/2) = log +√ · 1.96 = 1.1080 2 1−r 2 1 − 0.352 n−3 10 − 3 より 95%信頼区間は exp(2a) − 1 exp(2 · −0.3736) − 1 = = −0.357 exp(2a) + 1 exp(2 · −0.3736) + 1 exp(2 · 1.1080) − 1 exp(2b) − 1 = = 0.803 上側信頼限界 : exp(2b) + 1 exp(2 · 1.1080) + 1 下側信頼限界 : だった. 1-4:仮説は 帰無仮説 H0 : ρ = 0 対立仮説 H1 : ρ ̸= 0 である.検定統計量は √ √ r n−1 0.352 · 10 − 1 t0 = √ = √ = 1.127 1 − r2 1 − 0.3522 だった.すなわち,帰無仮説が受容された.したがって,母相関係数が 0 でないという根拠は 得られなかった. 2-1:先ず,加速 x と燃料 y の平均値 x¯ および y¯ は 14.7 + 15.8 + 16.2 + 16.8 + 17.0 + 16.8 + 15.4 + 17.4 = 16.263 8 6.3 + 7.1 + 5.6 + 6.7 + 9.1 + 9.0 + 5.0 + 6.3 y¯ = = 6.888 8 x¯ = である.したがって,下表を作成する: 番号 1 2 3 4 5 6 7 8 加速 x 14.7 15.8 16.2 16.8 17.0 16.8 15.4 17.4 上表より 燃費 y 6.3 7.1 5.6 6.7 9.1 9.0 5.0 6.3 n ∑ x − x¯ -1.5625 -0.4625 -0.0625 0.5375 0.7375 0.5375 -0.8625 1.1375 y − y¯ -0.5875 0.2125 -1.2875 -0.1875 2.2125 2.1125 -1.8875 -0.5875 合計 (x − x¯)(y − y¯ 0.918 -0.098 0.080 -0.101 1.632 1.135 1.628 -0.668 4.526 (xi − x¯)(yi − y¯) = 4.526 i=1 なので,共分散は 1 ∑ 4.526 = (xi − x¯)(yi − y¯) = = 0.647 n − 1 i=1 7 n sxy である. 2-2:次のような表を作成する: 番号 1 2 3 4 5 6 7 8 合計 x 14.7 15.8 16.2 16.8 17.0 16.8 15.4 17.4 130.1 y 6.3 7.1 5.6 6.7 9.1 9.0 5.0 6.3 55.1 x − x¯ -1.5625 -0.4625 -0.0625 0.5375 0.7375 0.5375 -0.8625 1.1375 − y − y¯ -0.5875 0.2125 -1.2875 -0.1875 2.2125 2.1125 -1.8875 -0.5875 − (x − x¯)2 2.441 0.214 0.004 0.289 0.544 0.289 0.744 1.294 5.819 (y − y¯)2 0.345 0.045 1.658 0.035 4.895 4.463 3.563 0.345 15.349 (x − x¯)(y − y¯ 0.918 -0.098 0.080 -0.101 1.632 1.135 1.628 -0.668 4.526 上表より n ∑ i=1 (xi − x¯) = 5.819, 2 n ∑ i=1 (yi − y¯) = 15.349, 2 n ∑ i=1 (xi − x¯)(yi − y¯) = 4.526 なので,相関係数は n ∑ (xi − x¯)(y − y¯) sxy 4.526 √ n √ r= =√ = 0.479 = √ n i=1 sx sy ∑ ∑ 5.819 · 15.349 (xi − x¯)2 (yi − y¯)2 i=1 i=1 である.したがって,ある程度の相関関係が認められた. 2-3:標準正規分布の上側 0.05/2 パーセント点は z(0.05/2) = 1.96,および母相関係数の点推定 値は r = 0.479 なので ) ) ( ( 1 1 1 1 1+r 1 + 0.479 a = log −√ z(α/2) = log −√ · 1.96 = −0.3549 2 1−r 2 1 − 0.479 n−3 8−3 ( ) ( ) 1 1 1+r 1 1 + 0.479 1 z(α/2) = log · 1.96 = 1.3982 b = log +√ +√ 2 1−r 2 1 − 0.479 n−3 8−3 より 95%信頼区間は exp(2a) − 1 exp(2 · −0.3549) − 1 = = −0.341 exp(2a) + 1 exp(2 · −0.3549) + 1 exp(2b) − 1 exp(2 · 1.3982) − 1 上側信頼限界 : = = 0.885 exp(2b) + 1 exp(2 · 1.3982) + 1 下側信頼限界 : だった. 2-4:仮説は 帰無仮説 H0 : ρ = 0 対立仮説 H1 : ρ ̸= 0 である.検定統計量は √ √ r n−1 0.479 · 8 − 1 t0 = √ = √ = 1.444 1 − r2 1 − 0.4792 だった.すなわち,帰無仮説が受容された.したがって,母相関係数が 0 でないという根拠は 得られなかった. 問 3:いま,男子工員での母相関係数を ρA ,女性工員での母相関係数を ρB とすると,仮説は 次のようになる: 帰無仮説 H0 : ρA = ρB 対立仮説 H1 : ρA ̸= ρB それぞれの標本相関係数は rA = 0.72,rB = 0.59 であり,標本サイズは nA = 50, nB = 40 なの で,母相関係数の差の検定における検定統計量 z0 は ( ) ( ) 1 + rA 1 1 + 0.72 1 + 0.59 1 1 + rB log − log log − log 2 1 − rA 1 − rB 2 1 − 0.72 1 − 0.59 √ √ z0 = = = 1.046 1 1 1 1 + + nA − 3 nB − 3 50 − 3 40 − 3 である.検定統計量 z0 は帰無仮説のもとで標準正規分布に従う.有意水準 α = 0.05 のとき,棄 却限界値は z(0.05) = 1.96(標準正規分布の上側 α/2 パーセント点) なので z0 < z(0.05) であり, 帰無仮説が受容される.したがって,作業間の相関関係に性差は認められなかった. 問 4:50m 走と年収の相関係数を rxy = 0.8781, 年収と年齢の相関係数を ryz = 0.9407, 50m 走と 年齢の相関係数を rxz = 0.9400 とすると,年齢を第 3 の変数 (コントロール) としたときの 50m 走と年収の偏相関係数 rxy·z は rxy·z = √ rxy − rxz · ryz 0.8781 − 0.9407 · 0.9400 √ =√ = −0.0532 √ 2 · 2 1 − 0.94072 · 1 − 0.94002 1 − rxz 1 − ryz である.50m 走と年収の相関関係は殆ど存在しないことがわかる.高齢になるほど 50m 走のス ピードが遅くなり (すなわち数値が高くなる),一方で高齢なほど年収が高くなる傾向にある. すなわち,年齢が第 3 の変数として媒介することで見かけの相関関係が見られたと考えられる. 問 5:心臓病 x と脂肪比率 y の相関係数を rxy = 0.547, 心臓病 x と動物蛋白 z の相関係数を ryz = 0.704, 脂肪比率 y と動物蛋白 z の相関係数を rxz = 0.823 とすると,動物蛋白を第 3 の変 数 (コントロール) としたときの心臓病と脂肪比率の偏相関係数 rxy·z は rxy − rxz · ryz 0.547 − 0.704 · 0.823 √ = −0.0798 rxy·z = √ =√ √ 2 2 1 − 0.7042 · 1 − 0.8232 1 − rxz · 1 − ryz 次いで,脂肪比率を第 3 の変数 (コントロール) としたときの心臓病と動物蛋白の偏相関係数 rxz·y は rxz − rxy · ryz 0.704 − 0.547 · 0.823 √ √ √ rxz·y = √ = = 0.5336 2 · 2 1 − rxy 1 − ryz 1 − 0.5472 · 1 − 0.8232 だった.したがって,心臓病死亡率と脂肪摂取量の相関関係は殆ど 0 だったものの,心臓病死 亡率と動物性蛋白質摂取量では高い相関関係が認められた.
© Copyright 2024 ExpyDoc