第3日目第3時限授業の学習目標 相関係数の統計的有意性検定の理論と方法 を学ぶ。 (1)相関係数の定義と特徴の簡単な復 習。 (2)相関係数と回帰直線の関係を学ぶ。 (3)相関係数の検定の理論の概要を知 る。 (4)相関係数の検定の方法を学ぶ。 相関係数の統計的検定(1) 相関係数の性質(1)(復習) (1) 2つの変数 x と y の相関係数は、しばしば、 つぎのように書かれる: rxy (2) 相関係数は、マイナス1の値からプラス1の値 までの範囲の値を取る: 1 rxy 1 相関係数の統計的検定(2) 相関係数の性質(2)(復習) 相関係数が、負の場合負の相関、ゼロの場合無 相関、正の場合正の相関がある、という。 ・ ・ 。 ・ ・ ・ ・ ・ ・ 負の相関 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 無相関 ・ ・ ・ ・ ・ ・ ・ ・ 正の相関 相関係数の統計的検定(3) 相関係数の性質(3)(復習) ピアソンの相関係数は、第1日目に示したよう に、共分散と2つの変量それぞれの標準偏差を 用いて表される 共分散 sxy rxy sx s y 標準偏差の積 相関係数の統計的検定(4) 共分散の定義と計算式 共分散は、次式で定義されるが、ミスの 少ない計算法は、つぎの最後の式である: N 1 sxy ( xi x)( yi y), N i 1 1 x1 y1 x2 y2 xN yN x y. N 相関係数の統計的検定(4) 相関係数と回帰直線(1) これまで、相関係数は定量的2変量の間の直線 的な関係を1つの数値で表すための指標として 紹介してきた。 しかしながら、相関係数がなぜ定量的2変量間 の直線的関係の指標になるのかについては、直 接的な説明はしてこなかった。 そこで、つぎに簡単にその直接的な理由を述べ る。この問題に関わるのが回帰直線である。 相関係数の統計的検定(4) 相関係数と回帰直線(2) 例えば、父親の身長から子供の身長を予測する問 題を考えよう。前者をx、後者をyとすると、両 者の間につぎのような直線を仮定するのは、1つ の考え方であろう。 このモデルは、(単純線形)回帰モデル(the 父親 ilinear の simple regression model) と呼ばれる: 父親 i の身長 誤差項 子供 の身長 Yi 0 1xi Ei Yi=yi は、子供 の身長の実測値 子供の身長の 予測値 予測値で説明 できない部分 相関係数の統計的検定(4) 相関係数と回帰直線(3) うえの回帰モデルの未知パラメータのうち、β0 と β1 については、N 人のサンプルの定量的2変量 データ(対) ( x , y ), ( x , y ),, ( x , y ) 1 1 2 2 N N が与えられると、モデルの誤差項 E1 , E2 ,, EN の大きさが全体的に可能な限り小さくなるような最適な 値を推定でき、それら(の推定値)は、つぎのようになる: s xy ˆ ˆ ˆ 0 y 1x, 1 2 sx 相関係数の統計的検定(4) 相関係数と回帰直線(4) 簡単に言えば、右 図のような N 個の データ点を代表す るような直線、 Y軸 ● ● ● の切片 β0 及び傾き β1 を求める問題と言 える。 ● ● y 0 1x ● ● β0 ● ● ● ● ● β1 X軸 相関係数の統計的検定(4) 相関係数と回帰直線(5) 上述の直線は、一般に回帰直線 (regression line 又 は regression equation) と呼ばれる。 上述の回帰直線は、x(例えば父親の身長)から y(息子の身長)の値を予測ないし説明するもの で、y の x への回帰 (regression of y on x) と呼ばれ る。 この場合の回帰直線は、うえの結果からつぎのよ sxy うになる: yˆi y 2 ( x x )2 sx 相関係数の統計的検定(4) 相関係数と回帰直線(6) 同一データに対して、x の y への回帰を考えるこ ともできる。この場合の回帰直線は、つぎのようで ある: x y 0 1 先ほどと同様な手続きにより、α0 と α1 を推定すると、 それらは、つぎのようになる: sxy ˆ0 x ˆ1 y, ˆ1 2 sy 相関係数の統計的検定(4) 相関係数と回帰直線(7) したがって、x の y への回帰直線は、つぎのよう になる: sxy xˆi x 2 ( y y)2 sy 最後に、同一データに対する2種類の回帰直線の傾き の積は、両者の幾何平均の2乗に等しく、さらに、それ は両変数の相関係数の2乗に等しいに注意せよ: 2 sxy rxy2 ˆ1ˆ1 ˆ1ˆ1 sx sy 2 相関係数の統計的検定(4) 相関係数と回帰直線(8) 最後に、2変量間の相関係数の2乗には、もう1つ 重要な意味がある。それは、例えば、y の x への回 帰を考える場合、y の実測値の分散に占める y の予 測値(の推定値)の分散は、つぎのように両変量間 の相関係数の2乗に等しいことが分かっている点で ある。すなわち、 s s 2 ˆ y 2 y r 2 xy 相関係数の統計的検定(4) 相関係数と回帰直線(9) すなわち、y の分散に占める予測値の分散の比率 は、誤差が最適化(最小化)された時点では、両 変量間の相関係数の2乗に等しい。 この比率は、決定係数 (coefficient of determination) と呼ばれることがある。 相関係数の統計的検定(5) 相関係数の有意性検定の方法(1) 母相関がゼロの場合 (1)サンプル数が小さい時 (N<100) t-検定量を用いた検定を行う。 (2)サンプル数が大きい時 (N≥100) r が近似的に平均ゼロの正規分布に従うこ とを 利用する。一方、分布の分散は 1/N である 。 (註)うえの t-統計量は、Fisher (1915) による相関係 数の 相関係数の統計的検定(5) 相関係数の有意性検定の方法(2) 母相関が任意の場合 1 1 r z (1)標本相関係数の z 変換 2 ln 1 r , が、任意の r に対して、近似的に正規分 布する ことを利用する。 u z N 3 が単位 (2)小さな母相関に対しては、 正規分布に従うことを利用する。 相関係数の統計的検定(5) 相関係数の有意性検定の方法(3) 相関係数の有意性検定 (1)サンプル数が小さい時 (N<100) 帰無仮説: 母相関係数 ρ=0、 のもとで 、つぎのt-統計量 t r N 2 1 r 2 , が、自由度 ν=N-2 の t-分布に従う、ことを利 用する。 相関係数の統計的検定(5) 相関係数の有意性検定の方法(4) (例)標本の相関係数 r が 0.83 で標本数が 5 ならば、 0.83 5 2 0.831.732 t , 2 1 0.6889 1 0.83 1.4376 2.58 0.3111 相関係数の統計的検定(5) 相関係数の有意性検定の方法(5) t-分布の分布の形は、そのパラメー タ(自由度)で決まることは、平均 値の区間推定のところで述べたとお りである。 うえの相関係数の有意性検定の例で は、t-分布の自由度は、 ν= N – 2 = 5 – 2 = 3 相関係数の統計的検定(5) 相関係数の有意性検定の方法(6) つぎに、t-分布表(以下の表)の 自由度 ν=3, p=0.o5 に対応する棄却点の値 3.182 を 読み取る。 一方、先ほど計算した t=2.58 を思い出そう。 このとき、t=2.58<3.182 なので、このよう な場合、われわれは、帰無仮説(母相関係 数がゼロ)を採択する。 例題での(N=5, 自由度 ν=N-2 の t-分布の 棄却点の値 tN-1(α/2) の読み取り方) α のこ と ν p 0.9 0.8 … 0.05 0.02 … 1 .158 .325 … 12.706 31.821 … 2 .142 .289 … 4.303 6.965 … 3 .137 .277 ∶ 3.182 4.541 … ∶ ∶ ∞ … … 相関係数の統計的検定(5) 相関係数の有意性検定の方法(7) 一方、もし標本から計算された t-値が、 棄却点の値、3.182 以上ならば、われわれ は帰無仮説、すなわち、母相関係数はゼ ロである、を棄却する。 このことは、相関係数が5%水準で、統 計的に有意であることを意味する。 演習(8) 演習(4)での、各自の2変量データに 対する相関係数を用いて、N=10 の場合の データの相関係数の統計的有意性検定を 行え。 この場合の t-検定の危険率(有意水準) は、1%とすると、棄却点の t-値は幾つ となるか。 これを見て、相関係数の有意性検定を行 え。 演習8(N=10, 自由度 ν=N-2 の t-分布の 棄却点の値 tN-1(α/2) の読み取り方) α のこ と p 0.90 0.80 … 1 .158 .325 … 2 .142 .289 … 0.05 0.02 0.01 12.706 31.821 63.657 ν ∶ 8 4.303 6.965 9.925 2.306 … 3.355 ∶ .130 .262 … ∶ ∶ ∞ … …
© Copyright 2024 ExpyDoc