第11回授業の学習目標

第3日目第3時限授業の学習目標
 相関係数の統計的有意性検定の理論と方法
を学ぶ。
(1)相関係数の定義と特徴の簡単な復
習。
(2)相関係数と回帰直線の関係を学ぶ。
(3)相関係数の検定の理論の概要を知
る。
(4)相関係数の検定の方法を学ぶ。
相関係数の統計的検定(1)
相関係数の性質(1)(復習)
(1) 2つの変数 x と y の相関係数は、しばしば、
つぎのように書かれる:
rxy
(2) 相関係数は、マイナス1の値からプラス1の値
までの範囲の値を取る:
1  rxy  1
相関係数の統計的検定(2)
相関係数の性質(2)(復習)
 相関係数が、負の場合負の相関、ゼロの場合無
相関、正の場合正の相関がある、という。
・ ・
。
・
・
・
・
・
・
負の相関
・
・
・
・
・
・
・
・
・
・
・
無相関
・
・
・
・
・
・
・
・
正の相関
相関係数の統計的検定(3)
相関係数の性質(3)(復習)
 ピアソンの相関係数は、第1日目に示したよう
に、共分散と2つの変量それぞれの標準偏差を
用いて表される
共分散
sxy
rxy 
sx s y
標準偏差の積
相関係数の統計的検定(4)
共分散の定義と計算式
共分散は、次式で定義されるが、ミスの
少ない計算法は、つぎの最後の式である:
N
1
sxy   ( xi  x)( yi  y),
N i 1
1
 x1 y1  x2 y2   xN yN   x y.
N
相関係数の統計的検定(4)
相関係数と回帰直線(1)
 これまで、相関係数は定量的2変量の間の直線
的な関係を1つの数値で表すための指標として
紹介してきた。
 しかしながら、相関係数がなぜ定量的2変量間
の直線的関係の指標になるのかについては、直
接的な説明はしてこなかった。
 そこで、つぎに簡単にその直接的な理由を述べ
る。この問題に関わるのが回帰直線である。
相関係数の統計的検定(4)
相関係数と回帰直線(2)
 例えば、父親の身長から子供の身長を予測する問
題を考えよう。前者をx、後者をyとすると、両
者の間につぎのような直線を仮定するのは、1つ
の考え方であろう。
 このモデルは、(単純線形)回帰モデル(the
父親 ilinear
の
simple
regression
model)
と呼ばれる:
父親 i の身長
誤差項
子供 の身長
Yi  0  1xi  Ei
Yi=yi は、子供
の身長の実測値
子供の身長の
予測値
予測値で説明
できない部分
相関係数の統計的検定(4)
相関係数と回帰直線(3)
 うえの回帰モデルの未知パラメータのうち、β0 と
β1 については、N 人のサンプルの定量的2変量
データ(対)
( x , y ), ( x , y ),, ( x , y )
1
1
2
2
N
N
が与えられると、モデルの誤差項 E1 , E2 ,, EN
の大きさが全体的に可能な限り小さくなるような最適な
値を推定でき、それら(の推定値)は、つぎのようになる:
s
xy
ˆ
ˆ
ˆ
0  y  1x, 1  2
sx
相関係数の統計的検定(4)
相関係数と回帰直線(4)
 簡単に言えば、右
図のような N 個の
データ点を代表す
るような直線、
Y軸
●
● ●
の切片 β0 及び傾き
β1 を求める問題と言
える。
●
●
y  0  1x
●
●
β0
●
●
●
●
●
β1
X軸
相関係数の統計的検定(4)
相関係数と回帰直線(5)
 上述の直線は、一般に回帰直線 (regression line 又
は regression equation) と呼ばれる。
 上述の回帰直線は、x(例えば父親の身長)から
y(息子の身長)の値を予測ないし説明するもの
で、y の x への回帰 (regression of y on x) と呼ばれ
る。
 この場合の回帰直線は、うえの結果からつぎのよ
sxy
うになる:
yˆi  y  2 ( x  x )2
sx
相関係数の統計的検定(4)
相関係数と回帰直線(6)
 同一データに対して、x の y への回帰を考えるこ
ともできる。この場合の回帰直線は、つぎのようで
ある:
x    y
0
1
先ほどと同様な手続きにより、α0 と α1 を推定すると、
それらは、つぎのようになる:
sxy
ˆ0  x  ˆ1 y, ˆ1  2
sy
相関係数の統計的検定(4)
相関係数と回帰直線(7)
 したがって、x の y への回帰直線は、つぎのよう
になる:
sxy
xˆi  x  2 ( y  y)2
sy
最後に、同一データに対する2種類の回帰直線の傾き
の積は、両者の幾何平均の2乗に等しく、さらに、それ
は両変数の相関係数の2乗に等しいに注意せよ:
2
 sxy 


  rxy2
ˆ1ˆ1   ˆ1ˆ1   

  sx sy 
2
相関係数の統計的検定(4)
相関係数と回帰直線(8)
 最後に、2変量間の相関係数の2乗には、もう1つ
重要な意味がある。それは、例えば、y の x への回
帰を考える場合、y の実測値の分散に占める y の予
測値(の推定値)の分散は、つぎのように両変量間
の相関係数の2乗に等しいことが分かっている点で
ある。すなわち、
s
s
2
ˆ
y
2
y
r
2
xy
相関係数の統計的検定(4)
相関係数と回帰直線(9)
 すなわち、y の分散に占める予測値の分散の比率
は、誤差が最適化(最小化)された時点では、両
変量間の相関係数の2乗に等しい。
 この比率は、決定係数 (coefficient of
determination) と呼ばれることがある。
相関係数の統計的検定(5)
相関係数の有意性検定の方法(1)
 母相関がゼロの場合
(1)サンプル数が小さい時 (N<100)
t-検定量を用いた検定を行う。
(2)サンプル数が大きい時 (N≥100)
r が近似的に平均ゼロの正規分布に従うこ
とを
利用する。一方、分布の分散は 1/N である
。
(註)うえの t-統計量は、Fisher (1915) による相関係
数の
相関係数の統計的検定(5)
相関係数の有意性検定の方法(2)
 母相関が任意の場合
1 1 r
z

(1)標本相関係数の z 変換 2 ln 1  r ,
が、任意の r に対して、近似的に正規分
布する
ことを利用する。
u  z N  3 が単位
(2)小さな母相関に対しては、
正規分布に従うことを利用する。
相関係数の統計的検定(5)
相関係数の有意性検定の方法(3)
 相関係数の有意性検定
(1)サンプル数が小さい時 (N<100)
帰無仮説: 母相関係数 ρ=0、 のもとで
、つぎのt-統計量
t
r
N 2
1 r 2
,
が、自由度 ν=N-2 の t-分布に従う、ことを利
用する。
相関係数の統計的検定(5)
相関係数の有意性検定の方法(4)
(例)標本の相関係数 r が 0.83 で標本数が 5
ならば、
0.83 5  2
0.831.732
t

,
2
1  0.6889
1  0.83
1.4376

 2.58
0.3111
相関係数の統計的検定(5)
相関係数の有意性検定の方法(5)
 t-分布の分布の形は、そのパラメー
タ(自由度)で決まることは、平均
値の区間推定のところで述べたとお
りである。
 うえの相関係数の有意性検定の例で
は、t-分布の自由度は、
ν= N – 2 = 5 – 2 = 3
相関係数の統計的検定(5)
相関係数の有意性検定の方法(6)
 つぎに、t-分布表(以下の表)の 自由度
ν=3, p=0.o5 に対応する棄却点の値 3.182 を
読み取る。
 一方、先ほど計算した t=2.58 を思い出そう。
 このとき、t=2.58<3.182 なので、このよう
な場合、われわれは、帰無仮説(母相関係
数がゼロ)を採択する。
例題での(N=5, 自由度 ν=N-2 の t-分布の
棄却点の値 tN-1(α/2) の読み取り方)
α のこ
と
ν
p
0.9
0.8
…
0.05
0.02
…
1
.158
.325
…
12.706
31.821
…
2
.142
.289
…
4.303
6.965
…
3
.137
.277
∶
3.182
4.541
…
∶
∶
∞
…
…
相関係数の統計的検定(5)
相関係数の有意性検定の方法(7)
 一方、もし標本から計算された t-値が、
棄却点の値、3.182 以上ならば、われわれ
は帰無仮説、すなわち、母相関係数はゼ
ロである、を棄却する。
 このことは、相関係数が5%水準で、統
計的に有意であることを意味する。
演習(8)
 演習(4)での、各自の2変量データに
対する相関係数を用いて、N=10 の場合の
データの相関係数の統計的有意性検定を
行え。
 この場合の t-検定の危険率(有意水準)
は、1%とすると、棄却点の t-値は幾つ
となるか。
 これを見て、相関係数の有意性検定を行
え。
演習8(N=10, 自由度 ν=N-2 の t-分布の
棄却点の値 tN-1(α/2) の読み取り方)
α のこ
と
p
0.90
0.80
…
1
.158
.325
…
2
.142
.289
…
0.05
0.02
0.01
12.706 31.821
63.657
ν
∶
8
4.303
6.965
9.925
2.306
…
3.355
∶
.130
.262
…
∶
∶
∞
…
…