応用統計学第12回

第12回 相関係数 (Pearson’s correlation coefficient)
i=
1
x1
y1
変数xi
変数yi
r
n
xn
yn
 x  x  y  y 
 x  x    y  y 
i
i
2
y
(xi,yi)
y
S xx S yy
(x2,y2)
S xx   xi  nx 2
2
(x1,y1)
i 1
n
S yy   yi  ny
2
x1 x2・・・・・・・・・・・・・・xi ・ xn
2
i 1
ρ:母相関係数
σx、σy、:母標準偏差
n
S xy   xi yi  nx y
i 1
(xn,yn)
i
S xy
n
2変量正規分布
2
i

・・・
・・・
・・・
2
x2
y2
教科書p224~239
p( x, y) 
1
2 x y

1
exp
2
 2 1  
1  2


x
x
2
2


x  mx  y  my  y  my  
 x  mx 

 2



2
2






x
y
x
y


正規分布
相関係数rの分布
母相関係数ρ=0の場合
1 r
rの標準誤差: s r 
n2
2
rの標準化
r
n2
t r
sr
1 r 2
自由度n-2のt-分布
相関係数: r0  r  tdf ,0.05
相関係数rの有意点
rn ,0.05 
t df ,0.05
1 r2
n2
(95%信頼区間)
2
n  2  tdf ,0.05
2
n  10
t 8, 0.05  2.306
r10,0.05
2.306 2

 0.632
10  2  2.306 2
p363
母相関係数ρ=ρ0の場合
:rは正規分布からずれる。
FisherのZ変換
1
1 r 
Z r  log e 
 :近似的に正規分布
2
 1 r 
n≧10
Zr
r
1
標準偏差: sZ 
n3
母相関係数rの検定
標準偏差: sZ 
1
n3
標準化
Zr  Z
z
 Z r  Z   n  3
sZ
|z|>zαならばrはρと差がある。
母相関係数ρの推定
z
Z  Zr 
n3
1  
1

Z   log e 
2
 1  
:確率(1-α)の信頼区間
逆変換
1 
2Z
e
1 
1    1   e
2Z
e 1
  2Z
 tanhZ  
e 1
2Z
例題1
次の2変量データにつき相関係数を求め、相関の有意性を
判断しなさい。また、母相関係数の信頼区間を求めなさい。
x
8
7
6
6
6
5
4
4
3
2
y
6
5
7
6
4
5
6
3
4
3
帰無仮説:r=0
n
S xx   xi  nx 2
2
i 1
n
S yy   yi  ny 2
2
i 1
n
S xy   xi yi  nx y
i 1
r
S xy
S xx S yy
1 r 2
sr 
n2
t
r
n2
r
sr
1 r 2
1
1 r 
Z r  log e 

2
1

r


z
Z  Zr 
n3
1  
1

Z   log e 
2
 1  
e  1
  2Z
 tanhZ  
e 1
2Z
-0.021≦ρ≦0.898
|t|=2.22<t0.05
帰無仮説は棄却できない
相関係数の差の検定
甲状腺ホルモンT4は血中で大部分がTBGと言う蛋白に結合して
存在する。妊娠中TBGの濃度は増加するので、T4も増加する。
正常妊婦10例、疾患A妊婦9例についてT4とTBGの関係を調べた。
正常
疾患A
TBG
T4
TBG
T4
54
17
43
22
50
15
39
21
39
15
49
19
44
14
42
18
35
13
35
16
41
12
31
15
32
11
36
13
46
10
34
11
38
10
27
8
30
9
y=a1+b1x
y=a2+b2x
帰無仮説:母相関係数ρ1=ρ2(2組の相関係数r1,r2には差がない)
 1  r1 
1

Z1  log e 
2
1

r
1 

s Z1 
1
n1  3
 1  r2 
1

Z 2  log e 
2
 1  r2 
sZ 2 
1
差:Z1-Z2
正規分布
n2  3
標準誤差: sZ1  Z 2
1
1


n1  3 n2  3
標準化
z
Z1  Z 2

sZ1  Z 2
Z1  Z 2
1
1

n1  3 n2  3
正規分布
1
1
1
1



 0.556
n1  3 n2  3
10  3 9  3
Z1-Z2の標準誤差
sZ1  Z 2 
Z1-Z2の標準化
Z1  Z 2 0.833  1.051

 0.392
sZ1 Z 2
0.556
z
<z0.05(両側) =1.96
帰無仮説を採択:相関係数に差があるとは言えない
演習12.1
2組A,Bの2変量データがある。それぞれの相関係数の有意性を
検定し、その95%信頼区間を示しなさい。
また、回帰直線を求め、傾きの差の有意性を検定しなさい。