回帰分析の予測と残差

予測値と残差の平均と相関
yˆ = y + b(x − x )
= bx + ( y − bx )
相関と回帰(2)
回帰分析における予測値と残差の性質
慶應義塾大学 非常勤講師
八賀 洋介
rxe = 0
p 130 回帰式
線形変換 cx + d と同型
yˆ = y + b( x − x ) = y
p.117 線形変換cx + d
に伴う平均値の変化
従属変数yの予測値y^の平均値はyの平均値に等しい
e = y − yˆ
e のことを残差 (residual)、
または予測の誤差と呼ぶ
e = y − yˆ = 0
p 100 合成変数の平均
e は 2つの変数yとy^から合成した変数
ryeˆ = 0
残差 e の平均はゼロとなる。
rxe = 0
ryeˆ = 0
132
変数の直交分解と残差の積極的意義
独立変数xと残差eは無相関。また従
属変数yの予測値y^ と e も無相関
133
p.126 変数変換による相関係数の変化
予測値と残差の分散
p.117 分散の線形変換
2
2
2
x'
x
p.113 合成変数の分散から
先ほどの残差の式
e = y − yˆ
を並べなおすと、
y = yˆ + e
y^ と e は互いに無相関だった(p.133)。相関がない2変数は「互いに直交する」
と言う。つまり、従属変数 y を2つの互いに直交する成分に分解する直交分解
の式である。
y^は独立変数xを線形変換したものだった(p.133)。したがってxとの相関は1
(または―1)となる。一方、残差 e は独立変数 x と無相関だった(p.133)。した
がって、この式は、従属変数 y を、独立変数 x と完全に相関する部分と、xとは
完全に相関しない部分に分解する式である。
残差 e は独立変数から従属変数を予測するという目的からは、望ましくないも
のだが、変数間の相関関係に基づいて因果関係に接近する際には、主役級に
重要となる。
例えば、「身長xから体重yを予測する」場合、「体重のうち、身長では説明できな
い部分」が残差 e となり、肥満度のような指標とみなすことができる。
134
se
sy
se2 は予測の誤差分散とも呼ぶ。
その平方根は予測の標準誤差(standard
error of prediction) と呼ばれる。予測の
標準誤差は、残差 e の標準偏差である。
2
se = s y (1 − r )
ただし、統計的推測の時は
1
2
yˆ
回帰係数bの式(p.130)
2
2
e
2
y
s = s −s
2
y
2
2
yˆ
隣のSy^2式を代入
= s (1 − r )
0.4
15
= 0.6
15
a = 100 − 0.6・100 = 40
yˆ = 40 + 0.6 x
b = 0.6
0
0
s 'e = se N / ( N − 2)
0.5
1
相関係数 r
独立変数 x と従属変数 y の相関係数 r = 0 の場合、回帰直線の傾きはゼロになり、予測
値 は独立変数 x と無関係に yˆ = y となる(p.130)。残差は y − y となるので予測の標準
誤差は sy と等しくなる。r = 0.5 ならば、上の式に代入して求めると、se =.866 sy となり、
予測の標準誤差 se がsy に比べて86%に減少することがわかる。 もし予測の精度を高め
てseをsyのちょうど半分の大きさにするには、√ (1ーr2) = 0.5 を満たすようにr = .866 とい
う相関を持つ独立変数が必要になる
136
 sy 
=  r  s x2
 sx 
= s y2 r 2
135
従属変数の分散を独立変数で説明できる割合はr2である。このことからr2のことを、分散説明
率(proportion of variance accounted for)と呼ぶ、また、どれだけ独立変数が従属変数の
値を決定するかを表すので、決定係数(coefficient of dtermination)とも呼ばれる。
知能指数:平均100、標準偏差15
N=200、r=0.6の仮想データ
0.2
s y2ˆ = b 2 × s x2
s =s +s
0.8
0.6
ここでは、y^ = a + bx だから(p.128)
2
e
回帰とは
S’e
Se
p.133 y^ と e は無相関
2
y
息子の知能指数y
予測の標準誤差
s = c ×s
s y2ˆ + e = s y2ˆ + 2 s yeˆ + se2
xˆ = 100 + 0.6( y − 100)
145
135
125
115
yˆ = 100 + 0.6( x − 100)
105
95
85
75
65
55
55
65
75
85
95 105 115 125 135 145
父親の知能指数x
yˆ = 100 + 0.6( x − 100)
「変数yの変数xへの回帰直線」
父親の知能指数が極端な値をとっても、息子の知能指数の予測は平均の方へ戻る。
これを「平均への回帰」と呼ぶ。回帰の現象を記述する直線という意味で、回帰直線と言
う用語が用いられる。
変数yから変数xの値を予測
したい場合がある。この場
合は、yを与えた場合のxの
条件付き平均に注目する。
xˆ = a′ + b′y
b′ = r s x s y
a′ = x − b′y
xˆ = 100 + 0.6( y − 100)
「変数xの変数yへの回帰直線」
137