予測値と残差の平均と相関 yˆ = y + b(x − x ) = bx + ( y − bx ) 相関と回帰(2) 回帰分析における予測値と残差の性質 慶應義塾大学 非常勤講師 八賀 洋介 rxe = 0 p 130 回帰式 線形変換 cx + d と同型 yˆ = y + b( x − x ) = y p.117 線形変換cx + d に伴う平均値の変化 従属変数yの予測値y^の平均値はyの平均値に等しい e = y − yˆ e のことを残差 (residual)、 または予測の誤差と呼ぶ e = y − yˆ = 0 p 100 合成変数の平均 e は 2つの変数yとy^から合成した変数 ryeˆ = 0 残差 e の平均はゼロとなる。 rxe = 0 ryeˆ = 0 132 変数の直交分解と残差の積極的意義 独立変数xと残差eは無相関。また従 属変数yの予測値y^ と e も無相関 133 p.126 変数変換による相関係数の変化 予測値と残差の分散 p.117 分散の線形変換 2 2 2 x' x p.113 合成変数の分散から 先ほどの残差の式 e = y − yˆ を並べなおすと、 y = yˆ + e y^ と e は互いに無相関だった(p.133)。相関がない2変数は「互いに直交する」 と言う。つまり、従属変数 y を2つの互いに直交する成分に分解する直交分解 の式である。 y^は独立変数xを線形変換したものだった(p.133)。したがってxとの相関は1 (または―1)となる。一方、残差 e は独立変数 x と無相関だった(p.133)。した がって、この式は、従属変数 y を、独立変数 x と完全に相関する部分と、xとは 完全に相関しない部分に分解する式である。 残差 e は独立変数から従属変数を予測するという目的からは、望ましくないも のだが、変数間の相関関係に基づいて因果関係に接近する際には、主役級に 重要となる。 例えば、「身長xから体重yを予測する」場合、「体重のうち、身長では説明できな い部分」が残差 e となり、肥満度のような指標とみなすことができる。 134 se sy se2 は予測の誤差分散とも呼ぶ。 その平方根は予測の標準誤差(standard error of prediction) と呼ばれる。予測の 標準誤差は、残差 e の標準偏差である。 2 se = s y (1 − r ) ただし、統計的推測の時は 1 2 yˆ 回帰係数bの式(p.130) 2 2 e 2 y s = s −s 2 y 2 2 yˆ 隣のSy^2式を代入 = s (1 − r ) 0.4 15 = 0.6 15 a = 100 − 0.6・100 = 40 yˆ = 40 + 0.6 x b = 0.6 0 0 s 'e = se N / ( N − 2) 0.5 1 相関係数 r 独立変数 x と従属変数 y の相関係数 r = 0 の場合、回帰直線の傾きはゼロになり、予測 値 は独立変数 x と無関係に yˆ = y となる(p.130)。残差は y − y となるので予測の標準 誤差は sy と等しくなる。r = 0.5 ならば、上の式に代入して求めると、se =.866 sy となり、 予測の標準誤差 se がsy に比べて86%に減少することがわかる。 もし予測の精度を高め てseをsyのちょうど半分の大きさにするには、√ (1ーr2) = 0.5 を満たすようにr = .866 とい う相関を持つ独立変数が必要になる 136 sy = r s x2 sx = s y2 r 2 135 従属変数の分散を独立変数で説明できる割合はr2である。このことからr2のことを、分散説明 率(proportion of variance accounted for)と呼ぶ、また、どれだけ独立変数が従属変数の 値を決定するかを表すので、決定係数(coefficient of dtermination)とも呼ばれる。 知能指数:平均100、標準偏差15 N=200、r=0.6の仮想データ 0.2 s y2ˆ = b 2 × s x2 s =s +s 0.8 0.6 ここでは、y^ = a + bx だから(p.128) 2 e 回帰とは S’e Se p.133 y^ と e は無相関 2 y 息子の知能指数y 予測の標準誤差 s = c ×s s y2ˆ + e = s y2ˆ + 2 s yeˆ + se2 xˆ = 100 + 0.6( y − 100) 145 135 125 115 yˆ = 100 + 0.6( x − 100) 105 95 85 75 65 55 55 65 75 85 95 105 115 125 135 145 父親の知能指数x yˆ = 100 + 0.6( x − 100) 「変数yの変数xへの回帰直線」 父親の知能指数が極端な値をとっても、息子の知能指数の予測は平均の方へ戻る。 これを「平均への回帰」と呼ぶ。回帰の現象を記述する直線という意味で、回帰直線と言 う用語が用いられる。 変数yから変数xの値を予測 したい場合がある。この場 合は、yを与えた場合のxの 条件付き平均に注目する。 xˆ = a′ + b′y b′ = r s x s y a′ = x − b′y xˆ = 100 + 0.6( y − 100) 「変数xの変数yへの回帰直線」 137
© Copyright 2024 ExpyDoc