誤差 (errors)

エコノメトリックス
第7回
2011年前期
中村さやか
今日やること
Ch. 3 Multiple Regression Analysis: Estimation
3.4 The Variance of the OLS Estimators
均一分散の仮定
仮定 MLR.5: 均一分散 (Homoskedasticity)
Var(u| x1, x2,…, xk)=σ2
⇒誤差項uの分散は説明変数の値に関わらず一定
• この仮定をおくことで単純化できる
+ 最小二乗法の重要な性質を導き出せる
• パラメタの不偏性にはこの仮定は必要ない
• もしこの仮定が成り立たないならば、誤差項は
不均一分散(heteroskedasticity)している
• 説明変数のうち一つでも誤差項の分散に影響を与えるもの
があったら均一分散ではない
Copyright © 2009 South-Western/Cengage Learning
Copyright © 2009 South-Western/Cengage Learning
推定されたパラメタの分散
定理3.2
説明変数について条件付き分散を取ると、
2

Var ( ˆ j ) 
2
SST j (1  R j )
j  1,2,..., k
SST j  i 1 ( xij  x ) 2
n
2
R j: x jを他の説明変数全て( と切片)に回帰した時
この定理の証明には仮定1-5までの全てが必要
の決定係数
分散の大きさを決める要因
Var ( ˆ j ) 
2
SST j (1  R j )
2
j  1,2,..., k
1.誤差項の分散σ2が大きいほどパラメタの分散も大きい
⇒ yに影響を与える要因はできるだけ説明変数に含めるべき
2.説明変数の総変動が大きいほどパラメタの分散が小さい
理由1: 標本での説明変数のバラつきが大きいと被説明変
数と説明変数の関係を把握しやすく推定誤差が少なくなる
理由2: 標本数が大きいと推定誤差が少なくなる
3.Rj2が大きいほどパラメタの分散が大きい (0≦Rj2≦1)
Rjとパラメタの分散: k=2の場合
y   0  1 x1   2 x2  u
Var ( ˆ1 ) 
2
SST1 (1  R1 )
2
2
R1 : x1を x2に回帰したときの決定 係数
2
x1と x2の相関が高いほど R1 が大きくなる
 ˆ の分散が大きくなる
1
2
R1 1  Var ( ˆ1 )  
2
x1と x2の相関が高く R1 が1に近い
 x1の変動の大部分が x2の変動によって説明さ れる
Copyright © 2009 South-Western/Cengage Learning
多重共線性
多重共線性:
ある説明変数xjが他の説明変数(1つまたは複数)と高い相
関を持ち、Rj2が1に近くなること
• Rj2=1 ならば仮定3と矛盾
• Rj2が1に近いだけでは仮定3とは矛盾しない
仮定 MLR.3: 完全な多重共線性がないこと
標本において(したがって母集団においても)
説明変数の中に定数のものがないこと、また、
説明変数の間に完全な線形関係がないこと
多重共線性の例
被説明変数:生徒の成績
説明変数:
教師の給与支出、教材への支出、体育教育の支出、等
• お金のある学校は全ての支出が高く、お金のない学校は全
ての支出が低い
⇒ 全ての支出項目が互いに相関している
⇒ 説明変数の間の相関が高いため、それぞれの係数の推定
値の分散が大きくなる
⇒ 一つの支出項目の大きさが成績に与える影響を測定するこ
とが難しい
「多重共線性問題」の「解決」?
Q. 多重共線性によって推定したいパラメタの分散が大きくなる
という「問題」を回避できるか?
A. 解決策はない (そもそも何が「問題」なのか考えるべき)
•
•
•
二つの変数の相関が高いからといってどちらかを除外する
と推定結果全体にバイアスが生じる
前の例では、各支出項目の個別の効果を測ろうとするそも
そもの問題設定に無理がある
パラメタの分散が大きいという問題は、根本的には標本数
を増やすこととモデルを正しく特定することでしか解決でき
ない
多重共線性の影響
y = β0 + β1x1 + β2x2 + β3x3 + u
x2 と x3 の相関が高い
⇒ β2と β3の推定値の分散が大きい
しかし、 x2 と x3 の相関はβ1の推定値の分散には影響せず
⇒ある説明変数の影響にのみ興味があるなら、それ以外の変
数の間の多重共線性は気にしなくてよい
モデルが間違っている場合の分散
~ ~
想定したモデル: y   0  1 x1  v  ~
y   0  1 x1
真のモデル: y   0  1 x1   2 x2  u  yˆ  ˆ0  ˆ1 x1  ˆ2 x2
Var ( ˆ1 ) 
~
Var ( 1 ) 
2
SST1 (1  R1 )
2
2
SST1
~
2
 R1  0 ( Cov( x1 , x2 )  0) ならば Var ( ˆ1 )  Var ( 1 )
•
つまり、x2を説明変数に含めないほうがx1の係数の推定値
の分散は小さくなる!
説明変数を除外すべきか?
~ ~
~
想定したモデル: y   0  1 x1  v  y   0  1 x1
真のモデル: y   0  1 x1   2 x2  u  yˆ  ˆ0  ˆ1 x1  ˆ2 x2
~
ˆ
Cov( x1 , x2 )  0 ならば Var ( 1 )  Var ( 1 )
Q. x2を説明変数に含めるべきか、除外するべきか?
A. ケース1: β2=0, つまりx2がyに影響しない
⇒ x2を除外してもβ1の推定値にバイアスが生じないので、分
散を少なくするためにx2を除外すべし
ケース2: β2 ≠ 0, つまりx2がyに影響
⇒ x2を除外するとβ1の推定値にバイアスが生じるが、分散は
少なくなるというジレンマ
説明変数を除外すべきか? 続き
~ ~
~
想定したモデル: y   0  1 x1  v  y   0  1 x1
真のモデル: y   0  1 x1   2 x2  u  yˆ  ˆ0  ˆ1 x1  ˆ2 x2
~
ˆ
Cov( x1 , x2 )  0 ならば Var ( 1 )  Var ( 1 )
β2 ≠ 0, つまりx2がyに影響
⇒ x2を除外するとβ1の推定値にバイアスが生じるが、分散は
少なくなるというジレンマ
• 標本数が多ければ分散の大きさはどのみち小さくなるので、
バイアスを避けるためにx2を含んだモデルを用いるべき
• x2を説明変数に入れることで、誤差項の分散が小さくなり、
従ってβ1の推定値の分散も小さくなるという間接効果もある
σ2の推定
Var ( ˆ j ) 
2
SST j (1  R j )
2
j  1,2,..., k
• 誤差項の分散σ2以外の部分は全てデータから計算できるが、
σ2は直接観察できない
⇒σ2の推定値を用いる
•
⇒しかし誤差は観察できない
⇒誤差ではなく残差を用いる
誤差がもし観察できるならσ2の不偏推定量は
• σ2の不偏推定量は
1 n 2
uˆ ではない

i 1 i
n
1 n 2
u

i 1 i
n
誤差と残差
誤差 (errors)
残差 (residuals)
ui  yi   0  1 xi1  ...   k xik
uˆi  yi  ˆ0  ˆ1 xi1  ...  ˆk xik
• 実際には観察できない
• 実際の被説明変数の値と
予測値の差として算出
• パラメタの推定値に依存
• パラメタの真の値に依存
自由度とσ2の推定量
2
残差によって誤差の分散を推定: ˆ 
 uˆ  (n  k 1)
n
i 1 i
Q: なぜnではなく(n-k-1)で割るのか?
A: 推定するパラメタの数=k+1
⇒OLSを推定する際の制約数=k+1

n
uˆ  0
i 1 i

n
x uˆ  0
i 1 ij ij
j  1,2,..., k
自由度=(標本数)-(制約数)=n-(k+1)=n-k-1
2
σ2の推定量の不偏性
定理3.3
仮定MLR.1-MLR.5の下では
ˆ 2 


2
2
2
ˆ
ˆ
u
(
n

k

1
)

E
(

)


i1 i
n
証明: Appendix E 参照 (線形代数の知識が必要)
• MLR.5(均一分散)が成立しなければ不偏性も得られない
MLR.5: Var(u| x1, x2,…, xk)=σ2
⇒誤差項uの分散は説明変数の値に関わらず一定
パラメタの標準偏差
Var ( ˆ j ) 
2
SST j (1  R j )
2
 sd ( ˆ j ) 
2
SST j (1  R j )
2


SSTx (1  R j )
2
標準偏差の推定値(standard error)は
se( ˆ j ) 
ˆ 2
SST j (1  R j )
2

ˆ
SST j (1  R j )
2
ガウスーマルコフの定理
定理3.4 (ガウスーマルコフの定理)
仮定MLR.1-MLR.5の下では、最小二乗法のパラメータの推
定値は最良線形不偏推定量(Best Linear Unbiased
Estimator, BLUE)である
• 線形: パラメータの推定値は被説明変数について線形
n
ˆ
 j  i 1 wij yi
wij : 説明変数の関数
• 不偏: E ( ˆ j )   j
• 最良: 線形で不偏性を満たす推定量の中で分散が最小
• 仮定MLR.1-MLR.5をまとめてガウス-マルコフの仮定
(Gauss-Markov assumptions)と呼ぶ