エコノメトリックス 第7回 2011年前期 中村さやか 今日やること Ch. 3 Multiple Regression Analysis: Estimation 3.4 The Variance of the OLS Estimators 均一分散の仮定 仮定 MLR.5: 均一分散 (Homoskedasticity) Var(u| x1, x2,…, xk)=σ2 ⇒誤差項uの分散は説明変数の値に関わらず一定 • この仮定をおくことで単純化できる + 最小二乗法の重要な性質を導き出せる • パラメタの不偏性にはこの仮定は必要ない • もしこの仮定が成り立たないならば、誤差項は 不均一分散(heteroskedasticity)している • 説明変数のうち一つでも誤差項の分散に影響を与えるもの があったら均一分散ではない Copyright © 2009 South-Western/Cengage Learning Copyright © 2009 South-Western/Cengage Learning 推定されたパラメタの分散 定理3.2 説明変数について条件付き分散を取ると、 2 Var ( ˆ j ) 2 SST j (1 R j ) j 1,2,..., k SST j i 1 ( xij x ) 2 n 2 R j: x jを他の説明変数全て( と切片)に回帰した時 この定理の証明には仮定1-5までの全てが必要 の決定係数 分散の大きさを決める要因 Var ( ˆ j ) 2 SST j (1 R j ) 2 j 1,2,..., k 1.誤差項の分散σ2が大きいほどパラメタの分散も大きい ⇒ yに影響を与える要因はできるだけ説明変数に含めるべき 2.説明変数の総変動が大きいほどパラメタの分散が小さい 理由1: 標本での説明変数のバラつきが大きいと被説明変 数と説明変数の関係を把握しやすく推定誤差が少なくなる 理由2: 標本数が大きいと推定誤差が少なくなる 3.Rj2が大きいほどパラメタの分散が大きい (0≦Rj2≦1) Rjとパラメタの分散: k=2の場合 y 0 1 x1 2 x2 u Var ( ˆ1 ) 2 SST1 (1 R1 ) 2 2 R1 : x1を x2に回帰したときの決定 係数 2 x1と x2の相関が高いほど R1 が大きくなる ˆ の分散が大きくなる 1 2 R1 1 Var ( ˆ1 ) 2 x1と x2の相関が高く R1 が1に近い x1の変動の大部分が x2の変動によって説明さ れる Copyright © 2009 South-Western/Cengage Learning 多重共線性 多重共線性: ある説明変数xjが他の説明変数(1つまたは複数)と高い相 関を持ち、Rj2が1に近くなること • Rj2=1 ならば仮定3と矛盾 • Rj2が1に近いだけでは仮定3とは矛盾しない 仮定 MLR.3: 完全な多重共線性がないこと 標本において(したがって母集団においても) 説明変数の中に定数のものがないこと、また、 説明変数の間に完全な線形関係がないこと 多重共線性の例 被説明変数:生徒の成績 説明変数: 教師の給与支出、教材への支出、体育教育の支出、等 • お金のある学校は全ての支出が高く、お金のない学校は全 ての支出が低い ⇒ 全ての支出項目が互いに相関している ⇒ 説明変数の間の相関が高いため、それぞれの係数の推定 値の分散が大きくなる ⇒ 一つの支出項目の大きさが成績に与える影響を測定するこ とが難しい 「多重共線性問題」の「解決」? Q. 多重共線性によって推定したいパラメタの分散が大きくなる という「問題」を回避できるか? A. 解決策はない (そもそも何が「問題」なのか考えるべき) • • • 二つの変数の相関が高いからといってどちらかを除外する と推定結果全体にバイアスが生じる 前の例では、各支出項目の個別の効果を測ろうとするそも そもの問題設定に無理がある パラメタの分散が大きいという問題は、根本的には標本数 を増やすこととモデルを正しく特定することでしか解決でき ない 多重共線性の影響 y = β0 + β1x1 + β2x2 + β3x3 + u x2 と x3 の相関が高い ⇒ β2と β3の推定値の分散が大きい しかし、 x2 と x3 の相関はβ1の推定値の分散には影響せず ⇒ある説明変数の影響にのみ興味があるなら、それ以外の変 数の間の多重共線性は気にしなくてよい モデルが間違っている場合の分散 ~ ~ 想定したモデル: y 0 1 x1 v ~ y 0 1 x1 真のモデル: y 0 1 x1 2 x2 u yˆ ˆ0 ˆ1 x1 ˆ2 x2 Var ( ˆ1 ) ~ Var ( 1 ) 2 SST1 (1 R1 ) 2 2 SST1 ~ 2 R1 0 ( Cov( x1 , x2 ) 0) ならば Var ( ˆ1 ) Var ( 1 ) • つまり、x2を説明変数に含めないほうがx1の係数の推定値 の分散は小さくなる! 説明変数を除外すべきか? ~ ~ ~ 想定したモデル: y 0 1 x1 v y 0 1 x1 真のモデル: y 0 1 x1 2 x2 u yˆ ˆ0 ˆ1 x1 ˆ2 x2 ~ ˆ Cov( x1 , x2 ) 0 ならば Var ( 1 ) Var ( 1 ) Q. x2を説明変数に含めるべきか、除外するべきか? A. ケース1: β2=0, つまりx2がyに影響しない ⇒ x2を除外してもβ1の推定値にバイアスが生じないので、分 散を少なくするためにx2を除外すべし ケース2: β2 ≠ 0, つまりx2がyに影響 ⇒ x2を除外するとβ1の推定値にバイアスが生じるが、分散は 少なくなるというジレンマ 説明変数を除外すべきか? 続き ~ ~ ~ 想定したモデル: y 0 1 x1 v y 0 1 x1 真のモデル: y 0 1 x1 2 x2 u yˆ ˆ0 ˆ1 x1 ˆ2 x2 ~ ˆ Cov( x1 , x2 ) 0 ならば Var ( 1 ) Var ( 1 ) β2 ≠ 0, つまりx2がyに影響 ⇒ x2を除外するとβ1の推定値にバイアスが生じるが、分散は 少なくなるというジレンマ • 標本数が多ければ分散の大きさはどのみち小さくなるので、 バイアスを避けるためにx2を含んだモデルを用いるべき • x2を説明変数に入れることで、誤差項の分散が小さくなり、 従ってβ1の推定値の分散も小さくなるという間接効果もある σ2の推定 Var ( ˆ j ) 2 SST j (1 R j ) 2 j 1,2,..., k • 誤差項の分散σ2以外の部分は全てデータから計算できるが、 σ2は直接観察できない ⇒σ2の推定値を用いる • ⇒しかし誤差は観察できない ⇒誤差ではなく残差を用いる 誤差がもし観察できるならσ2の不偏推定量は • σ2の不偏推定量は 1 n 2 uˆ ではない i 1 i n 1 n 2 u i 1 i n 誤差と残差 誤差 (errors) 残差 (residuals) ui yi 0 1 xi1 ... k xik uˆi yi ˆ0 ˆ1 xi1 ... ˆk xik • 実際には観察できない • 実際の被説明変数の値と 予測値の差として算出 • パラメタの推定値に依存 • パラメタの真の値に依存 自由度とσ2の推定量 2 残差によって誤差の分散を推定: ˆ uˆ (n k 1) n i 1 i Q: なぜnではなく(n-k-1)で割るのか? A: 推定するパラメタの数=k+1 ⇒OLSを推定する際の制約数=k+1 n uˆ 0 i 1 i n x uˆ 0 i 1 ij ij j 1,2,..., k 自由度=(標本数)-(制約数)=n-(k+1)=n-k-1 2 σ2の推定量の不偏性 定理3.3 仮定MLR.1-MLR.5の下では ˆ 2 2 2 2 ˆ ˆ u ( n k 1 ) E ( ) i1 i n 証明: Appendix E 参照 (線形代数の知識が必要) • MLR.5(均一分散)が成立しなければ不偏性も得られない MLR.5: Var(u| x1, x2,…, xk)=σ2 ⇒誤差項uの分散は説明変数の値に関わらず一定 パラメタの標準偏差 Var ( ˆ j ) 2 SST j (1 R j ) 2 sd ( ˆ j ) 2 SST j (1 R j ) 2 SSTx (1 R j ) 2 標準偏差の推定値(standard error)は se( ˆ j ) ˆ 2 SST j (1 R j ) 2 ˆ SST j (1 R j ) 2 ガウスーマルコフの定理 定理3.4 (ガウスーマルコフの定理) 仮定MLR.1-MLR.5の下では、最小二乗法のパラメータの推 定値は最良線形不偏推定量(Best Linear Unbiased Estimator, BLUE)である • 線形: パラメータの推定値は被説明変数について線形 n ˆ j i 1 wij yi wij : 説明変数の関数 • 不偏: E ( ˆ j ) j • 最良: 線形で不偏性を満たす推定量の中で分散が最小 • 仮定MLR.1-MLR.5をまとめてガウス-マルコフの仮定 (Gauss-Markov assumptions)と呼ぶ
© Copyright 2024 ExpyDoc