Document

エコノメトリックス
第8回
2011年前期
中村さやか
今日やること
Ch. 4 Multiple Regression Analysis: Inference
4.1 Sampling Distributions of the OLS Estimators
パラメータの推定値はどんな分布をしているか?
分布の形は?
4.2 Testing Hypothesis about a Single Population
Parameter: The t Test
パラメータについての仮説は統計的に支持される
か?
正規分布の仮定
仮定 MLR.6: 正規分布(Normality)
誤差項u は説明変数 x1, x2,…, xkから独立に、平均0、分散
σ2の正規分布に従う:
u~Normal(0, σ2)
⇔ y|x~Normal(β0 + β1x1 + …+ βkxk, σ2)
• この仮定はMLR.4 及び MLR.5の十分条件
仮定 MLR.5: Var(u| x1, x2,…, xk)=σ2
仮定 MLR.4: E(u| x1, x2,…, xk)=0
• MLR.1-MLR.6までの仮定を古典的線形モデル(classical
linear model, CLM)の仮定と呼ぶ
CLMの仮定=ガウスーマルコフの仮定+正規分布の仮定
Copyright © 2009 South-Western/Cengage Learning
正規分布の仮定の妥当性
• 中心極限定理 (central limit theorem):
{Y1, Y2,…, Yk}が平均μ、分散のσ2の無作為標本であるとき、
Yn  
Zn 
 n
は漸近的に(=標本数が無限大に近づけば)標準正規分布
に従う
正当化:
• 誤差項uはさまざまな観察できない要素の和なので中心極
限定理が成立する
反論:
• 各要素の分布が大きく異なっていたら?
• 誤差が各要素の和ではなくもっと複雑な関数だったら?
正規分布の仮定が成立しない例
誤差が正規分布 ⇔ y|x~Normal(β0 + β1x1 + …+ βkxk, σ2)
明らかに被説明変数が正規分布に従っていないケース
• 賃金・価格⇒対数変換すれば正規分布? (5章参照)
• 逮捕回数のように限られた値しか取らない被説明変数
⇒標本数が大きければそれほど問題ではない(5章参照)
パラメタの分布
定理4.1:
仮定MLR.1からMLR.6のもとで、独立変数の標本における
値を所与とすると、

ˆ j ~ Normal  j ,Var ( ˆ j )

ˆ j   j

~ Normal (0,1)
ˆ
sd (  )
j
2


ˆ
ˆ
Var (  j ) 
, sd (  j ) 
2
2
SST j (1  R j )
SST j (1  R j )
定理4.1の証明
ˆ j 

n
rˆ y
i 1 ij i
 
n
2
ˆ
r
i 1 ij

(3.22)
rˆj  x jをそれ以外の説明変数 に回帰した時の残差

n
rˆ yi   0 i 1 rˆij  1 i 1 rˆij xi1  ...   k i 1 rˆij xik  i 1 rˆijui
n
n
n
i 1 ij
  j i 1 rˆij  i 1 rˆijui
n
n
2
 ˆ j   j 

i 1 rˆijui
n
 
n
2
ˆ
r
i 1 ij

Appendix B Property Normal.4 (p.740)より、
β̂ jは独立に同一の正規分 布に従う確率変数 uiの
線形結合なので正規分 布に従う
n
t分布
定理4.2:
k変数の線形回帰モデル(y=β0 + β1x1 + …+ βkxk+u)について、
仮定MLR.1からMLR.6のもとでは
ˆ j   j
~ t n  k 1
ˆ
se(  j )
定理4.2の証明
ˆ j   j
 ˆ j   j   se( ˆ j ) 
 


se( ˆ j )  sd ( ˆ j )   sd ( ˆ j ) 
se( ˆ j )
ˆ 2
ˆ 2
2


2
2
ˆ
2
SST j (1  R j )
SST j (1  R j )
sd (  j )
(n  k  1) ˆ   i 1 uˆi  2 ~  n2 k 1
2
2
n
2
Z を標準正規分布に従う 変数、 Xを自由度 n  k  1の
ˆ j   j
Z
カイ二乗分布に従う変 数とすると

X (n  k  1)
se( ˆ j )
XとZは独立なのでこ
れは自由度n  k  1の t分布に従う
仮説検定
帰無仮説 (null hypothesis)
H0: βj=0
⇔(他の説明変数の影響を考慮すると)ある説明変数が被説明
変数に影響を与えない
例: log(wage)=β0+β1educ+β2exper+β3tenure+u
H0: β2=0
⇔(教育年数と勤続年数を考慮すると)経験年数は賃金に影響
を与えない
帰無仮説は支持されるか統計的に検定を行う
t値
帰無仮説 (null hypothesis) H0: βj=0
• ˆ j が0になることはほぼありえない
ˆ
⇒  j はどれくらいゼロから離れているか?
• βjは直接観察できず、その推定値 ˆ j には必ず誤差がある
⇒ 誤差の大きさ、つまり ˆ j の標準誤差を考慮しなければな
らない
ˆ j のt値 (t statistics): t ˆ  ˆ j se(ˆ j )
j
• 推定値を標準誤差で割り引いたもの
定理4.2より t ˆ j ~ t n k 1
正の片側検定 (one-tailed test)
βjの値が負になることは絶対にないと分かっている場合:
帰無仮説 (null hypothesis) H0: βj=0
対立仮説 (alternative hypothesis) H1: βj>0
有意水準 (significance level):
帰無仮説が正しいのに帰無仮説を棄却する確率
例) 有意水準が5%: 5%の確率で間違って帰無仮説を棄却
有意水準がα%と決定
⇒自由度n-k-1のt分布の(100-α)%値が臨界値 (critical value)
⇒t値が臨界値を超えていれば帰無仮説を棄却 (reject)
もしβj=0ならばtj(t値)の分布はこうなっているはず
⇒95%の確率でtjは臨界値1.701より小さくなる
(tjが臨界値1.701を超える確率は5%)
⇒もし実際のt値が臨界値1.701を超えるなら、95%の確
率で(=有意水準5%で)βj=0ではない
Copyright © 2009 South-Western/Cengage Learning
臨界値の例
帰無仮説 (null hypothesis) H0: βj=0
対立仮説 (alternative hypothesis) H1: βj>0
⇒t値が臨界値を超えていれば帰無仮説を棄却 (reject)
有意水準1%, 自由度28 ⇒ 臨界値=2.467
有意水準5%, 自由度28 ⇒ 臨界値=1.701
有意水準10%, 自由度28 ⇒ 臨界値=1.313
• 有意水準が小さいほど臨界値が大きくなる
⇒ある有意水準で帰無仮説を棄却⇒それより小さい有意水
準でも当然棄却
•
•
自由度が大きいほどt分布
は正規分布に近づく
自由度が120より大きい場
合にはt分布ではなく正規分
布の臨界値を用いてよい
Copyright © 2009 South-Western/Cengage Learning
片側検定の例 1
log( ŵage)  .284  .092educ  .0041exper  .022tenure
(.104) (.007)
(.0017)
(.003)
n  526, R 2  .316
 texper  .0041 / .0017  2.41
H 0 :  exper  0, H1 :  exper  0
自由度  526  4  522は120より大きいので
正規分布の臨界値を求 めると、
有意水準5%の臨界値  1.645, 有意水準1%の臨界値  2.326
 有意水準1%で帰無仮説を棄却
負の片側検定
βjの値が正になることは絶対にないと分かっている場合:
帰無仮説 (null hypothesis) H0: βj=0
対立仮説 (alternative hypothesis) H1: βj<0
有意水準がα%と決定
⇒自由度n-k-1のt分布のα%値が臨界値
⇒自由度n-k-1のt分布の(100-α)%値をcとすると
自由度n-k-1のt分布のα%値= - c
(t分布は正規分布と同様に左右対称なため)
⇒ t値 < -c ならば帰無仮説を棄却
(臨界値は正の値(=分布の右側の値)のみ表に記載)
もしβj=0ならばtj(t値)の分布はこうなっているはず
⇒95%の確率でtjは臨界値-1.734より大きくなる
(tjが臨界値-1.734より小さくなる確率は5%)
⇒もし実際のt値が臨界値-1.734を下回るなら、95%の
確率で(=有意水準5%で)βj=0ではない
Copyright © 2009 South-Western/Cengage Learning
片側検定の例 2
matˆh10  2.274  .00046totcomp  .048staff  .00020enroll
(6.113) (.00010)
(.040)
(.00022)
n  408, R 2  .0514
 tenroll  .00020 / .00022  0.91
H 0 :  enroll  0, H1 :  enroll  0
自由度  408  4  404は120より大きいので
正規分布の臨界値を求 めると、
有意水準5%の臨界値  1.645, 有意水準10%の臨界値  1.28
 有意水準10%でも帰無仮説を棄却で きない
片側検定の例 2 続き
matˆh10  207.66  21.16 log( totcomp)  3.98 log( staff )  1.29 log( enroll )
(48.70) (4.06)
(4.19)
(0.69)
n  408, R 2  .0654
 tenroll  1.29 / 0.69  1.87
H 0 :  enroll  0, H1 :  enroll  0
正規分布の有意水準 5%の臨界値  1.645
tenroll  1.645
 有意水準5%で帰無仮説を棄却
両側検定 (two-tailed test)
βjの値が正か負かわかっていない場合:
帰無仮説 (null hypothesis) H0: βj=0
対立仮説 (alternative hypothesis) H1: βj≠0
有意水準がα%
⇒自由度n-k-1のt分布の(100-α/2)%値が臨界値
⇒臨界値をcとすると、|t値| > c ならば帰無仮説を棄却
• |t値| > cならば有意水準α%でその変数が統計的に有意
(statistically significant)であると言い、|t値| ≦ cならば統計
的に有意でない(statistically insignificant)であると言う
もしβj=0ならばtj(t値)の分布はこうなっているはず
⇒95%の確率で|tj|( tjの絶対値)は臨界値2.06以下
( |tj|が臨界値2.06を超える確率は5%)
⇒もし実際のt値の絶対値が臨界値2.06を超えるなら、
95%の確率で(=有意水準5%で)βj=0ではない
Copyright © 2009 South-Western/Cengage Learning
両側検定の例
colGPA  1.39  .412hsGPA  .015 ACT  .083skipped
(.33) (.094)
(.011)
(.026)
n  141, R 2  .234
有意水準10%の臨界値  1.645
有意水準5%の臨界値  1.96
有意水準1%の臨界値  2.58
t hsGPA  .412 / .094  4.38  有意水準1%で有意
t ACT  .015 / .011  1.36  有意でない
t skipped  .083 / .026  3.19  有意水準1%で有意