Advanced Topics in Economics I

エコノメトリックス
第9回
2011年前期
中村さやか
今日やること
Ch. 4 Multiple Regression Analysis: Inference
4.2 Testing Hypothesis about a Single Population
Parameter: The t Test
単一のパラメタについてのt検定
4.3 Confidence Interval
信頼区間
4.4 Testing Hypotheses about a Single Linear Combination
of the Parameters
t検定の応用
4.5 Testing Multiple Linear Restrictions: The F Test
F検定
βjについての他の仮説の検定
前回: H0: βj =0 の検定
⇒ より一般的に、 H0: βj =αj という帰無仮説を検定できる
ˆ j   j
推定値  仮定された値
t

~ t n  k 1
標準誤差
se( ˆ j )
• 統計パッケージの「t値」(t statistic)は αj=0 の場合のt値
片側検定の例
log(crime)   0  1 log( enroll )  u
 crime  exp(  0 )enroll 1 exp( u )
log( ĉrime)  6.63  1.27 log( enroll )
(1.03) (.11)
n  97, R 2  .585
H 0 :  enroll  1, H1 :  enroll  1
 t  (1.27  1) / .11  2.45
自由度  97  2  95の t分布の臨界値を求める と、
有意水準5%の臨界値  1.66, 有意水準1%の臨界値  2.37
 有意水準1%で帰無仮説を棄却
 学生数が1 %増加  学内の犯罪は1 %より多く増える
両側検定の例
log(price)   0  1 log( nox)   2 log( dist )   3 rooms   4 stratio  u
price : 地域の住宅価格の中位 値 nox : 空気中の窒素酸化物の 濃度
dist : 主な企業からの距離
rooms : 平均部屋数
stratio : 教師一人当たりの生徒 数
log( p̂rice)  11.08  .954 log( nox)  .134 log( dist )  .255rooms  .052 stratio
(.32) (.117)
(.043)
(.019)
n  506, R 2  .581
H 0 :  log(nox)  1, H1 :  log(nox)  1
 t  (0.954  (1)) / .117  0.393
 帰無仮説を棄却
 住宅価格の noxに対する弾力性は 1ではない
(.006)
t値についてのp値
仮説検定:有意水準pのもとで、帰無仮説は棄却されるか?
• 例えば有意水準1%では棄却されるが、5%では棄却されな
い場合、どう報告すべきか?
逆に、有意水準がどの値だと帰無仮説は棄却されるのか?
p値: 帰無仮説が棄却される最小の有意水準
= 帰無仮説が正しい場合にt値がその値になる確率
• p値の算出は面倒なので、統計パッケージにおまかせ
• 統計パッケージで線形回帰分析を行うと、H0: βj =0に対する
t値とp値が報告される
p値の例
例) H0: βj =0に対するt値が1.85、自由度40
自由度40のt分布に従う確率変数をTとすると
p値=P(|T|>1.85)=2P(T>1.85)=2*.0359=.0718
⇒帰無仮説βj =0が正しい場合にt値が1.85になる確率は
約7.2%
p値が0.0718
⇒ 有意水準が8%以上ならH0: βj =0 は棄却
⇒ 有意水準が7%以下なら棄却されない
もしβj=0ならばtj(t値)の分布はこうなっているはず
実際のt値が1.85だとする
⇒ P値=| tj |が1.85を超える確率≒0.0359×2≒0.072
Copyright © 2009 South-Western/Cengage Learning
帰無仮説が棄却できないとは?
「H0が棄却できない」 (We fail to reject H0)
≠「H0を採択する」 (We accept H0)
例)
βj =0 & βj =1 & βj =-1 がすべて棄却できない
⇒ βj =0 & βj =1& βj =-1 をすべて「採択」するのは変
xjがyに影響を与えない(βj =0)という仮説が棄却できない
○ xjがyに影響するという証拠が見つからない
(We find no evidence that xj affects y)
× xjがyに影響を与えないことが証明された
統計的に有意 ≠ 経済学的に重要
統計的に有意:
• 影響がゼロではない(係数がゼロという帰無仮説が棄却)
• 標準誤差に対して推定値が大きい
⇒推定値が経済学的に重要なほど大きくなくても統計的に有意
なこともある
例)年金プランへの加入率を被説明変数とする重回帰分析で、
企業の従業員数の係数が-0.00013、標準誤差が0.00004
• t値が-3.25で統計的に有意(p値=0.001)
• 従業員が1万人増えると(他の説明変数が一定ならば)加入
率が1.3%下がる (So what?)
推定値は統計的・経済学的に重要か?
1.係数の推定値が統計的に有意か
有意だったら、数値の大きさを議論
2.係数の推定値が統計的に有意でないが大きい場合
推定値の分散が大きい、つまり、標本数が小さい、または
多重共線性がある場合にこうなりがち
⇒ 標本数が小さい推定はそもそも望ましくない
⇒ 多重共線性がある場合は推定手法を見直す
3.係数の符号が予測と逆だったらどうするか?
推定値が統計的に有意でないなら気にしない
推定値が統計的に有意な場合
⇒説明変数と誤差項の相関が疑われる
4.3 信頼区間 (Confidence Intervals)
推定値  真の値 ˆ j   j
t

~ t n  k 1
ˆ
標準誤差
se(  j )
• 自由度n-k-1のt分布の97.5パーセンタイル値 (97.5th
percentile) をcとすると、真の値 βj の95%の信頼区間は
[ ˆ j  c  se( ˆ j ), ˆ j  c  se( ˆ j )]
信頼区間:
• もし母集団から何度も標本を無作為抽出してその都度95%
信頼区間を計算したら、95%の確率で真の値 βj が1つのサ
ンプルの信頼区間に含まれる
• 信頼区間についてはAppendix C.5 (p762-769) 参照
信頼区間の計算
推定値  真の値 ˆ j   j
t

~ t n  k 1
ˆ
標準誤差
se(  j )
• 信頼区間は様々な確率について計算可能:
真の値 βj のα%の信頼区間は、自由度n-k-1のt分布の
(100-α/2)パーセンタイル値をcとすると
[ ˆ j  c  se( ˆ j ), ˆ j  c  se( ˆ j )]
• t分布のパーセンタイル値は表(p825)参照
自由度>120なら標準正規分布の表(p823-824)を使う
• STATA等では95%信頼区間を自動的に計算
(コマンドを使えば他の確率でも信頼区間を計算できる)
信頼区間の例
log( rd )  4.38  1.08 log( sales )  .0217 profmarg
(.47) (.060)
(.0218)
n  32, R 2  .918
 log(sales)の95%信頼区間は (.961, 1.21)
 有意水準5%で仮説:  log(sales)  0 は棄却
 有意水準5%で仮説:  log(sales)  1 は棄却できない
 profmargの95%信頼区間は (.0045, .0479)
 有意水準5%で仮説:  profmarg  0 は棄却できない
信頼区間についての注意
仮定に依存:
• 誤差項と説明変数の間に相関がない
相関があったら推定値にバイアスが生じる
• 均一分散
不均一分散の場合、標準誤差が [誤差の二乗和÷(n-k-1)]
では正しく推定できない
• 誤差項が正規分布に従う
誤差項が正規分布に従っていないなら係数の推定値もt分布
に従わない
(標本数が小さい時は問題)
さまざまなt検定
例:
log(wage)=β0+ β1jc+ β2univ+ β3exper+u
jc: 短大の在籍年数 univ: 4大の在学年数 exper: 経験月数
H0: β1 = β2 ⇔ β1 - β2 = 0
⇔短大に1年長くいるのと4大に1年長くいるのは同じ効果
H1: β1 < β2 ⇔ β1 - β2 < 0
⇔4大のほうが1年間の効果が大きい
短大のほうが効果が大きい(β1>β2)ことは絶対ないと考える
この仮説もt検定によって検定できる
( 1   2の推定値 )  仮説の値 ( 0)
ˆ1  ˆ2
t

~ tnk 1
ˆ
ˆ
ˆ
ˆ
( 1   2の標準誤差 )
se( 1   2 )
より簡単な方法
log(wage)=β0+ β1jc+ β2univ+ β3exper+u
H0: β1 - β2 = 0, H1: β1 - β2 < 0
上式を推定して仮説検定することも可能だが少し面倒
より簡単な方法:
log(wage)=β0+ θ1jc+ β2(jc+univ)+ β3exper+u
を推定し、 H0: θ1 = 0, H1: θ1 < 0 をt検定する
上式より log(wage)=β0+ (θ1+β2)jc+ β2univ+ β3exper+u
なので、もしjcとunivの係数の値が同じであればθ1 = 0 のはず
どちらでt検定を行っても結果は全く同じ
F検定
y=β0+ β1x1+ β2x2+ β3x3+ β4x4+ β5x5+u (★)
H0: β3 = β4 = β5 = 0, H1: H0でない
t検定: 他のパラメタはすべて推定された通りと仮定して
1つのパラメタだけについての仮説を検定
F検定: 複数のパラメタについて同時に仮説検定
もしH0が正しければ、y=β0+ β1x1+ β2x2+ u (★★)
⇒ (★)と (★★)ではどちらが正しいモデルなのか?
⇒ 残差の二乗和(SSR)の大きさを(★)と (★★)で比較
制約付きモデル
より一般的に
y=β0+ β1x1+ …+ βkxk+u (★)
H0: βk-q+1 = 0, βk-q+2 = 0, …, βk = 0
(つまり xk-q+1, xk-q+2, …, xk のq個の変数はyに影響せず)
制約数 = q
H1: H0でない
もしH0が正しければ、y=β0+ β1x1+…+ βk-qxk-q+ u (★★)
⇒ (★)を制約なしモデル、 (★★)を制約つきモデルと呼ぶ
制約なしモデルのほうが残差の二乗和が小さくなるのは当然
⇒ 制約ありモデルと比べてどれくらい小さいかが問題
F値
y=β0+ β1x1+ …+ βkxk+u
ー 制約なしモデル
H0: βk-q+1 = 0, βk-q+2 = 0, …, βk = 0, H1: H0でない
制約数 = q
y=β0+ β1x1+…+ βk-qxk-q+ u - 制約付きモデル
• 制約なしモデルの残差の二乗和をSSRur、制約付きモデル
の残差の二乗和をSSRrとする
F値(F statistics)は次のように定義される:
( SSRr  SSRur ) / q
F
SSRur /( n  k  1)
F値は自由度(q, n-k-1)のF分布に従う(Appendix B参照)
F検定のやり方
1.制約付きモデルと制約モデルをそれぞれ推定し、残差の二
乗和を算出
2.1.に基づいてF値を計算
3.自由度(q, n-k-1)のF分布の臨界値cとF値を比較
F値>c⇒帰無仮説を棄却 (jointly statistically significant)
F値≦c⇒帰無仮説を棄却 (jointly insignificant)
• 統計パッケージを使う場合、コマンドを使えばどんなF検定で
も一瞬でできる
もし帰無仮説が正しいならばF値の分布はこうなってい
るはず
⇒95%の確率でFは臨界値2.76より小さくなる
(Fが臨界値2.76を超える確率は5%)
⇒もし実際のF値が臨界値2.76を超えるなら、95%の確
率で(=有意水準5%で)帰無仮説は正しくない
Copyright © 2009 South-Western/Cengage Learning
F値の直観的説明
F
( SSRr  SSRur ) / q
SSRur /( n  k  1)
• 制約なしモデルのほうが残差の二乗和は当然小さくなる
⇒F値>0
• 制約付きのモデルにq個の変数を加えて制約なしモデルに
すると残差の二乗和は (SSRr – SSRur) だけ減少
1.この減少分は制約なしモデルの分散の推定値
SSRur/(n-k-1) に対して相対的に大きいか?
2.この減少分は制約数 q に対して相対的に大きいか?
• もし大きければF値は大きくなり、 帰無仮説 H0: βk-q+1 = 0,
βk-q+2 = 0, …, βk = 0, は棄却される
F検定の例
salary : 年棒, years : 年数, gamesyr : 出場回数
bavg : 打率, hrunsyr : ホームラン数 , rbisyr : 出塁回数
log( saˆlary )  11.19  .0689 years  .0126 gamesyr
(0.29) (.0121)
(.0026)
 .00098bavg  .0144hrunsyr  .0108rbisyr
(.00110)
(.0161)
(.0072)
n  353, SSR  183.186, R 2  .6278
 bavg, hrunsyr , rbisyr の係数は全て有意でな い
制約付きモデル ( H 0 : bavg, hrunsyr , rbisyr の係数は全て 0):
log( saˆlary )  11.22  .0713 years  .0202 gamesyr
(0.29) (.0125)
(.0013)
n  353, SSR  198.311, R 2  .5971
F値は9.55で H 0は有意水準1%で棄却