エコノメトリックス 第9回 2011年前期 中村さやか 今日やること Ch. 4 Multiple Regression Analysis: Inference 4.2 Testing Hypothesis about a Single Population Parameter: The t Test 単一のパラメタについてのt検定 4.3 Confidence Interval 信頼区間 4.4 Testing Hypotheses about a Single Linear Combination of the Parameters t検定の応用 4.5 Testing Multiple Linear Restrictions: The F Test F検定 βjについての他の仮説の検定 前回: H0: βj =0 の検定 ⇒ より一般的に、 H0: βj =αj という帰無仮説を検定できる ˆ j j 推定値 仮定された値 t ~ t n k 1 標準誤差 se( ˆ j ) • 統計パッケージの「t値」(t statistic)は αj=0 の場合のt値 片側検定の例 log(crime) 0 1 log( enroll ) u crime exp( 0 )enroll 1 exp( u ) log( ĉrime) 6.63 1.27 log( enroll ) (1.03) (.11) n 97, R 2 .585 H 0 : enroll 1, H1 : enroll 1 t (1.27 1) / .11 2.45 自由度 97 2 95の t分布の臨界値を求める と、 有意水準5%の臨界値 1.66, 有意水準1%の臨界値 2.37 有意水準1%で帰無仮説を棄却 学生数が1 %増加 学内の犯罪は1 %より多く増える 両側検定の例 log(price) 0 1 log( nox) 2 log( dist ) 3 rooms 4 stratio u price : 地域の住宅価格の中位 値 nox : 空気中の窒素酸化物の 濃度 dist : 主な企業からの距離 rooms : 平均部屋数 stratio : 教師一人当たりの生徒 数 log( p̂rice) 11.08 .954 log( nox) .134 log( dist ) .255rooms .052 stratio (.32) (.117) (.043) (.019) n 506, R 2 .581 H 0 : log(nox) 1, H1 : log(nox) 1 t (0.954 (1)) / .117 0.393 帰無仮説を棄却 住宅価格の noxに対する弾力性は 1ではない (.006) t値についてのp値 仮説検定:有意水準pのもとで、帰無仮説は棄却されるか? • 例えば有意水準1%では棄却されるが、5%では棄却されな い場合、どう報告すべきか? 逆に、有意水準がどの値だと帰無仮説は棄却されるのか? p値: 帰無仮説が棄却される最小の有意水準 = 帰無仮説が正しい場合にt値がその値になる確率 • p値の算出は面倒なので、統計パッケージにおまかせ • 統計パッケージで線形回帰分析を行うと、H0: βj =0に対する t値とp値が報告される p値の例 例) H0: βj =0に対するt値が1.85、自由度40 自由度40のt分布に従う確率変数をTとすると p値=P(|T|>1.85)=2P(T>1.85)=2*.0359=.0718 ⇒帰無仮説βj =0が正しい場合にt値が1.85になる確率は 約7.2% p値が0.0718 ⇒ 有意水準が8%以上ならH0: βj =0 は棄却 ⇒ 有意水準が7%以下なら棄却されない もしβj=0ならばtj(t値)の分布はこうなっているはず 実際のt値が1.85だとする ⇒ P値=| tj |が1.85を超える確率≒0.0359×2≒0.072 Copyright © 2009 South-Western/Cengage Learning 帰無仮説が棄却できないとは? 「H0が棄却できない」 (We fail to reject H0) ≠「H0を採択する」 (We accept H0) 例) βj =0 & βj =1 & βj =-1 がすべて棄却できない ⇒ βj =0 & βj =1& βj =-1 をすべて「採択」するのは変 xjがyに影響を与えない(βj =0)という仮説が棄却できない ○ xjがyに影響するという証拠が見つからない (We find no evidence that xj affects y) × xjがyに影響を与えないことが証明された 統計的に有意 ≠ 経済学的に重要 統計的に有意: • 影響がゼロではない(係数がゼロという帰無仮説が棄却) • 標準誤差に対して推定値が大きい ⇒推定値が経済学的に重要なほど大きくなくても統計的に有意 なこともある 例)年金プランへの加入率を被説明変数とする重回帰分析で、 企業の従業員数の係数が-0.00013、標準誤差が0.00004 • t値が-3.25で統計的に有意(p値=0.001) • 従業員が1万人増えると(他の説明変数が一定ならば)加入 率が1.3%下がる (So what?) 推定値は統計的・経済学的に重要か? 1.係数の推定値が統計的に有意か 有意だったら、数値の大きさを議論 2.係数の推定値が統計的に有意でないが大きい場合 推定値の分散が大きい、つまり、標本数が小さい、または 多重共線性がある場合にこうなりがち ⇒ 標本数が小さい推定はそもそも望ましくない ⇒ 多重共線性がある場合は推定手法を見直す 3.係数の符号が予測と逆だったらどうするか? 推定値が統計的に有意でないなら気にしない 推定値が統計的に有意な場合 ⇒説明変数と誤差項の相関が疑われる 4.3 信頼区間 (Confidence Intervals) 推定値 真の値 ˆ j j t ~ t n k 1 ˆ 標準誤差 se( j ) • 自由度n-k-1のt分布の97.5パーセンタイル値 (97.5th percentile) をcとすると、真の値 βj の95%の信頼区間は [ ˆ j c se( ˆ j ), ˆ j c se( ˆ j )] 信頼区間: • もし母集団から何度も標本を無作為抽出してその都度95% 信頼区間を計算したら、95%の確率で真の値 βj が1つのサ ンプルの信頼区間に含まれる • 信頼区間についてはAppendix C.5 (p762-769) 参照 信頼区間の計算 推定値 真の値 ˆ j j t ~ t n k 1 ˆ 標準誤差 se( j ) • 信頼区間は様々な確率について計算可能: 真の値 βj のα%の信頼区間は、自由度n-k-1のt分布の (100-α/2)パーセンタイル値をcとすると [ ˆ j c se( ˆ j ), ˆ j c se( ˆ j )] • t分布のパーセンタイル値は表(p825)参照 自由度>120なら標準正規分布の表(p823-824)を使う • STATA等では95%信頼区間を自動的に計算 (コマンドを使えば他の確率でも信頼区間を計算できる) 信頼区間の例 log( rd ) 4.38 1.08 log( sales ) .0217 profmarg (.47) (.060) (.0218) n 32, R 2 .918 log(sales)の95%信頼区間は (.961, 1.21) 有意水準5%で仮説: log(sales) 0 は棄却 有意水準5%で仮説: log(sales) 1 は棄却できない profmargの95%信頼区間は (.0045, .0479) 有意水準5%で仮説: profmarg 0 は棄却できない 信頼区間についての注意 仮定に依存: • 誤差項と説明変数の間に相関がない 相関があったら推定値にバイアスが生じる • 均一分散 不均一分散の場合、標準誤差が [誤差の二乗和÷(n-k-1)] では正しく推定できない • 誤差項が正規分布に従う 誤差項が正規分布に従っていないなら係数の推定値もt分布 に従わない (標本数が小さい時は問題) さまざまなt検定 例: log(wage)=β0+ β1jc+ β2univ+ β3exper+u jc: 短大の在籍年数 univ: 4大の在学年数 exper: 経験月数 H0: β1 = β2 ⇔ β1 - β2 = 0 ⇔短大に1年長くいるのと4大に1年長くいるのは同じ効果 H1: β1 < β2 ⇔ β1 - β2 < 0 ⇔4大のほうが1年間の効果が大きい 短大のほうが効果が大きい(β1>β2)ことは絶対ないと考える この仮説もt検定によって検定できる ( 1 2の推定値 ) 仮説の値 ( 0) ˆ1 ˆ2 t ~ tnk 1 ˆ ˆ ˆ ˆ ( 1 2の標準誤差 ) se( 1 2 ) より簡単な方法 log(wage)=β0+ β1jc+ β2univ+ β3exper+u H0: β1 - β2 = 0, H1: β1 - β2 < 0 上式を推定して仮説検定することも可能だが少し面倒 より簡単な方法: log(wage)=β0+ θ1jc+ β2(jc+univ)+ β3exper+u を推定し、 H0: θ1 = 0, H1: θ1 < 0 をt検定する 上式より log(wage)=β0+ (θ1+β2)jc+ β2univ+ β3exper+u なので、もしjcとunivの係数の値が同じであればθ1 = 0 のはず どちらでt検定を行っても結果は全く同じ F検定 y=β0+ β1x1+ β2x2+ β3x3+ β4x4+ β5x5+u (★) H0: β3 = β4 = β5 = 0, H1: H0でない t検定: 他のパラメタはすべて推定された通りと仮定して 1つのパラメタだけについての仮説を検定 F検定: 複数のパラメタについて同時に仮説検定 もしH0が正しければ、y=β0+ β1x1+ β2x2+ u (★★) ⇒ (★)と (★★)ではどちらが正しいモデルなのか? ⇒ 残差の二乗和(SSR)の大きさを(★)と (★★)で比較 制約付きモデル より一般的に y=β0+ β1x1+ …+ βkxk+u (★) H0: βk-q+1 = 0, βk-q+2 = 0, …, βk = 0 (つまり xk-q+1, xk-q+2, …, xk のq個の変数はyに影響せず) 制約数 = q H1: H0でない もしH0が正しければ、y=β0+ β1x1+…+ βk-qxk-q+ u (★★) ⇒ (★)を制約なしモデル、 (★★)を制約つきモデルと呼ぶ 制約なしモデルのほうが残差の二乗和が小さくなるのは当然 ⇒ 制約ありモデルと比べてどれくらい小さいかが問題 F値 y=β0+ β1x1+ …+ βkxk+u ー 制約なしモデル H0: βk-q+1 = 0, βk-q+2 = 0, …, βk = 0, H1: H0でない 制約数 = q y=β0+ β1x1+…+ βk-qxk-q+ u - 制約付きモデル • 制約なしモデルの残差の二乗和をSSRur、制約付きモデル の残差の二乗和をSSRrとする F値(F statistics)は次のように定義される: ( SSRr SSRur ) / q F SSRur /( n k 1) F値は自由度(q, n-k-1)のF分布に従う(Appendix B参照) F検定のやり方 1.制約付きモデルと制約モデルをそれぞれ推定し、残差の二 乗和を算出 2.1.に基づいてF値を計算 3.自由度(q, n-k-1)のF分布の臨界値cとF値を比較 F値>c⇒帰無仮説を棄却 (jointly statistically significant) F値≦c⇒帰無仮説を棄却 (jointly insignificant) • 統計パッケージを使う場合、コマンドを使えばどんなF検定で も一瞬でできる もし帰無仮説が正しいならばF値の分布はこうなってい るはず ⇒95%の確率でFは臨界値2.76より小さくなる (Fが臨界値2.76を超える確率は5%) ⇒もし実際のF値が臨界値2.76を超えるなら、95%の確 率で(=有意水準5%で)帰無仮説は正しくない Copyright © 2009 South-Western/Cengage Learning F値の直観的説明 F ( SSRr SSRur ) / q SSRur /( n k 1) • 制約なしモデルのほうが残差の二乗和は当然小さくなる ⇒F値>0 • 制約付きのモデルにq個の変数を加えて制約なしモデルに すると残差の二乗和は (SSRr – SSRur) だけ減少 1.この減少分は制約なしモデルの分散の推定値 SSRur/(n-k-1) に対して相対的に大きいか? 2.この減少分は制約数 q に対して相対的に大きいか? • もし大きければF値は大きくなり、 帰無仮説 H0: βk-q+1 = 0, βk-q+2 = 0, …, βk = 0, は棄却される F検定の例 salary : 年棒, years : 年数, gamesyr : 出場回数 bavg : 打率, hrunsyr : ホームラン数 , rbisyr : 出塁回数 log( saˆlary ) 11.19 .0689 years .0126 gamesyr (0.29) (.0121) (.0026) .00098bavg .0144hrunsyr .0108rbisyr (.00110) (.0161) (.0072) n 353, SSR 183.186, R 2 .6278 bavg, hrunsyr , rbisyr の係数は全て有意でな い 制約付きモデル ( H 0 : bavg, hrunsyr , rbisyr の係数は全て 0): log( saˆlary ) 11.22 .0713 years .0202 gamesyr (0.29) (.0125) (.0013) n 353, SSR 198.311, R 2 .5971 F値は9.55で H 0は有意水準1%で棄却
© Copyright 2025 ExpyDoc