回帰分析 重回帰(2) 仮説検定 仮説検定 • 単一の制約 – t検定 – メニューから行う方法 • 複数の制約 – F検定 – メニューから行う方法 – F統計量を実際に求める • 構造変化 • 最適なモデルの決定 回帰分析の前提 linearity y X u u ~ N (0, I ) X : full rank 2 最小二乗推定量 b ( X ' X ) 1 X ' y ( X ' X ) 1 X ' u yˆ Xb X ( X ' X ) 1 X ' y Py e y yˆ I P y My X 'e 0 e' e SSR s n (k 1) n (k 1) 2 最小二乗推定量(2) b ~ N , 2 ( X ' X ) 1 bj j ~ N (0,1) a jj e' e 2 RSS 2 n (k 1) s 2 2 ~ X 2 n (k 1) 個々の係数に関する検定 H0 : j bj 0 j s.e.(b j ) 0 j ~ t n (k 1) s.e.(b j ) s a jj 両側検定 臨界値の両側に落ちる 確率をとして検定 -3 -2 -1 0 1 2 3 片側検定 臨界値の片側に落ちる 確率をとして検定 -3 -2 -1 0 1 2 3 H0: ある変数の係数が0 係数の標準誤差 t 値 = b / b(s.e.) 係数の真の値が0 だとして計算 p値 (両側確率) 通常は,0.05より小さ ければ0と有意に異な ると判断 EDUCの t 値は12.56 t分布に従う確率変数 が(絶対値で) 12.56 より大きな値をとる確 率 仮説検定 単一の制約 • t分布 • 特に,「係数が0に等しい」という仮説は,回帰分析 のoutputをみるだけでよい • p値 output の Prob. 欄 • wage1.rawの回帰分析の結果では,educのp値は 0.0000。educの係数の真の値が0だとすると, (絶対値で)0.09209以上の推定値を得る確率が 0.0000だということ(両側確率) • 一般的には,p値が0.05未満なら,係数=0の仮説は 棄却される • 注意: Eviews のp値は両側確率 educ の係数の信頼区間を求める b j 0j s.e.(b j ) ~ t n (k 1) educの係数は自由度522の t 分布をする df = オブザベーション数(526) – 説明変数の個数(4) = 522 • 片側5%の臨界値t分布の95%点 • 両側5%の臨界値t分布の97.5%点 – 例えば,両側5%の場合,臨界値を t0.975 とすれば,bjの 信頼区間は次の通りになる 0j t0.975 s.e.(b j ) b j 0j t0.975 s.e.(b j ) educの係数の信頼区間を求める(2) Eviewsの関数を用いて行うには, @qtdist(p, df) 累積分布がpになるt値を返す(自由度df) @coefs(i) i番目の係数(定数項は1番目とカウント) @stderrs(i) i番目の係数の標準誤差 を用い,コマンド行で次のようにタイプする( j0 =bjとした場合)。 scalar tc = @qtdist(0.975, 522) scalar b_low=@coefs(i) –tc * @stderrs(i) scalar b_up= @coefs(i) + tc * @stderrs(i) i : 実際の数字(2番目の変数の係数なら2を入れる) 計算すると,b_low = 0.077629, b_up= 0.106429 任意のj0 については,上の式の@coef(i)に想定した値を代入 回帰分析の結果のメニューから ViewCoefficient Diagnostics Confidence Intervals をたどっても信頼区間を求められる。 Excel を用いることもできる 問題 • Wage1.rawのデータを用いた先ほどのOLSで,次 の仮説をそれぞれ検定せよ。 • EDUCの係数が0.06に等しい • EXPERの係数が0.005に等しい • TENUREの係数が0.02に等しい – それぞれの場合のt値を求める • @coefs, @stderrsを用いる • この場合のt分布の自由度は? – OLSを行った後,menuから View/Coefficient Diagnostics / Wald Test Coefficient Restrictions とたどる 複数の制約 RRSS URSS r ~ F (r , n (k 1)) URSS n (k 1) • RRSS (Restricted Residual Sum of Squares: 制約付きの残差平方和) • URSS (Unrestricted Residual Sum of Squares: 制約無しの残差平方和) • r : 制約の数 • n-(k+1): 制約無しの回帰での自由度 F Distribution: Numerator df = 5, Denominator df = 100 臨界値よりも大きな値をとる場合に 仮説H0を棄却 0 1 2 3 f 4 5 複数のjに関する制約(単一の制約) • 単一の制約の問題に帰着できる場合がある • 例) Kane and Rouse(1995) – 短大と4年生大学: 賃金差はあるか – 回帰式 ln(wage)=+1*jc +2*univ+ 3*exper + u • jc 短大の教育年数 • univ 4年生大学の教育年数 • exper 卒業後の年数(労働市場にでてからの年数) • H0: 1=2 複数のjに関する制約(単一の制約) 続き 1. ln(wage) = + 1*jc + 2*univ + 3*exper + u H0: 1=2 1.で2= 1+d とおくと ln(wage) = + 1*jc + (1+d)*univ + 3*exper + u これより 2. ln(wage) = + 1*(jc + univ) + d*univ + 3*exper + u H0: d=0 jc+univ, univ で回帰し,univの係数が0という制約に帰着 Eviews 係数の制約 ここをクリックし,coefficient diagnostics Wald tests - coefficient restrictions .. をたどると,係数の制約の テストの画面が表れる。 複数の制約も可能。 個々の係数=0の検 定はここをみる この値からF検定を行うこともできる。 E-views で は直前の回帰の残差平方和は@ssrに保存される 説明変数の全て(educ, exper, tenure)の係数が0 かどうか EviewsでのF検定 View/ Coefficient diagnostics/ Wald test – Coefficient Restrictions を選択 c(3)=0, c(4)=0 で制約式を指定(複数の制約式 は , で区切る) c(3)は3番目の説明変数の係数(定数項を1番目 とカウント) H0: exper,tenureの係数がとも に0 検定のための統計量は,自由 度が (2,522) のF統計量 5%水準の臨界値は3.013 H0は棄却される 自由度 (2,252)のF 分布に従う 確率変数が 49.685よりも 大きな値をと る確率は 0.0000 F検定(コマンドを打ち込む方法) • 制約無しの回帰分析URSS を求める 制約なしの回帰後,コマンドウィンドウで scalar urss= @ssr • 制約付の回帰分析RRSS を求める 制 約つきの回帰後,コマンドウィンドウで scalar rrss= @ssr • F統計量を計算 分子は (rrss-urss)/(制約の数),分母はurrs/(制約なしの回帰の自由 度) で計算した変数を作る(以下では,ffとした) コマンドウィンドウで次のようにタイプ scalar f1= (rrss – urss)/制約の数 scalar f2 =urss/(@regobs – 定数項を含んだ説明変数の個数) scalar ff =f1/f2 ff の累積分布を求める(@cfdist(ff,df1,df2)を用いる Excelでも同様の計算ができる 問題1 • wage1.raw 被説明変数 ln(wage) 説明変数 educ, exper, tenure, female • 次の仮説を検定せよ 1. H0 : 全ての説明変数の係数が0に等しい 2. H0 : 女性と男性の賃金格差は無い(定数項ダミー だけでよい) 3. H0 : exper と tenure の係数が共に0である 2.と3.については,制約なしの残差平方和と制約付の 残差平方和の値を求める方法でも計算せよ。 問題2 • 問題1と同じデータで次の仮説を検討せよ。 – 説明変数にfemale ダミーと学歴(educ),勤続年数 (tenure)の交差項を加える。 • 女性と男性の賃金格差(定数項)は無いし,学歴の 効果の違いも無いし,勤続年数の効果の違いも無 い。 問題 3 • MLB1.RAW • 次の回帰式を推定 – 被説明変数:log(salary) – 説明変数: years, gamesyr, bavg, hrunsyr, rbisyr, runsyr, fldperc, allstar, firstbase, scndbase, thrdbase, shrtstop, catcher,(baseはoutfield) – 次の仮説を検討せよ。 • 他の要因を一定にした場合,捕手と外野手の年俸は同じ • 他の要因を一定にした場合,守備位置の違いは年俸に影響を与 えない Chowテスト • 構造変化の検定 – 例)消費関数,投資関数 の推計 – T個の時系列データ – 時点s以降で構造変が 起きたかどうかの検定 yt xt g Dt xt ut t 1,.., s 0 Dt 1 t s 1,..., T ( RRSS URRS ) / k • 全体を二つの期間に分 URRS / T 2k ~ F (k , T 2k ) 割 – 時点ダミーを導入して g=0の検定を行う kは説明変数の個数(定数項も 含めて) 最適なモデルの決定 • F検定 – nested modelの場合 • adjusted R2を用いる方法 • AIC基準 (Akaike Information Criteria) AIC=-2ln(L)+2k ln(L): 対数尤度, k: パラメータの数(説明変数の数) AICを最小にするようなモデルを選ぶ たいていの統計パッケージでは自動的に出力される • 変数増減法(stepwise regression) • RESET (regression specification error test) – 回帰式 非線形性のテスト • J テスト – non nested model RESET y 0 1 x1 k xk u (1) 上のモデルを推計し,yの予測値を得る。 yの予測値の平方,3乗の項,...を説明変数に加えた次の モデルを推計する y 0 1 x1 k xk g 1 yˆ 2 g 2 yˆ 3 u ( 2) H0: (1)の定式化が正しい g1=g2=0 EviewsでのRESET (1)式をOLSで推計 View/ Stability Diagnostics/ Ramsey RESET Test Number of Fitted Terms で(2)式にFitted valueをいくつ入れるかを設定 1 2次の項まで, 2 3次の項まで Non nested model • MLB1.rawのMLB選手の年棒の回帰分析では, hrunsyr(ホームラン数)とrbisyr(打点)はともに,有意ではな かった(二つの変数の単相関は0.89と非常に高いため)。 • そこで,次の二つのモデルのどちらが適切かを選択する必 要に迫られたとする。 H1 : log(salary ) 0 1 years 2 gamesyr 3bavg 4hrunsyr u H 2 : log(salary ) 0 1 years 2 gamesyr 3bavg 4 rbisyr u J test • どちらか一方のモデルが正しいモデルであれば,他方のモデ ルで得られた予測値は説明力を持たない • (例)H2で推定したモデルの予測値(y2hat)を説明変数として H1に代入して,5=0の検定を行う log(salary ) 0 1 years 2 gamesyr 3bavg 4hrunsyr 5 y 2hat u • 同様に,H1で推定したモデルの予測値(y1hat)を説明変数とし てH2に代入して,5=0の検定を行う • 両方のテストとも棄却される場合がある別のモデル Eviewsでの統計関数 • @c--:cumulative distribution function(CDF) • @d--:density function • @q--:quantile( inverse CDF) • @r--:random number generator -----------------------------------• @cfdist(x,df1,df2),@qfdist(x,df1,df2) F分布 • @cnorm(x), @qnorm(p) 正規分布 • @ctdist(x,df), @qtdist(p,df) t分布 • Eviewsで,自由度(2,522)のF分布に従う変数の95%点を求 めるためには scalar ff= @qfdist(0.95, 2, 522) をコマンド行に打ち込む Eviewsでの回帰分析 • • • • • • • • @coefs(i) : i番目の係数 @stderrs(i): 標準誤差 @tstats(i): t値 @coefcov(I,j): i番目のj番目の係数の共分散 @f : F統計量 @se: standard error of the regression @ssr: 残差平方和 @regobs: 回帰分析でのオブザベーション数
© Copyright 2024 ExpyDoc