経済統計学(補足) 最小二乗法について 最小二乗法について 担当:小塚 匡文 2015年11月19日(改訂版) 神戸大学経済学部2015年度後期開講授業 補足:最小二乗法(単回帰分析) 1.(単純)回帰分析とは? 標本サイズTの2変数(ここではXとY)の データが存在 ⇒YをXで説明する回帰方程式を推定するための方法 Y:被説明変数(または従属変数) X:説明変数(または独立変数)。 ここでは最小二乗法 最小二乗法とよばれる、最も標準的な方法を紹介 最小二乗法 この場合の真の回帰直線の式: Yt = α + βX t + ut L (1) (t = 1,2,3,L, T ) 通常は定数項αも含めるので、回帰方程式を求めるとき、 2つの係数(αとβ)を推定する 推定する。 推定する (αは定数項、βは傾き) <注意すべき点> 回帰直線の式はXが がYに及ぼす影響を示すもの に及ぼす影響を示すもの 同じ2変数の関係を表すものに相関係数がある XとYの相関係数は、XとYの2つの動きの傾向を見た もの:どちらかが原因ではない点 どちらかが原因ではない点に注意! どちらかが原因ではない点 2.概念 X とYの関係を表す直線の、最もよい引き方は何か? ⇒ⅩとYの散布図を描き、その中にある直線を引く ⇒そして、各点とその直線との間の、縦軸と平行な方向 縦軸と平行な方向 で測った距離を総計したものを最小にする回帰直線が、 で測った距離 ここで求めるべきもの (1)式における u t は、誤差項(または撹乱項)とよばれる 確率変数である。 u t については単純化のため、以下の 仮定が置かれる。 期待値は0 共分散は0 分散は一定 ※Yは確率変数であるが、Xはそうでないものと Yは確率変数であるが、 はそうでないものと 仮定 また ut の推定値は、図1の点と直線の、垂直(上下)方向の差 であらわされる。これを残差を呼び、 et と書くことが一般的 なお ∑e t = 0,∑ X t et = 0,∑ Yˆt et = 0 この残差を2乗して足した値=残差2乗和 ※望ましい直線を引いた場合これは最小になる (=もっとも点から離れていない直線) ⇒残差二乗和が最小になる傾き・定数項はどのようなものか? 図1:残差と回帰直線 Y 真の回帰直線 Yˆt 残差 推定回帰直線 et Yt X Xt 3. 導出 αとβは、観測できない真の回帰式に含まれる未知 のパラメータ(未知の係数) ⇒そのため、X・Yの得られたデータから推定を行う ⇒未知パラメータを書き換え、 Yˆt = αˆ + βˆX t L(2) とする。 αˆ , βˆ はアルファハット、ベータハットとよび、 α、βの推定量である。 (2)式:推定回帰直線の式 点と直線の垂直方向での距離=残差の二乗 の総和を最小にする ように αˆ , βˆ を求める。 なお Yˆ は理論値と呼ぶ。 ここで残差は、次のようにあらわすこともできる et = Yt − Yˆt 誤差項は、真の回帰式に存在する確率的な誤差 残差は推定された回帰式の、説明しきれない部分 説明しきれない部分 ※両者の違いに注意!! この残差を2乗し、その和(残差2乗和 残差2乗和)が最小になる 残差2乗和 ように αˆ , βˆ を求める ⇒ 残差2乗和をLとし、 T 2 T ( ) 2 L = ∑t =1 e t = ∑t =1 Yt − αˆ − βˆX t L (3) とおく。これを αˆ , βˆ について偏微分して、その1階の導関数を 0に等しいとすると・・・ ⇒Lを最小とする αˆ , βˆ が求まる。 (3)を偏微分した式を=0とした式は次の通り: ∂L T = −2∑t =1 X t Yt − αˆ − βˆX t = 0 L (4) ∂βˆ ( ) ∂L T = −2 ∑ t =1 Yt − αˆ − βˆX t = 0 L (5) ∂αˆ ( この(4)(5)を正規方程式という ) 正規方程式(4)(5)は連立の2元1次方程式であ るので、これを解くと αˆ = Y − βˆX ( X − X )(Y − Y ) ∑ βˆ = ∑ (X − X ) T t t =1 t T t =1 2 t を得る。これが最小2乗推定量である この推定量 推定量に、具体的なデータを代入したものが、推定値 推定値 推定量 ※推定量と推定値の違いに注意 推定量と推定値の違い 4. 検定とは? 検定とは何か? 母数についての仮説があり、それが支持される か判断するもの。以下がその手順: ①帰無仮説 帰無仮説と対立仮説 帰無仮説 対立仮説を設定する 対立仮説 ②検定統計量を計算する ③帰無仮説が正しいという仮定で、確率分布を調べる ④有意水準を設定し、棄却域と臨界値を求める 検定統計量が臨界値より大き ければ帰無仮説を棄却 ⇒棄却域に含まれる ⑤絶対値で 検定統計量が臨界値より小さ ければ帰無仮説を採択 棄却域とは? ⇒そのエリアに検定統計量が入っていれば、帰無仮 説を棄却する領域のこと 臨界値とは? ⇒絶対値で見た、棄却域の下限 (棄却域の始まる点) (棄却域とそうでない個所の境界) 5. t検定 Excelで計算すると、”t”とよばれる値が掲載される これが、帰無仮説を「係数=0」とした場合の、各推 定値のt統計量(検定統計量はtt分布に従っている) 分布 帰無仮説を「係数=0」とした場合を、特にtt値という (単)回帰分析におけるt値は βˆ − 0 t= ~ t (T − 2 ) SE ( βˆ ) である。 (T-2)= =(標本数-推定する係数の数 標本数-推定する係数の数) 標本数-推定する係数の数 =t統計量の自由度 SE: : βˆ の標準誤差の推定値 6. 検定方法 検定方法 ①帰無仮説・対立仮説を次のように設定する 帰無仮説: β = 0 対立仮説: β ≠ 0 (両側検定の場合) ※ここでβは、正・負どちらの値も取り得ると考えられ るケースである ②有意水準5%で検定するとき(両側検定を想定し て)t分布表より、2.5%点を見る(自由度に注意!) ※2.5%点:臨界値 ③絶対値で、t値が臨界値より大きければ(分布の 中心とは反対側にあれば)、帰無仮説を棄却する 帰無仮説を棄却する (係数は0ではない) (係数は ではない)と判断 ではない) ここでt分布(ここでは自由度120とする)に従って、 5%の有意水準でt検定を行うとき、棄却域は下 図の太線で示した区間: ※両側に存在することに注意 両側に存在 面積0.025 面積0.025 棄却域 棄却域 0 -1.9799 1.9799 Excelによる最小二乗推定量の求め方 ①データファイル内の「家計最終消費支出」を被説明 変数に、「国内総支出」を説明変数にして、定数項あ りのモデルで、ケインズ型消費関数を推定する。 ※データファイルは講義資料コーナーにアップロードし ています。(Excel2013で作成) データファイル ②「ツール」メニューの、「分析ツール」を選び、その中 の「回帰分析」を選択する (「分析ツール」がメニューの中にない場合は、「アドイ ン」をクリックし、「分析ツール」の項目にチェックを入 れる) ②の「データ分析」の場所 ②の「回帰分析」の場所 ③「選択Y変数」に被説明変数のデータの範囲を、「選択 X変数」に説明変数のデータの範囲を入力 ※データファイルでは、B2からB77に被説明変数、C2か らC77に説明変数がある ④出力箇所を指定し、「OK」をクリック ※データファイルでは、出力先を”E15”のセルにしている。 ③の説明変数・被説明変数の指定 ④の出力先の指定 出力結果 ⑤結果の見方 推定結果のうち、「係数」の上側にある「切片」が定数項の、下側の 「X値1」が回帰係数の、それぞれの推定値である。 ここで”t”と表記されているものがt値(帰無仮説を当該係数=0”とし たときのt統計量)である。これは推定値を「標準誤差」で割ったもの と等しい。 また、P-値は、その検定統計量が何%点であるかを意味するもので、 有意水準(1%、5%、10%のいずれかに設定)よりもその値が小さ ければ、帰無仮説を棄却し、その係数は有意(0ではない)と考える。
© Copyright 2024 ExpyDoc