経済統計学(補足) 最小二乗法について

経済統計学(補足)
最小二乗法について
最小二乗法について
担当:小塚 匡文
2015年11月19日(改訂版)
神戸大学経済学部2015年度後期開講授業
補足:最小二乗法(単回帰分析)
1.(単純)回帰分析とは?
標本サイズTの2変数(ここではXとY)の
データが存在
⇒YをXで説明する回帰方程式を推定するための方法
Y:被説明変数(または従属変数)
X:説明変数(または独立変数)。
ここでは最小二乗法
最小二乗法とよばれる、最も標準的な方法を紹介
最小二乗法
この場合の真の回帰直線の式:
Yt = α + βX t + ut L (1)
(t = 1,2,3,L, T )
通常は定数項αも含めるので、回帰方程式を求めるとき、
2つの係数(αとβ)を推定する
推定する。
推定する
(αは定数項、βは傾き)
<注意すべき点>
回帰直線の式はXが
がYに及ぼす影響を示すもの
に及ぼす影響を示すもの
同じ2変数の関係を表すものに相関係数がある
XとYの相関係数は、XとYの2つの動きの傾向を見た
もの:どちらかが原因ではない点
どちらかが原因ではない点に注意!
どちらかが原因ではない点
2.概念
X とYの関係を表す直線の、最もよい引き方は何か?
⇒ⅩとYの散布図を描き、その中にある直線を引く
⇒そして、各点とその直線との間の、縦軸と平行な方向
縦軸と平行な方向
で測った距離を総計したものを最小にする回帰直線が、
で測った距離
ここで求めるべきもの
(1)式における u t は、誤差項(または撹乱項)とよばれる
確率変数である。 u t については単純化のため、以下の
仮定が置かれる。
期待値は0
共分散は0
分散は一定
※Yは確率変数であるが、Xはそうでないものと
Yは確率変数であるが、 はそうでないものと
仮定
また ut の推定値は、図1の点と直線の、垂直(上下)方向の差
であらわされる。これを残差を呼び、 et と書くことが一般的
なお
∑e
t
= 0,∑ X t et = 0,∑ Yˆt et = 0
この残差を2乗して足した値=残差2乗和
※望ましい直線を引いた場合これは最小になる
(=もっとも点から離れていない直線)
⇒残差二乗和が最小になる傾き・定数項はどのようなものか?
図1:残差と回帰直線
Y
真の回帰直線
Yˆt
残差
推定回帰直線
et
Yt
X
Xt
3. 導出
αとβは、観測できない真の回帰式に含まれる未知
のパラメータ(未知の係数)
⇒そのため、X・Yの得られたデータから推定を行う
⇒未知パラメータを書き換え、
Yˆt = αˆ + βˆX t L(2)
とする。 αˆ , βˆ はアルファハット、ベータハットとよび、
α、βの推定量である。
(2)式:推定回帰直線の式
点と直線の垂直方向での距離=残差の二乗 の総和を最小にする
ように αˆ , βˆ を求める。
なお Yˆ は理論値と呼ぶ。
ここで残差は、次のようにあらわすこともできる
et = Yt − Yˆt
誤差項は、真の回帰式に存在する確率的な誤差
残差は推定された回帰式の、説明しきれない部分
説明しきれない部分
※両者の違いに注意!!
この残差を2乗し、その和(残差2乗和
残差2乗和)が最小になる
残差2乗和
ように αˆ , βˆ を求める ⇒ 残差2乗和をLとし、
T
2
T
(
)
2
L = ∑t =1 e t = ∑t =1 Yt − αˆ − βˆX t L (3)
とおく。これを αˆ , βˆ について偏微分して、その1階の導関数を
0に等しいとすると・・・
⇒Lを最小とする αˆ , βˆ が求まる。
(3)を偏微分した式を=0とした式は次の通り:
∂L
T
= −2∑t =1 X t Yt − αˆ − βˆX t = 0 L (4)
∂βˆ
(
)
∂L
T
= −2 ∑ t =1 Yt − αˆ − βˆX t = 0 L (5)
∂αˆ
(
この(4)(5)を正規方程式という
)
正規方程式(4)(5)は連立の2元1次方程式であ
るので、これを解くと
αˆ = Y − βˆX
(
X − X )(Y − Y )
∑
βˆ =
∑ (X − X )
T
t
t =1
t
T
t =1
2
t
を得る。これが最小2乗推定量である
この推定量
推定量に、具体的なデータを代入したものが、推定値
推定値
推定量
※推定量と推定値の違いに注意
推定量と推定値の違い
4. 検定とは?
検定とは何か?
母数についての仮説があり、それが支持される
か判断するもの。以下がその手順:
①帰無仮説
帰無仮説と対立仮説
帰無仮説 対立仮説を設定する
対立仮説
②検定統計量を計算する
③帰無仮説が正しいという仮定で、確率分布を調べる
④有意水準を設定し、棄却域と臨界値を求める
検定統計量が臨界値より大き
ければ帰無仮説を棄却
⇒棄却域に含まれる
⑤絶対値で
検定統計量が臨界値より小さ
ければ帰無仮説を採択
棄却域とは?
⇒そのエリアに検定統計量が入っていれば、帰無仮
説を棄却する領域のこと
臨界値とは?
⇒絶対値で見た、棄却域の下限
(棄却域の始まる点)
(棄却域とそうでない個所の境界)
5. t検定
Excelで計算すると、”t”とよばれる値が掲載される
これが、帰無仮説を「係数=0」とした場合の、各推
定値のt統計量(検定統計量はtt分布に従っている)
分布
帰無仮説を「係数=0」とした場合を、特にtt値という
(単)回帰分析におけるt値は
βˆ − 0
t=
~ t (T − 2 )
SE ( βˆ )
である。
(T-2)=
=(標本数-推定する係数の数
標本数-推定する係数の数)
標本数-推定する係数の数
=t統計量の自由度
SE:
:
βˆ の標準誤差の推定値
6. 検定方法
検定方法
①帰無仮説・対立仮説を次のように設定する
帰無仮説: β = 0
対立仮説: β ≠ 0
(両側検定の場合)
※ここでβは、正・負どちらの値も取り得ると考えられ
るケースである
②有意水準5%で検定するとき(両側検定を想定し
て)t分布表より、2.5%点を見る(自由度に注意!)
※2.5%点:臨界値
③絶対値で、t値が臨界値より大きければ(分布の
中心とは反対側にあれば)、帰無仮説を棄却する
帰無仮説を棄却する
(係数は0ではない)
(係数は ではない)と判断
ではない)
ここでt分布(ここでは自由度120とする)に従って、
5%の有意水準でt検定を行うとき、棄却域は下
図の太線で示した区間:
※両側に存在することに注意
両側に存在
面積0.025
面積0.025
棄却域
棄却域
0
-1.9799
1.9799
Excelによる最小二乗推定量の求め方
①データファイル内の「家計最終消費支出」を被説明
変数に、「国内総支出」を説明変数にして、定数項あ
りのモデルで、ケインズ型消費関数を推定する。
※データファイルは講義資料コーナーにアップロードし
ています。(Excel2013で作成)
データファイル
②「ツール」メニューの、「分析ツール」を選び、その中
の「回帰分析」を選択する
(「分析ツール」がメニューの中にない場合は、「アドイ
ン」をクリックし、「分析ツール」の項目にチェックを入
れる)
②の「データ分析」の場所
②の「回帰分析」の場所
③「選択Y変数」に被説明変数のデータの範囲を、「選択
X変数」に説明変数のデータの範囲を入力
※データファイルでは、B2からB77に被説明変数、C2か
らC77に説明変数がある
④出力箇所を指定し、「OK」をクリック
※データファイルでは、出力先を”E15”のセルにしている。
③の説明変数・被説明変数の指定 ④の出力先の指定
出力結果
⑤結果の見方
推定結果のうち、「係数」の上側にある「切片」が定数項の、下側の
「X値1」が回帰係数の、それぞれの推定値である。
ここで”t”と表記されているものがt値(帰無仮説を当該係数=0”とし
たときのt統計量)である。これは推定値を「標準誤差」で割ったもの
と等しい。
また、P-値は、その検定統計量が何%点であるかを意味するもので、
有意水準(1%、5%、10%のいずれかに設定)よりもその値が小さ
ければ、帰無仮説を棄却し、その係数は有意(0ではない)と考える。