回帰分析の諸問題

第5章 回帰分析の諸問題(2)
ー 計量経済学 ー
第1節 分布ラグ
1
2
3
4
幾何級数型分布ラグ
幾何級数型分布ラグの推定
幾何級数型分布ラグの例 -ブラウン型消費関数-
アーモン・ラグモデル
第2節 ダミー変数
1 外れ値
2 外れ値の解決
3 季節調整ダミー
4 季節調整ダミーの例
補足1 質的変数ダミー
補足2 係数ダミー
補節 構造変化の検定
第1節 分布ラグ
• 第3章 例5 (108-109ページ)において、被説明変数が当期と
前期の説明変数の影響を受けているモデルを考えた。
Ct  a  bYDt  cYDt 1  ut
消費
当期の所得 前期の所得
このモデルをさらに拡張し、かなり過去からの説明変数が、
被説明変数に影響を及ぼしているモデルを考える。
このとき、分布ラグという概念を利用する。
分布ラグを利用したモデルは、次のように表現できる。
Yt  a  b1 X t  b2 X t 1  b3 X t 2    ut
このようなモデルを使う例として、たとえば年間出生数を被説明変数とする
回帰モデルなどが考えられる。
出生数に影響を与える説明変数として、婚姻件数が考えられるが、年間出
生数を考える場合、その年の婚姻件数だけでなく、前年、さらにその前年
と過去数年間にわたる婚姻件数が出生数に影響を及ぼしていると考えら
れる。このような場合、分布ラグモデルが有効である。
分布ラグにはさまざまな種類があるが、それはこのパラメータ b1,b2,・・・ に
どのような関係を想定するかによるものである。
1 幾何級数型分布ラグ
幾何級数とは 2, 22, 23, ・・・ のように、等倍で変化する級数のことで
ある。(高校の数学では等比数列として習った)
分布ラグモデルのパラメータにおいて、
b1  b0
b2  b1
b3  b2
という関係(ただし、0<λ<1)を想定したものが、幾何級数型分布ラグ
モデルである。
このモデルは図5-1のように、過去にさかのぼるに従ってその影響が
少なくなっていくものであり、
Yt  a  bX t  bX t 1  b2 X t  2    ut
と表すことができる。
※ 幾何級数型分布ラグの例
b=2, λ=0.5としたとき、幾何級数型分布ラグのパラメータは下のよう
になる。
2
1
0.5
0.25
0.125
0.0625
0.03125
0.015625
0.007813
0.003906
0.001953
幾何級数分布ラグの例
2.5
2
パラメータ
bλ0
bλ1
2
bλ
3
bλ
bλ4
bλ5
bλ6
7
bλ
bλ8
bλ9
bλ10
1.5
1
0.5
0
0
2
4
6
ラグ
8
10
2 幾何級数型分布ラグの推定
幾何級数型分布ラグモデルは
Yt  a  bX t  bX t 1  b2 X t  2    ut
であり、このモデルを1期前について書いてみると
Yt 1  a  bX t 1  bX t  2  b2 X t 3    ut 1
となる。この両辺をλ倍すると
Yt 1  a  bX t 1  b2 X t 2  b3 X t 3    ut 1
となる。これを元のモデルから引くと
Yt  Yt 1  a(1   )  bX t  ut  ut 1
となる。ここで、
とおくと、
a  a (1   )
ut  ut  ut 1
Yt  a  bX t  Yt 1  ut
となり、最小2乗法で推定できる。
3 幾何級数型分布ラグの例 -ブラウン型消費関数-
ブラウン型消費関数は幾何級数型分布ラグモデルと解釈することもで
きる。
消費をC、可処分所得をYDとすると
Ct    YDt  Ct 1  ut
と表すことができる。このモデルでは、被説明変数の過去の値が説明
変数に含まれるので、系列相関の判定にはダービン・ワトソン比では
なく、ダービンのh統計量をもちいる。
4 アーモン・ラグモデル
幾何級数型分布ラグモデルは、無限の項を想定するものであったが、
ここでは有限の項について、そのパラメータが多項式の形で表される
モデルを考える。
すなわち
Yt  a  b1 X t  b2 X t 1  b3 X t 2   b m1 X t  m  ut
というモデルのパラメータについて、
bi 1  c1  c2i  c3i 2    c p 1i p (i  0,1,, m)
という多項式を想定するモデルである。このモデルは考案した学者の
名前をとって、アーモン・ラグモデルともいわれる。
アーモン・ラグモデルにおいて、m=3, p=2の場合を考える。このとき
モデルは
Yt  a  b1 X t  b2 X t 1  b3 X t 2 b 4 X t 3  ut
となり、パラメータは
b1  c1  c2  0  c3  0 2  c1
b2  c1  c2  1  c3  12  c1  c2  c3
b3  c1  c2  2  c3  2 2  c1  2c2  4c3
b4  c1  c2  3  c3  32  c1  3c2  9c3
となる。これをモデルに代入すると
Yt  a  c1 X t  (c1  c2  c3 ) X t 1
 (c1  2c2  4c3 ) X t  2  (c1  3c2  9c3 ) X t 3  ut
となる。
この式をc1,c2,c3についてまとめると、
Yt  a  c1 ( X t  X t 1  X t  2  X t 3 )
 c2 ( X t 1  2 X t  2  3 X t 3 )
 c3 ( X t 1  4 X t  2  9 X t 3 )  ut
となる。ここで、
W1  X t  X t 1  X t  2  X t 3
W2  X t 1  2 X t  2  3 X t 3
W3  X t 1  4 X t  2  9 X t 3
とおくと、このモデルは
Yt  a  c1W1  c2W2  c3W3  ut
という重回帰モデルになる。よって、YtをW1,W2,W3に対して回帰し、
アーモン・ラグモデルのパラメータを推定する。
第2節 ダミー変数
被説明変数の動きが、説明変数だけで十分に説明できないと
き、0と1の値のみをとる特殊な変数を用いることがある。この
変数のことをダミー変数という。
ダミー変数は、次の3種類に分類することができる。
① 一時ダミー(突発的ダミー) → 外れ値への対応
② 定数項ダミー → 季節変動や質的変数への対応
③ 係数ダミー → 構造変化への対応
1 外れ値
下の図は、1985年から2002年までの日本の水稲の作付面積と収穫
量の関係である。
この図を見ると、他のデータは回帰直線の近くにあるのに、1つのデー
タのみ大きく外れたところある。
このようなデータを外れ値(または異常値)という。
水稲の作付面積と収穫量
(1985~2002年)
収穫量(万t)
1300
1200
1100
1000
900
800
700
160
180
200
作付面積(万ha)
220
240
<外れ値の原因>
この例における外れ値は1993年のデータである。
この年日本は米の生産地を中心に、異常な冷夏であり米の収穫が非
常に少なかった。
日本では外国産米(当初、カリフォルニア米、その後不足してタイ米)
の緊急輸入をおこなった。(平成コメ騒動といわれることもある)
このような天災、戦争(最近では1991年の湾岸戦争など)、オイル
ショック(1973年、1978年)、消費税の導入と引き上げ(1989年、1997
年)などは、変数が通常とは異なった異常な値をとることがある。
また、都道府県別データの場合は、北海道、東京都、沖縄県などが特
殊な動きをすることがある。
<外れ値の判定>
回帰直線からどの程度外れたら外れ値となるのであろうか?
1つの基準として、「標準化残差が±2を超えたもの」とするものがある。
この例の場合、1993年の標準化残差は-2を下回っているので、この
基準では外れ値とみなされる。
ただし、±2というのは絶対的な基準ではなく、本によっては±3や±4
という基準もある。
残差プロット
標準化残差
4
2
0
1985
-2
-4
1990
1995
2000
年
2005
2 外れ値の解決
このような外れ値が存在する場合、次のような解決方法が考えられる。
① 外れ値をとり除き、その他のデータで分析をおこなう。
② 外れ値の部分にダミー変数を用いて分析をおこなう。
都道府県別データのようなクロスセクションデータであれば、特定の地
域のみ除く①の方法を用いることもできるが、時系列データで中間の
1年を除くことは不自然である。
この例のような時系列データの場合には、②のように一時ダミー(突発
的ダミー)を用いた分析をおこなう。
<一時ダミー>
一時ダミーは、特定の時点のみ1をとり、他の時点はすべて0をとるダ
ミー変数である。
この例において、コメの収穫量をYt、作付面積をXtとする。そして、
1993年のみ1をとり、それ以外の年はすべて0をとるダミー変数Dtを考
えると、次のようなモデルが考えられる。
Yt  a  bX t  cDt  ut
水稲の作付面積と収穫量
(1985~2002年)
1300
1200
収穫量(万t)
このモデルは、1993年の
データ以外から回帰直線
a  bX t を求め、1993年の
Yt と Yˆt の差を cDt によっ
て埋めるという形になって
いる。
1100
Y=a+bXt
1000
cDt
900
800
700
160
180
200
作付面積(万ha)
220
240
3 季節調整ダミー
四半期データを用いた分析 - 季節変動の影響を受ける。季節調整
済のデータを分析に用いる。
原データを分析に用いる場合、季節調整ダミーを用いる。
季節ダミーを用いた場合のモデルは次のようになる。
Y  a  bX  cD1  dD2  eD3  u
D1 =1 (第Ⅰ四半期)
0(その他)
D2 = 1 (第Ⅱ四半期)
0(その他)
D3 = 1 (第Ⅲ四半期)
0(その他)
Ⅰ
第Ⅰ四半期
第Ⅱ四半期
第Ⅲ四半期
第Ⅳ四半期
Y
Y
Y
Y
 (a  c)  bX  u
 (a  d )  bX  u
 (a  e)  bX  u
 a  bX  u
Ⅱ
Ⅲ
Ⅳ
c
d
e
a
4 季節調整ダミーの例
季節調整ダミーを入れた分析は、傾きの等しい4本の回帰直線を、そ
れぞれの四半期のデータに対して適用するということである。
これは定数項ダミーの一種である。
補足1 質的変数ダミー
季節調整ダミーと同じように、傾きの等しい複数の回帰直線を引きた
い場合がある。
たとえば、ある企業の従業員について、支給される給与額を勤続年数
に対して回帰する場合を考えよう。このとき、大卒と高卒で2つのグ
ループが作られたとする。
このとき、次のようなモデルが考えられる。
Y  a  bX  cD  u D  1(大卒)
 (高卒)
0
大卒
高卒
Y  (a  c)  bX  u
Y  a  bX  u
このように、学歴、性別などで複数
のグループに分ける場合、ダミー変
数が用いられる。
大卒
高卒
c
a
補足2 係数ダミー
ダミー変数の利用法には、定数項の異なる回帰直線を引くだけでなく、
傾きの異なる回帰直線を引くということもある。それが係数ダミーであ
る。
たとえば、 1次エネルギー需要量を実質GDPに対して回帰することを
考えると、これはオイルショックによって需要量に構造変化が起きた。
このとき、次のようなモデルが考えられる。
Y  a  bX  cDX  u D  1(オイルショック後 )
 (オイルショック前)
0
オイルショック前 Y  a  bX  u
オイルショック後 Y  a  (b  c) X  u
オイルショ
ック前
オイルショ
ック後
a
<係数ダミーと定数項ダミーの併用>
構造変化が起きた場合、ある時点において傾きが変わるということは、
傾きと定数項がともに異なる2つの回帰直線を組み合わせるものであ
る。これは係数ダミーと定数項ダミーを併用することによってモデル化
できる。
Y  a  bX  cDX  dD  u
D  1(オイルショック後
 (オイルショック前)
0
オイルショック前
オイルショック後
)
Y  a  bX  u
Y  (a  d )  (b  c) X  u
オイルショ
ック後
d
a
オイルショ
ック前
補節 構造変化の検定
構造変化が起こっているかどうかは、統計的な検定を用いて検証すること
が可能である。この節では、構造変化の検定(チャウ検定(Chow test))の
説明をおこなう。
最初に、構造変化の前後のモデルを次のようにあらわす。
Y  a  b1 X 1    bk X k  u(変化前)
Y  a  b1 X 1    bk X k  u(変化後)
このとき、構造変化を検定するための仮説は

H 0 : a  a, b1  b1, , bk  b(構造変化なし)
k
H1 : H 0以外(構造変化あり)
となる。
残差2乗和を次のようにあらわす。
SSR1:変化前の残差2乗和
SSR2:変化後の残差2乗和
SSR:全期間の残差2乗和
すると検定統計量は
F 
( SSR  ( SSR1  SSR2 )) ( k  1)
( SSR1  SSR2 ) ( n  2( k  1))
となる。この統計量を、自由度(k+1, n-2(k+1)) のF分布と比較すれ
ばよい。