平成 25 年度 上級計量経済学
講義ノート 2: 操作変数法
操作変数法は、回帰変数と誤差項が相関しているときに、一致性のある推定量を得るた
めに使われる手法である。操作変数とは、誤差項とは無相関な回帰変数の変動に関する情報
をもたらす変数である。この情報を使うことにより、他の要素を一定としたときの、回帰変
数の被説明変数に対する影響を調べることができる。
2.1
内生的な回帰変数と OLS 推定量の不一致
次の線形モデルを考える。
Yi = β1′ Xi + ui ,
i = 1, . . . , n.
(1)
回帰変数 Xi は、誤差項 ui と相関している可能性があると、最小二乗推定量は一致性を持た
ない可能性がある。ui と相関している変数は内生変数と呼ばれる。
OLS 推定量が望ましい推定量にならないことを理論的に考察しよう。まず E(ui |Xi ) =
g(Xi ) ̸= 0 とする。このとき、βˆ = β + (X ′ X)−1 X ′ u とかけるので、
ˆ
E(β|X)
= β + (X ′ X)−1 X ′ E(u|X) = β + (X ′ X)−1 X ′ g
と、g ′ = (g(x1 ), · · · , g(xn )) として、かける。たまたま E{(X ′ X)−1 X ′ g} = 0 が成立してい
ない限り
ˆ = β + E{(X ′ X)−1 X ′ g} ̸= β
E(β)
となり、不偏性が満たされない。同様に、大標本理論の観点からも、E(Xi ui ) = γ ̸= 0 とす
ると、
)−1
( n
n
1∑
1∑
′
ˆ
Xi Xi
Xi ui
β=β+
n
n
i=1
i=1
で、
1∑
Xi ui →p E(Xi ui ) = γ ̸= 0
n
n
i=1
なので、
(
βˆ = β +
1∑
Xi Xi′
n
n
i=1
)−1
(
)−1
1∑
Xi ui →p β + E(Xi Xi′ )
γ ̸= β
n
n
i=1
となり、一致性が満たされない。
経済データにおいては、モデルの構成上 E(ui |Xi ) = 0 という仮定が成立しなくなること
がある。
教育のリターン: 操作変数法がもっともよく使われている例は、教育の賃金への影響に関す
るものであろう。Yi を賃金 (実証研究では対数賃金がよく使われる)、Xi を教育年数と
する。ui は賃金に影響与える教育年数以外のすべての要素を含んでいる。例えば、個
人の仕事の能力などは ui に含まれている。我々が興味があるのは、教育年数を政策変
更などによって増やした時の賃金への影響である。その影響は上のモデルでは β1 で
表現されている。しかし、実際のデータ上では、Xi と ui は相関している可能性があ
り、最小二乗法では β1 を一致推定できないおそれがある。例えば、仕事のできる人は
勉強もできるとすると、Xi と ui とは正の相関をもつであろうし、一方で仕事のあま
りできない人はせめて教育をつけて自らの生産性をあげようと努力すると考えると Xi
と ui とは負の相関をもつであろう。
1
同時方程式モデル(消費関数): I と G は非確率的な変数とする。
C = α0 + α1 Y + ϵ
Y
(2)
= C +I +G
より、C と Y について解くと、Y =
1
1−α1 (α0
+ I + G + ϵ) なので、
E(ϵ|Y ) = (1 − α1 )Y − (α0 + I + G)
となり、(2) 式に関して、説明変数 Y を条件にした誤差項の条件付き期待値は 0 でない。
観測(測定)誤差を含む説明変数 :
y = β ′ x∗ + ϵ
(3)
においては OLS が機能するための仮定が満たされているが、x∗ は直接観測されず、誤
差 v を含んだ変数
x = x∗ + v
(4)
が観測されているとする。ただし、単純化のために v は x∗ 、ϵ とは独立で E(v) = 0 と
する。そのとき、x∗ の代理変数として x を用いて
y = β′x + u
(5)
に対して OLS 推定を行うことが考えられる。しかし、(3)、(4) から x∗ を消去すると
y = β ′ x∗ + ϵ = β ′ (x − v) + ϵ
= β ′ x + (ϵ − v ′ β)
となり、(5) の誤差項 u は u = ϵ − β ′ v であることがわかる。β ̸= 0 として
E(xu) = E{(x∗ + v)(ϵ − v ′ β)} = −V ar(v)β ̸= 0
なので、x は内生変数になる。(注:E(xu) ̸= 0 ならば E(u|x) ̸= 0)
動学的回帰モデル + 自己相関をもつ誤差項:
yt = α0 + α1 yt−1 + β ′ xt + ϵt
ϵt = ρϵt−1 + ut
という構造の時系列モデルを考えると、説明変数 yt−1 は ϵt−1 に依存しており、また誤
差項 ϵt も ϵt−1 に依存している。そのため、誤差項 ϵt と説明変数 yt−1 の間に相関が生
じる。
なお、以下の用語は良くつかわれ、覚えておく必要がある。
• 内生変数: ui と相関している変数。
• 外生変数: ui と相関していない変数。
つまり、OLS 推定量が、一致性をもたない問題は、Xi が内生変数であるという状況と考え
ることができる。
2.2
操作変数推定量
回帰変数が内生であっても、外生変数で、回帰変数と関連のある変数があれば、モデルを推
定することができる。そのような変数を操作変数 (Instrumental variable, IV) という。操作
変数を Zi と表記する。
2
操作変数であるための二つの条件
1. 操作変数の関連性: E(Zi Xi′ ) がフルランク.
2. 操作変数の外生性: E(ui |Zi ) = 0.
上の例の場合、Xi は内生変数であり、Zi は外生変数である。Zi を操作変数として使え
るためには、外生変数であり、なおかつ関連性を持つ必要がある。
• 上で述べた教育と賃金の例で良く使われる操作変数としては、親の教育年数や、育っ
た土地の近くに大学があるかの指標、教育資金援助の利用しやすさの指標などがある。
さて、無作為標本 (yi , Xi , Zi ), i = 1, . . . , n が得られたとする。Xi と Zi は同じ次元とす
る。Zi の次元の方が大きい場合は、以下で議論する。なお、Xi の要素と Zi の要素は重複し
ていてもよい。
A0: (yi , Xi , Zi ), i = 1, . . . , n は i.i.d.
A1: yi = β ′ Xi + ui , i = 1, · · · , n
A2’: E(Zi Xi′ ) = Σzx は正則である。(操作変数の関連性)
A3’: E(ui |Zi ) = 0。(操作変数の外生性)
A6’: ui , Xi , Zi は 4 次までのモーメントをもつ。
操作変数の条件として重要なものは、A2’、A3’ である。
操作変数推定量とは、
βˆIV =
( n
∑
)−1
Zi Xi′
n
∑
Zi yi
i=1
i=1
である。
定理 1. 仮定 A0, A1, A2’, A3’, A6’ の下で、
p
1. βˆIV → β 、
2.
√ ˆ
d
2
′
−1 ′
n(βIV − β) → N (0, Σ−1
zx E(ui Zi Zi )(Σzx ) )
(証明)
1. 一致性
(
βˆIV =
n
∑
)−1
Zi Xi′
i=1
n
∑
Zi (Xi′ β
+ ui ) = βˆIV = β +
( n
∑
i=1
i=1
)−1
Zi Xi′
n
∑
Zi u i
i=1
と書ける。(yi , Xi , Zi ) が i.i.d.(無作為標本)であるため、A3’、A6’ と大数の法則より
1∑
Zi Xi′ →p E(Zi Xi′ ) = Σzx
n
n
1
n
i=1
n
∑
Zi ui →p E(Zi ui ) = 0
i=1
である。したがって、
p
βˆIV → β.
3
(6)
2. 漸近正規性
√
n(βˆIV − β) =
(
1∑
Zi Xi′
n
n
)−1
i=1
1 ∑
√
Zi u i
n
n
(7)
i=1
A3’,A4’ より E(zi ϵi ) = 0、V (zi ϵi ) = E[u2i Zi Zi′ ] であるから、Lindeberg=Levi の中心極限定
理より
n
1 ∑
√
Zi ui →d N (0, E(u2i Zi Zi′ ))
(8)
n
i=1
したがって、(6)、(7)、(8) より (ii) が証明される。(証明終)
1. Zi = Xi とおくと IV 推定量は OLS 推定量に一致するので、OLS は IV の特殊ケース
と解釈できる。
2. 一部の説明変数が誤差項と相関をもたない場合、その説明変数に対しては操作変数を
使わなくてもよい。例えば x2i が ϵi と相関をもたないなら、(z3i , · · · , zki ) を用意して、
(1, x2i , z3i , · · · , zki ) を操作変数ベクトルと考えて IV 推定を行えばよい。
3. 実は A3 が成立している場合(OLS が機能する場合)に、IV 法を用いて推定するとど
うなるか?(次節で A3 が成立しているかどうかを調べる検定を紹介する)
4. A2’, A3’ が満たされる限り、定理1は成立し、IV 推定量は一致性をもち、漸近正規で
ある。
5. 分散均一の場合は、OLS と IV 推定量の漸近分散を比較すると OLS の方が漸近効率が
高い。
2 −1
−1 ′
ˆ
A.V ar(βˆOLS ) = σ 2 Σ−1
xx ≤ σ Σzx Σzz (Σzx ) = A.V ar(βIV )
2.3
操作変数法の一般的な形
先ほど紹介した操作変数法を、内生変数が複数あり、外生変数も複数あり、さらに操作変数
も複数ある場合に拡張する。
yi = β1′ Xi + β2′ Xi + ui .
(1)
(2)
(1)
• Xi : 内生変数のベクトル。
(2)
• Xi : 外生変数のベクトル。
(1)
• Zi : モデルに含まれない操作変数のベクトル。(excluded exogenous variable)
用語
• m = 操作変数の数、k = 内生変数の数。
• m > k: 過剰識別。(over-identified)
• m = k: 過不足ない識別。(just-identified)
• m < k: 識別不能。(under-identified, unidentified)
4
(9)
操作変数の数の方が多いので、上で述べた操作変数推定量はそのままでは、適用できず、
それを拡張した次の2段階最小二乗推定量 (2SLS, TSLS) を使用する。
• 一段階目の回帰: 次の式を推定する。
(1)
Xi
= π1′ Zi + π2′ Xi + vi .
(2)
(1)
(10)
(1)
この式は、時折、X (1) に関する誘導系の式とも呼ばれる。そして、Xi
値を計算する。
(1)
の OLS 予測
(2)
ˆ と X に回帰する。
• 二段階目: Yi を X
i
i
(1)
(2)
ˆ と X を操作変数として使用した IV 推定量と同じになる。
• 二段階目は X
i
i
この推定量は、次のようにモーメント推定量の拡張として考えることもでき、その解釈
の方が現在では主流である。しかし、推定量はモーメント推定量の拡張と考える場合でも、
(1)′
(2)′
(1)′
(2)′
2SLS 推定量と呼ばれる。Xi = (Xi , Xi )′ かつ Zi = (Zi , Xi )′ とすると、
(
)
E (yi − Xi′ β)Zi = 0
が操作変数の定義より成り立つ。よって、次を最小化する
)
)−1 ( n
)′ ( n
( n
∑
∑
∑
(yi − Xi′ b)Zi
Zi Zi′
(yi − Xi′ b)Zi
i=1
i=1
i=1
そうして得られた最小値は 2SLS 推定量となる。
2SLS 推定量は、次のようにかける。
−1

)−1 n
( n
)−1 n
( n
n
n
∑
∑
∑
∑
∑
∑
′
′
′
′
′
Zi Zi
Zi yi .
Xi Z i
Zi Zi
Z i Xi 
Xi Zi
βˆ2SLS = 
i=1
i=1
i=1
i=1
i=1
(11)
i=1
この式は、2SLS 推定量を上の最小化問題の解と考える場合は少し計算すれば求めることが
できる。また、2段階に分けて OLS を適用した推定量と考える場合には、次の考察から、
ˆ (1)′ , X(2)′ )′ とす
ˆ i = (X
やはり 2SLS 推定量が上の式によって表されることがわる。まず、X
i
i
ると、
)−1
)( n
( n
∑
∑
′
′
ˆi =
X
Xi Z i
Zi Zi
Zi
(12)
i=1
i=1
となる。したがって、
( n
)( n
)−1 n
( n
)−1 ( n
)
n
∑
∑
∑
∑
∑
∑
ˆiX
ˆ′ =
X
Xi Zi′
Zi Zi′
Zi Zi′
Zi Zi′
Xi Zi′
(13)
i
i=1
i=1
=
n
∑
Xi Zi′
i=1
(
i=1
n
∑
)−1
Zi Zi′
i=1
i=1
n
∑
i=1
Zi Xi′
i=1
(14)
i=1
となる。また、
n
∑
i=1
ˆ i yi =
X
n
∑
i=1
(
Xi Zi′
n
∑
i=1
)−1
Zi Zi′
n
∑
i=1
であるので、2SLS 推定量は上の式になることが分かる。
5
Zi yi
(15)
2.4
2SLS 推定量の漸近理論
この節では、2SLS 推定量の漸近的性質を議論する。
一般的な場合の操作変数の関連性と外生性 操作変数の数の方が、回帰変数の数よりも多い
場合でも、操作変数の関連性と外生性が重要な仮定である。
• 操作変数の関連性: E(Zi Xi′ ) は列フルランクである。この条件は、m ≥ k でないと満
たされない。
• 操作変数の外生性: E(ui |Zi ) = 0.
2SLS 推定量の漸近的性質 仮定:
• (yi , Xi , Zi ), i = 1, . . . , n は i.i.d. である。
• すべての変数は、ゼロでない有界である4次までのモーメントをもつ。
• 操作変数は関連性があり、外生である。
定理 2. 以上の仮定の下で、
p
1. βˆ2SLS → β 、
2.
√ ˆ
d
n(β2SLS − β) → N (0, V2SLS )、ただし、
(
)−1
(
)−1
V2SLS =
E(Xi Zi′ ) E(Zi Zi′ )
E(Zi Xi′ )
(
)−1
(
)−1
×E(Xi Zi′ ) E(Zi Zi′ )
E(u2i Zi Zi′ ) E(Zi Zi′ )
E(Zi Xi′ )
(
)−1
(
)−1
× E(Xi Zi′ ) E(Zi Zi′ )
E(Zi Xi′ )
である。
証明は、
√
n(βˆ2SLS − β)

−1
( n
)−1
n
n
∑
∑
∑
1
1
1
= 
Xi Zi′
Zi Zi′
Zi Xi′ 
n
n
n
i=1
i=1
i=1
(
)
−1
n
n
n
1∑
1∑
1 ∑
√
×
Xi Zi′
Zi Zi′
Zi ui
n
n
n
i=1
i=1
i=1
となることから従う。
漸近分散は、

−1
( n
)−1
n
n
∑
∑
∑
1
1
1
Vˆ2SLS = 
Xi Zi′
Zi Zi′
Zi Xi′ 
n
n
n
i=1
i=1
)−1
i=1
( n
)−1
n
n
n
n
∑
∑
∑
1
1
1
1∑
1∑
Xi Zi′
Zi Zi′
u
ˆ2i Zi Zi′
Zi Zi′
Zi Xi′
×
n
n
n
n
n
i=1
i=1
i=1
i=1
i=1

−1
(
)
−1
n
n
n
1∑
1∑
1∑
′
′

×
Xi Z i
Zi Zi
Zi Xi′ 
n
n
n
i=1
(
i=1
i=1
として推定できる。この漸近分散の式は、分散不均一の元でも通用する頑健なものである。
6
• ソフトウェアなどで、2SLS 推定量はそのまま計算でき、その標準誤差も自動的に計算
される。ただ、注意すべき点は、2SLS 推定量は2回 OLS 推定量を計算することでも
求めることができるが、その場合の2段階目の OLS 推定量の標準誤差をそのまま使
うとそれは正しい標準誤差とはなっていないことである。
2.5
Hausman 検定
回帰変数 Xi が内生が外生かどうかを検定することができる。ただし、適切な操作変数 Zi が
利用可能である必要がある。ここでは、Hausman (1978, Econometrica) の検定を紹介する。
しかし、この検定は、Nakamura and Nakamura (1981, Econometrica) によって、Durbin
(1954, Review of the International Statistical Institute) や Wu (1973, Econometrica) の検
定と同等であることが証明されている。
モデルは
yi = Xi′ β + ui
である。検定する仮説は
{
H0 :
H1 :
E(ui Xi ) = 0
E(ui Xi ) ̸= 0
である。
検定の基本的なアイデアは、OLS 推定量と 2SLS 推定量を比べることである。OLS 推定
量は、Xi が外生なら一致性がある。しかし、Xi が内生なら一致性はない。一方で、2SLS
推定量は、どちらの場合でも一致性がある。つまり、Xi が外生であるという帰無仮説のも
とでは、この二つの推定量は同じような値をとるはずだであるが、対立仮説のもとでは、大
きく違ってくるはずである。
Hausman 検定統計量は、次の式で与えられる。
n(βˆ2SLS − βˆOLS )′ (Vˆβˆ2SLS −βˆOLS )−1 (βˆ2SLS − βˆOLS ).
(16)
分散均一性を仮定すると、Vˆβˆ2SLS −βˆOLS = Vˆ2SLS − VˆOLS となり、この式は色々な文献に出
ているため有名であるが、これは、分散均一性を仮定しないと使えないことに注意するこ
と。帰無仮説のもとで、この統計量は、χ2 (k) 分布に収束する (なお、k は Xi と Zi のうち
異なる要素の数である)。
• なぜこの検定をするのかというと、OLS のほうが分散が小さいため、もしできるなら、
OLS の方を使いたいからである。
• しかし、一方で、Hausman 検定の結果によって使う推定量を変えるというのは、問題
を起こす可能性がある。Guggenberger (2010) を参照。
この講義では、Hausman 検定の理論は、分散均一で、かつ操作変数の数と説明変数の数
が同じであり、操作変数と説明変数は全て異なっているという仮定のもとで、議論する。よ
り一般的な状況での Hausman 検定を議論することは可能である。
以下の仮定をおく。
1. yi = Xi′ β + ui
2. E(Zi Xi′ ) と E(Xi Xi′ ) はフルランクである。
3. E(ui |Xi , Zi ) = 0
7
4. 変数は全て、4 次までのモーメントを持つ。
5. E(u2i |Xi , Zi ) = σ 2
なお条件 3 が帰無仮説に対応する。また条件 5 は分散均一の仮定である。
定理 3. 以上の仮定のもとで、
βˆOLS − βˆIV →d N (0, VIV − VOLS ),
(17)
ただし、
VIV = σ 2 (E(Zi Xi′ ))−1 E(Zi Zi′ )(E(Xi Zi′ ))−1 ,
VOLS = σ 2 (E(Xi Xi′ ))−1 .
従って、VˆIV と VˆOLS をそれぞれ VIV と VOLS の一致推定量とすると、
n(βˆOLS − βˆIV )′ (VˆIV − VˆOLS )−1 (βˆOLS − βˆIV ) →d χ2 (k)
(18)
が成り立つ。さらに、仮定 4 が誤りで、E(ui |Zi ) = 0 かつ E(Xi ui ) ̸= 0 ならば、VˆIV − VˆOLS
が正値定符号行列に収束するという仮定のもとで、
n(βˆOLS − βˆIV )′ (VˆIV − VˆOLS )−1 (βˆOLS − βˆIV ) →p ∞
(19)
(証明)
βˆOLS − βˆIV は
(
)−1
( n
)−1 
]
n
n [
∑
∑
∑
√
1
1
1
X
i
′
′
ˆ
ˆ
√
ui
Xi Xi
,−
Z i Xi
n(βOLS − βIV ) = 
Zi
n
n
n
i=1
i=1
i=1
である。まず帰無仮説 H0 が正しい場合を考える。Lindeberg=Levi の中心極限定理より
1 ∑
√
n
n
i=1
[
Xi
Zi
]
(
(
))
E(Xi Xi′ ) E(Xi Zi′ )
2
ui →d N 0, σ
E(Zi Xi′ ) E(Zi Zi′ )
であり、また、大数の法則より
(
)−1
( n
)−1 
n
∑
∑
]
1
1
p [

 →p →
,−
(E(Xi Xi′ ))−1 , −(E(Zi Xi′ ))−1
Xi Xi′
Zi Xi′
n
n
i=1
i=1
である。これらを用いて (17) が成り立つ。従って、(18) も従う。
次に、H1 が正しくて E(Xi ui ) ̸= 0 であるとき、Lindeberg-Levi の中心極限定理より
1 ∑
√
n
n
i=1
[
Xi
Zi
]
)
( √
]
n [
1 ∑ Xi ui − E(Xi ui )
nE(Xi ui )
=√
ui −
= Op (1)
0
Zi ui
n
i=1
なので (19) が得られる。(証明終)
1. 一般に、二つの推定量 θˆ1 , θˆ2 があって、
• θˆ1 は H0 と H1 のどちらが正しい時も一致性をもち漸近正規であるが、効率性は
ない。
8
• θˆ2 は H0 が正しい時には一致性をもち漸近正規で効率的であるが、H1 が正しい
時には一致性がない
という場合、上と同様の形で θˆ2 − θˆ1 の二次形式によって検定統計量を構成し、H0 vs
H1 の検定を行うことができる。このタイプの統計量を総称してハウスマン検定とい
うこともある。
2. 二つの推定量の差の分散が、分散の差になっているのは、OLS が効率的な推定量であ
ることによる。一般に θˆ2 が有効な場合、θˆ2 と θˆ1 − θˆ2 は無相関になる。この性質は、
統計学の他の問題でも使われる重要なもので、経済学でも同じような性質を使用する
ことがある。
2.6
2.6.1
操作変数が適切かどうか調べる
操作変数の関連性
操作変数は、関連性の条件を満たす必要がある。しかし、これまでの研究で分かってきたこ
とは、操作変数は、単に関連性を持つだけでなく、十分に「強い」関連性を持つべきである
ということである。
弱い操作変数の問題 弱い操作変数とは、内生変数との相関が (ゼロでなくとも) 弱い操作
変数のことである。なぜ、弱い操作変数は問題になるのか。操作変数も回帰変数も 1 つの場
合の推定量の式をみると
E(Zi ui )
E(Zi Yi )
=β+
βˆ2SLS →p
E(Zi Xi )
E(Zi Xi )
となり、もし、E(Zi Xi ) = 0 なら、この確率極限は、うまく定義できない。それでは、操作
変数はどれほど強ければよいのだろうか。
内生変数が一つの場合に、操作変数が弱いかどうかを調べる方法。
• 一段階目の回帰で、操作変数の係数が0であるという帰無仮説を検定する。つまり、
Xi = π1′ Zi + π2′ Xi + vi
(1)
(2)
(20)
という式を OLS で推定し、π1 = 0 という帰無仮説を検定する。この F 検定統計量が
10 以上であれば、操作変数は十分に強いといえる (Stock and Yogo (2005))。 操作変数が弱いならどうしたらよいのか?
• 操作変数が弱くても比較的うまくいく推定量を使う。多くの推定量が提唱されている。
有名なものとしては、制限情報最尤推定量 (LIML) がある。
• 操作変数が弱いと、推定は難しいが、その場合でも、使用可能な、検定統計量は存在
する。有名なところでは、Anderson-Rubin (1949) 統計量や、Kleibergen (2002) 統計
量などがある。
ただしこれらの方法については、この授業では取り扱わない。
2.6.2
操作変数の外生性
この仮定は、過不足なく識別されているときには、検定することができない。
しかし、過剰識別の場合には、検定をすることができる。ただし、すべての操作変数の
外生性を検定をすることはできず、推定する係数の数だけの操作変数は外生であるという仮
定の下で、それ以外の操作変数の外生性を検定することができる。したがって、これは、過
剰識別検定と呼ばれる。
9
• 基本的なアイデアは、u
ˆi と、Zi の相関を調べることである。
• 次の検定統計量を使用する。これは J 検定統計量と呼ばれる。
( n
)′ ( n
)−1 ( n
)
∑
1∑
1∑ 2
1
n
u
ˆ i Zi
u
ˆi Zi Zi′
u
ˆ i Zi
n
n
n
i=1
i=1
i=1
• J 検定統計量は、帰無仮説の元で、χ2m−k に分布収束する。
• 注意点は、自由度が m − k であることである。これは、k 個の操作変数は推定のため
に使われており、そのほかの操作変数の外生性しか検定できないためである。なお、
棄却したときに、どの操作変数が内生であるかは、追加的な情報がない限り判断でき
ない。
• 証明は、より一般的な状況化での GMM 推定量を議論する際に、議論する。
10