7.1 ブートストラップとは

平成 26 年度 ミクロ計量経済学
講義ノート 7 ブートストラップ
このノートでは、ブートスラップによる統計量の分布を近似する方法を解説する。統計量
の分布を近似することは、検定や母数の信頼区間を求める上で、重要な作業である。最もよ
く使用されている近似法は、漸近分布によるものである。しかし、ブートストラップによっ
て、漸近分布の導出が難しい場合での近似が可能になることもあり、また漸近分布が導出で
きる場合でもさらに精度の高い近似ができることが知られている。ブートストラップの近似
もその理論的背景は漸近理論によるものであるが、実際の使用上は漸近分布による近似と異
なり、コンピューターを用いたシミュレーションを行う。こうしたコンピューターの計算能
力に依存する方法は、近年の実証研究においてますます重要性を増しており、その手法を正
しく理解することは、研究者にとって不可欠となっている。
7.1
ブートストラップとは
はじめに、統計量の定義を確認する。あるデータ {zi }, i = 1, . . . , n があり、その分布を
F とする。そのデータから、Tn という統計量を計算する。つまり、Tn は zi と F の関数と
して書ける。
Tn = Tn (z1 , . . . , zn , F ).
(1)
統計量 Tn は F に依存することもある。例えば、t 検定統計量には、真の母数の値が入って
いるので、F に依存する。
検定や信頼区間の構築に当たっては、統計量 Tn の分布の近似が必要となる。なお、正確
な分布の導出には、非常に強い条件が必要となる場合が多く、しかも正確な分布は実用的で
ないほどに複雑になる場合も多い。近似の方法は、主に二つある。
1. 漸近分布
2. ブートストラップ
これらの近似は次のように定義される。Tn の分布を Gn とする。
Gn (u) = Pr(Tn ≤ u|F ).
(2)
漸近分布 G は、Gn の極限である。
G(u) = lim Gn (u).
n→∞
(3)
一方ブートストラップとは、F の近似あるいは推定量 Fn を使用して
G∗n (u) = Pr(Tn ≤ u|Fn )
(4)
を Tn の分布の近似として利用するものである。どのような Fn を利用するかによって、い
ろいろなブートスラップの種類がある。
• なお、ブートストラップというと、コンピューターシミュレーションによる方法を指
すとイメージがあり、実際に行う作業からすると、そのイメージは間違いではないが、
厳密な意味でのブートストラップの定義からすると誤りである。ブートストラップは、
上記のように、単にデータの分布を何らかの推定量で置き換えて、統計量の分布を近
似する方法であり、コンピューターシミュレーションはそのための一手段に過ぎない。
1
7.2
ノンパラメトリックブートストラップ
ブートストラップの方法のうちで最もよく使用されているのは、ノンパラメトリックブー
トストラップと呼ばれる方法である。ノンパラメトリックブートストラップでは、Fn とし
て経験分布を使用する。経験分布とは、観測されたデータの分布である。数学上は、
1∑
1(zi ≤ u)
Fˆn (u) =
n
n
(5)
i=1
と定義する。
例
簡単な数値例をあげる。仮にデータが {1, 1, 2} であったとする。この経験分布は、
Pr(x = 1) = 2/3,
Pr(x = 2) = 1/3
(6)
である。さて、標本平均のブートストラップ分布を求めてみよう。上記の経験分布の下での
標本平均の分布が、ノンパラメトリックブートストラップ分布である。その分布は簡単な計
算の下で、
( )3
2
8
¯
Pr(X = 1) =
(7)
= ,
3
27
(
)
( )2
4
2
1
12
4
¯
Pr X =
= 3
=
= ,
(8)
3
3
3
27
9
(
)
( )
5
2 1 2
2
6
¯
Pr X =
= 3
= ,
(9)
=
3
3 3
27
9
( )3
(
)
1
1
¯
Pr X = 2 =
(10)
=
3
27
と求まる。
再抽出法 ブートストラップ分布の計算は、通常はシミュレーションによって行う。ノンパ
ラメトリックブートストラップによる近似は、上の例のように原理的には、厳密に求めるこ
とが可能である。しかし、データ数が多い場合などでは、そのような計算は労力がかかりす
ぎて、実用的ではない。しかし、モンテカルロシミュレーションによって、求める分布をコ
ンピューターを使用することにより、比較的簡単に求めることができる。
1. {zi }, i = 1, . . . , n の中から一つ zi を、確率 1/n で抽出する。
2. 上の作業を n 回繰り返す。{zi∗ }, i = 1, . . . , n という新しいデータセットを得る。
3. Tn∗ = Tn (z1∗ . . . , zn∗ , Fˆn ) を計算する。
4. 上の 1-3 を B 回計算する。B 個の統計量の組、Tn∗ (b), b = 1. . . . , B を得る。
5. Tn∗ (b), b = 1. . . . , B の経験分布をブートストラップ分布の近似として得る。
B はできるだけ大きく取るほうが望ましい。B = 1000 ぐらいあれば十分と思われる。統
計量の計算に時間がかかる場合などは、B = 50 ぐらいで済ませる場合もある。B の選び方
については、Andrews and Buchinsky (2000) が方法を提唱している。
2
7.3
ブートストラップによるバイアスと分散の推定
ブートストラップによるバイアスの推定を紹介する。θ を求める母数とし、θˆn をその推定
量とする。バイアスは、E(θˆn − θ) である。これをブートストラップによって求めてみよう。
Tn = θˆn − θ であるので、再抽出法によるバイアスの推定値は、
B
B
1 ∑ ∗
1 ∑ ˆ∗
¯
Tn (b) =
(θn (b) − θˆn ) = θˆn∗ − θˆn
B
B
b=1
(11)
b=1
である。なお、θ を θˆn で置き換えるのは、θˆn が Fn の下での θ の真の値であるからである。
θ は F の元での真値であり、一般に Fn の元での真値とは異なる。
ブートストラップによるバイアス修正推定量は、
¯
¯
θˆn − (θˆn∗ − θˆn ) = 2θˆn − θˆn∗
(12)
となる。
次に、ブートストラップ分散推定量を考える。これは、
B
1 ∑ ˆ∗
¯
(θn (b) − θˆn∗ )2
B
(13)
b=1
である。ブートストラップ標準誤差は、
B
1 ∑ ˆ∗
¯
(θn (b) − θˆn∗ )2
B
(14)
b=1
となる。ブートストラップ標準誤差は、解析的に標準誤差の計算をすることが難しい場合
(いくつもの段階を踏む推定方法や、構造モデルの推定量など) に良く使われている方法で
ある。
7.4
ブートストラップによる信頼区間の構築
信頼区間とは、ある確率で真のパラメーターを含む確率的な区間である。ここでは、θ0 が
スカラーである場合を考える。α を真の確率を含まない確率とすると、信頼区間は、Ln と
Un という次の性質を満たす統計量である。
1 − α = Pr(Ln ≤ θ ≤ Un ).
(15)
さて、信頼区間を Tn = θˆn − θ0 の分布から構築することを考える。Tn の分位点関数を
qn (α) とする。つまり α = Gn (qn (α)) を満たすものとして、qn (α) を定義する。このとき、
1 − α = Pr(qn (α/2) ≤ Tn ≤ qn (1 − α/2))
= Pr(θˆn − qn (1 − α/2) ≤ θ0 ≤ θˆn − qn (α/2))
(16)
(17)
であるので、
[θˆn − qn (1 − α/2), θˆn − qn (α/2)]
3
(18)
が信頼区間として使える。
分位点関数 qn をブートストラップで求めることにより、信頼区間を構築できる。つまり、
再抽出法によるなら、
α=
B
1 ∑ ˆ∗
1(θn (b) − θˆn ≤ qn∗ (α))
B
(19)
b=1
として、qn∗ という関数を求め、
[θˆn − qn∗ (1 − α/2), θˆn − qn∗ (α/2)]
(20)
がブートストラップ信頼区間となる。θˆn − θ0 でなく、θˆn を考え、そのブートストラップ分
布での分位点関数を q˜n∗ とするなら、
[2θˆn − q˜n∗ (1 − α/2), ˆ2θn − q˜n∗ (α/2)]
(21)
がブートストラップ信頼区間である。
• よく使われるが潜在的に問題のある方法は、信頼区間として、
[˜
qn∗ (α/2), q˜n∗ (1 − α/2)]
(22)
を使用するものである。この方法は、確率 1 − α で θˆn が入る区間を推定している。信
頼区間は、ある確率で θ0 が入る区間であり、θˆn が入る区間ではない。したがって、こ
の方法でえら得るものは、適切な信頼区間となるとは限らない。θˆn の分布が θ0 で対
称の場合などでは、この方法でも適切な信頼区間が得られるため、θˆn が漸近正規性を
持つ場合などでは、漸近的に正当化可能である。しかし、一般にその保証はなく、ま
たブートストラップの手法の自然な適用でもない。問題は、この方法が実際には良く
使われている、もしかすると上で紹介した適切な信頼区間よりも、良く使われている
可能性があることである。
パーセンタイル t 信頼区間 上の方法では、θˆn − θ0 の分布を利用したが、理論的には、t 検
定統計量の分布を利用したほうが、より正確なブートストラップ信頼区間が得られることが
分かっている。その理論は次の節で紹介する。ここでは、信頼区間の導出を説明する。統計
量として、t 統計量、Tn = (θˆn − θ0 )/s(θˆn ) を考える。s(θˆn ) は θˆn の標準誤差である。Tn の
ブートストラップ分布での分位点関数を qn∗ とする。つまり、再抽出法によるなら、
B
1 ∑
α=
1
B
b=1
(
θˆn∗ (b) − θˆn
≤ qn∗ (α)
s(θˆ∗ (b))
)
(23)
n
として定義する。標準誤差もブートストラップのもとで計算することが肝要である。信頼区
間は、
[θˆn − s(θˆn )qn∗ (1 − α/2), θˆn − s(θˆn )qn∗ (α/2)]
として求めることができる。この信頼区間をパーセンタイル t 信頼区間と呼ぶ。
4
(24)
対称パーセンタイル t 信頼区間 さらに理論的に優れている信頼区間は、Tn = |θˆn −θ0 |/s(θˆn )
の分布を利用することで得られる。Tn のブートストラップ分布での分位点関数を qn∗ とし、
[θˆn − s(θˆn )qn∗ (1 − α), θˆn + s(θˆn )qn∗ (1 − α)]
(25)
として、信頼区間を構築する。この信頼区間を対称パーセンタイル t 信頼区間と呼ぶ。
7.5
エッジワース展開によるブートストラップ法の理論
ここでは、ブートストラップの理論を簡単に紹介する。まず、エッジワース展開を説明す
る。エッジワース展開は、中心極限定理をさらに高次まで拡張したもので、その証明も中心
極限定理の拡張といえる。
エッジワース展開 これは、統計量の分布の高次漸近展開の一種である。統計量 Tn は漸近
正規であるとする。つまり漸近分散を σ 2 として
Tn →d N (0, σ 2 )
であると仮定する。Tn の分布を Gn (u, F ) とかく。このとき、ある条件のもとで、
(
)
(u)
1
1
1
√
Gn (u, F ) = Φ
+ √ g1 (u, F ) + g2 (u, F ) + O
σ
n
n
n n
(26)
(27)
となる。ここで、Φ(·) は標準正規分布関数、g1 (·, ·) は偶関数、g2 (·, ·) は奇関数である。この
Gn (u, F ) の展開をエッジワース展開と呼ぶ。
エッジワース展開の証明の仕方 エッジワース展開の証明は、中心極限定理の証明と同じよ
うに、特性関数を使用して行う。ここでは、簡単のために {zi }, i = 1, . . . , n がスカラーの
√
列で、i.i.d. であり、E(zi ) = 0 かつ E(zi2 ) = 1 の場合を考え、Tn = n¯
z とする。また、上
の展開の g1 の導出だけを考える。g2 の導出も同様にできるが計算がさらに複雑になる。
最初に特性関数の展開を行う。Tn の特性関数は、
ψ(t) = E(eitTn )
(28)
である。特性関数と分布関数は一対一に対応するため、特性関数の近似を与えれば、分布関
数の近似を得ることができる。ψz を z の分布の特性関数とすると、
(
(
)) ( (
(
)))n
n
1 ∑
t
ψ(t) = E exp it √
zi
= E exp i √ zi
(29)
n
n
i=1
))n
(
(
))
( (
t
t
= exp n log ψz √
(30)
=
ψz √
n
n
√
と書ける。これを t/ n = 0 の周りでテーラー展開すると、
(
)
t
n log ψz √
(31)
n
(
)(
)
ψz′ (0) t
1 ψz′′ (0) (ψz′ (0))2
t 2
√ +n
√
= n log ψz (0) + n
−
(32)
ψz (0) n
2 ψz (0) (ψz (0))2
n
( (
(
)(
)
) )
ψz′ (0)ψz′′ (0) (ψz′ (0))3
t 3
1 ψz′′′ (0)
t 4
√
−3
+
+n
+O n √
(33)
6 ψz (0)
(ψz (0))2
(ψz (0))3
n
n
5
ここで、ψz (0) = 1、ψz′ (0) = iE(zi ) = 0、ψz′′ (0) = i2 E(zi2 ) = −1 であり、E(zi3 ) = µ3 と定
義すると、ψz′′′ (0) = i3 E(zi3 ) = −iµ3 である。よって、
(
n log ψz
t
√
n
)
1
i
t3
= − t2 − µ 3 √ + O
2
6
n
(
t4
n
)
(34)
となり、ψ(t) の近似は、
( 2)
(
( 4 ))
t
t3
i
t
ψ(t) = exp −
exp − µ3 √ + O
2
6
n
n
( 2)(
( ))
3
t
i
t
1
= exp −
1 − µ3 √ + O
2
6
n
n
(35)
(36)
として与えられる。なお、二つ目の等式では、exp のテーラー展開を使用している。
この特性関数の近似から、密度関数を求める。これには、ラブラス逆変換の一種を使用す
る。g(u) を密度関数とすると
( ))
(
∫
∫
1
1
i
1
t3
−iut
−iut −t2 /2
e
ψ(t)dt =
e
e
1 − µ3 √ + O
dt
g(u) =
2π
2π
6
n
n
( )
∫
∫
1
t3
1
1
−iut −t2 /2
−iut −t2 /2 i
=
µ3 √ dt + O
e
e
dt −
e
e
2π
2π
6
n
n
( )
1 µ3
1
= ϕ(u) − √ ϕ′′′ (u) + O
6 n
n
となる。ϕ(·) は標準正規密度関数である。
この密度関数を積分することにより、分布関数の近似が得られる。つまり、
( )
∫ u
1 µ3 ′′
1
Gn (u, F ) =
g(x)dx = Φ(u) − √ ϕ (u) + O
6 n
n
−∞
( )
1 µ3
1
2
= Φ(u) + √ (1 − u )ϕ(u) + O
6 n
n
(37)
(38)
(39)
(40)
(41)
となる。g1 (u, F ) = µ3 (1 − u2 )ϕ(u)/6 は偶関数である。
ブートストラップ信頼区間の精度 ブートストラップ法による近似は、漸近理論による解析
的なやり方と比べて、精度がよい近似となっているかどうかが、焦点となる。
まず、漸近理論による方法であるが、これは θˆn − θ0 の分布によるにせよ、t 統計量によ
√
るせよ、エッジワース展開の最初の項のみを用いて行うため、近似の精度は 1/ n となる。
次に、θˆn − θ0 の分布に基づいたブートストラップ信頼区間を考える。以下では漸近分布
√
による近似と同じ精度であることを示す。Tn = n(θˆn − θ0 ) が漸近正規であるとすると、
ブートストラップ分布は、
)
(
(u)
1
(42)
Gn (u, Fn ) = Φ
+ Op √
σ
ˆ
n
となる。ここで、σ
ˆ はブートストラップ分布での分散である。したがって、
(
)
(
)
(
)
(u)
(u)
1
1
1
Gn (u, Fn ) − Gn (u, F ) = Φ
−Φ
+O √
+ Op √
= Op √
σ
ˆ
σ
n
n
n
6
(43)
√
となる。なお、等式の間にある O(1/ n) に p の添字がないのは、これが Gn (u, F ) と正規
分布関数の差であり、Gn (u, F ) には乱数の要素はないからである。また、通常は、σ
ˆ−σ =
√
Op (1/ n) となるため上の二つ目の等式が成り立つ。よって、この方法では、漸近分布を利
用するのとおなじ精度の信頼区間が得られる。ブートストラップを使用する理論的な利点は
ないが、それでも漸近分散の計算を避けることができるため、ブートストラップは有用であ
る可能性がある。
次に、パーセンタイル t 信頼区間を考える。これは漸近分布による近似よりも精度が良く
なることを示す。このとき、Tn は t 統計量のため、Tn →d N (0, 1) である。つまり、
( )
1
1
Gn (u, F ) = Φ (u) + √ g1 (u, F ) + O
(44)
n
n
かつ、
( )
1
1
Gn (u, Fn ) = Φ (u) + √ g1 (u, Fn ) + Op
(45)
n
n
√
が得られる。ここで、Fn の F への収束速度は n であるので、g1 (u, F ) − g1 (u, Fn ) =
√
Op (1/ n) となり、
( )
1
Gn (u, Fn ) − Gn (u, F ) = Op
(46)
n
となる。したがって、パーセンタイル t 信頼区間は、漸近分布によるものよりも、精度が
高い。
さらに、対称パーセンタイル t 信頼区間を考え、さらに精度の高い近似となることを示す。
¯
Φ(·) を
¯
Φ(u)
= Φ(u) − Φ(−u) = 2Φ(u) − 1
(47)
¯ となる。さらにエッジワー
とすると、Tn は t 統計量の絶対値のため、Tn の漸近分布は Φ(·)
ス展開により、
(
(
))
1
1
1
√
(48)
Gn (u, F ) =
Φ (u) + √ g1 (u, F ) + g2 (u, F ) + O
n
n
n n
(
))
(
1
1
1
√
− Φ (−u) + √ g1 (−u, F ) + g2 (−u, F ) + O
(49)
n
n
n n
)
(
2
1
¯
√
= Φ(u)
+ g2 (u, F ) + O
(50)
n
n n
となる。最後の等式は、g1 が偶関数であり、g2 が奇関数であることより従う。同様に、ブー
トストラップ分布のエッジワース展開をすると、
(
)
2
1
¯
√
Gn (u, Fn ) = Φ(u) + g2 (u, Fn ) + Op
(51)
n
n n
√
となる。Fn の収束速度が n のため、
(
)
1
√
Gn (u, Fn ) − Gn (u, F ) = Op
(52)
n n
となり、対称パーセンタイル t 信頼区間は、さらに高い精度の信頼区間となっている。
7
7.6
他のブートストラップ法とサブサンプリング
ブートストラップ法にはいろいろな種類がある。ここではノンパラメトリックブートスト
ラップ法を紹介したが、主なものとしては、以下のようなものがある。まず、Fn として、経
験分布でなく、パラメトリックに推定した分布を使用する。パラメトリックブートストラッ
プがある。また回帰モデルなどで使われるワイルドブートストラップもよく知られている。
これは、
yi = g(xi , β) + ei
(53)
という回帰式のために E(ei |xi ) = 0 という条件をブートストラップ分布でも成立するよう
に、eˆi を回帰残差として、
(
(
√ ) )
√
5−1
1+ 5
∗
√ ,
Pr ei =
eˆi
=
(54)
2
2 5
(
(
√ ) )
√
5+1
1− 5
∗
√
eˆi
=
Pr ei =
(55)
2
2 5
という分布を考えるものである。この分布の下で、E(e∗i |xi ) = 0, E((e∗i )2 |xi ) = eˆ2i , E((e∗i )3 |xi ) =
eˆ3i がなりたつ。また時系列分析では、各観測点ごとに再抽出するのではなく、観測点の列を
まとめて抽出するブロックブートストラップ法が使われる。
また、作業はブートストラップと似ているが、その哲学や理論が大きく異なる方法として
サブサンプリングがある。{zi }, i = 1, . . . , n を標本とする。ここから、大きさ b の標本を抽
出する。そのような標本は
( )
n
q=
(56)
b
個ある。分布を近似したい統計量を τn (θˆn − θ0 ) とする。θˆn を各部分標本で計算しなおした
ものを θˆn,b,r とする。そして、分布を
Ln,b (u) =
q
)
1∑ ( ˆ
1 τb (θn,b,r − θˆn ) ≤ u
q
(57)
r=1
で近似する。これがサブサンプリング法である。
定理 1. τn (θˆn − θ0 ) →d J(u) であるとする。この時、b → ∞, b/n → 0 かつ τb /τn → 0 で
あれば、Ln,b (u) − J(u) →p 0 である。
定理にあるように、サブサンプリング法は、統計量が漸近分布をもてば、近似が正当化で
き、これは非常に緩い条件のため、応用範囲が非常に広い。このため、漸近分布の解析的表
現が難しい場合でブートストラップも使えない場合などでは、サブサンプリング法を用いて
統計的推測を行うことが近年盛んになってきている。
7.7
さらなる学習のために
このノートの作成に当たり、特に参考にしたのは、Hansen (2013) の 10 章である。また、
Horowitz (2001) は、ブートストラップ法が使用できない場合や、適用に当たって変更が必
要となる状況についての解説が多くあり、一読に値する。
8
Hall (1992) はブートストラップの理論の学習によく参考にされる書物であるが、読むの
は大変である。サブサンプリングは Politis, Romano and Wolf (1999) が読みやすく、ま
た理論的に高度なところまで解説している。またサブサンプリング法については、近年そ
の方法の適用可能性について計量経済学界で研究が進んでいる。たとえば、Andrews and
Guggenberger (2009) などを参照。
参考文献
[1] D. W. K. Andrews and M. Buchinsky. A three-step method for choosing the number of bootstrap repetittions. Econometrica, 68(1):23–51, 2000.
[2] D. W. K. Andrews and P. Guggenberger. Hybrid and size-corrected subsampling methods.
Econometrica, 77(3):721–762, 2009.
[3] P. Hall. The Bootstrap and Edgeworth Expansion. Springer-Verlag, 1992.
[4] B. E. Hansen. Econometrics. http://www.ssc.wisc.edu/~bhansen/econometrics/, 2013.
[5] J. L. Horowitz. The bootstrap. In J. J. Heckman and E. Leamer, editors, Handbook of Econometrics, volume 5, chapter 52, pages 3159–3228. Elsevier, 2001.
[6] D. N. Politis, J. P. Romano, and M. Wolf. Subsampling. Springer, 1999.
9