平成 26 年度 ミクロ計量経済学 講義ノート 7 ブートストラップ このノートでは、ブートスラップによる統計量の分布を近似する方法を解説する。統計量 の分布を近似することは、検定や母数の信頼区間を求める上で、重要な作業である。最もよ く使用されている近似法は、漸近分布によるものである。しかし、ブートストラップによっ て、漸近分布の導出が難しい場合での近似が可能になることもあり、また漸近分布が導出で きる場合でもさらに精度の高い近似ができることが知られている。ブートストラップの近似 もその理論的背景は漸近理論によるものであるが、実際の使用上は漸近分布による近似と異 なり、コンピューターを用いたシミュレーションを行う。こうしたコンピューターの計算能 力に依存する方法は、近年の実証研究においてますます重要性を増しており、その手法を正 しく理解することは、研究者にとって不可欠となっている。 7.1 ブートストラップとは はじめに、統計量の定義を確認する。あるデータ {zi }, i = 1, . . . , n があり、その分布を F とする。そのデータから、Tn という統計量を計算する。つまり、Tn は zi と F の関数と して書ける。 Tn = Tn (z1 , . . . , zn , F ). (1) 統計量 Tn は F に依存することもある。例えば、t 検定統計量には、真の母数の値が入って いるので、F に依存する。 検定や信頼区間の構築に当たっては、統計量 Tn の分布の近似が必要となる。なお、正確 な分布の導出には、非常に強い条件が必要となる場合が多く、しかも正確な分布は実用的で ないほどに複雑になる場合も多い。近似の方法は、主に二つある。 1. 漸近分布 2. ブートストラップ これらの近似は次のように定義される。Tn の分布を Gn とする。 Gn (u) = Pr(Tn ≤ u|F ). (2) 漸近分布 G は、Gn の極限である。 G(u) = lim Gn (u). n→∞ (3) 一方ブートストラップとは、F の近似あるいは推定量 Fn を使用して G∗n (u) = Pr(Tn ≤ u|Fn ) (4) を Tn の分布の近似として利用するものである。どのような Fn を利用するかによって、い ろいろなブートスラップの種類がある。 • なお、ブートストラップというと、コンピューターシミュレーションによる方法を指 すとイメージがあり、実際に行う作業からすると、そのイメージは間違いではないが、 厳密な意味でのブートストラップの定義からすると誤りである。ブートストラップは、 上記のように、単にデータの分布を何らかの推定量で置き換えて、統計量の分布を近 似する方法であり、コンピューターシミュレーションはそのための一手段に過ぎない。 1 7.2 ノンパラメトリックブートストラップ ブートストラップの方法のうちで最もよく使用されているのは、ノンパラメトリックブー トストラップと呼ばれる方法である。ノンパラメトリックブートストラップでは、Fn とし て経験分布を使用する。経験分布とは、観測されたデータの分布である。数学上は、 1∑ 1(zi ≤ u) Fˆn (u) = n n (5) i=1 と定義する。 例 簡単な数値例をあげる。仮にデータが {1, 1, 2} であったとする。この経験分布は、 Pr(x = 1) = 2/3, Pr(x = 2) = 1/3 (6) である。さて、標本平均のブートストラップ分布を求めてみよう。上記の経験分布の下での 標本平均の分布が、ノンパラメトリックブートストラップ分布である。その分布は簡単な計 算の下で、 ( )3 2 8 ¯ Pr(X = 1) = (7) = , 3 27 ( ) ( )2 4 2 1 12 4 ¯ Pr X = = 3 = = , (8) 3 3 3 27 9 ( ) ( ) 5 2 1 2 2 6 ¯ Pr X = = 3 = , (9) = 3 3 3 27 9 ( )3 ( ) 1 1 ¯ Pr X = 2 = (10) = 3 27 と求まる。 再抽出法 ブートストラップ分布の計算は、通常はシミュレーションによって行う。ノンパ ラメトリックブートストラップによる近似は、上の例のように原理的には、厳密に求めるこ とが可能である。しかし、データ数が多い場合などでは、そのような計算は労力がかかりす ぎて、実用的ではない。しかし、モンテカルロシミュレーションによって、求める分布をコ ンピューターを使用することにより、比較的簡単に求めることができる。 1. {zi }, i = 1, . . . , n の中から一つ zi を、確率 1/n で抽出する。 2. 上の作業を n 回繰り返す。{zi∗ }, i = 1, . . . , n という新しいデータセットを得る。 3. Tn∗ = Tn (z1∗ . . . , zn∗ , Fˆn ) を計算する。 4. 上の 1-3 を B 回計算する。B 個の統計量の組、Tn∗ (b), b = 1. . . . , B を得る。 5. Tn∗ (b), b = 1. . . . , B の経験分布をブートストラップ分布の近似として得る。 B はできるだけ大きく取るほうが望ましい。B = 1000 ぐらいあれば十分と思われる。統 計量の計算に時間がかかる場合などは、B = 50 ぐらいで済ませる場合もある。B の選び方 については、Andrews and Buchinsky (2000) が方法を提唱している。 2 7.3 ブートストラップによるバイアスと分散の推定 ブートストラップによるバイアスの推定を紹介する。θ を求める母数とし、θˆn をその推定 量とする。バイアスは、E(θˆn − θ) である。これをブートストラップによって求めてみよう。 Tn = θˆn − θ であるので、再抽出法によるバイアスの推定値は、 B B 1 ∑ ∗ 1 ∑ ˆ∗ ¯ Tn (b) = (θn (b) − θˆn ) = θˆn∗ − θˆn B B b=1 (11) b=1 である。なお、θ を θˆn で置き換えるのは、θˆn が Fn の下での θ の真の値であるからである。 θ は F の元での真値であり、一般に Fn の元での真値とは異なる。 ブートストラップによるバイアス修正推定量は、 ¯ ¯ θˆn − (θˆn∗ − θˆn ) = 2θˆn − θˆn∗ (12) となる。 次に、ブートストラップ分散推定量を考える。これは、 B 1 ∑ ˆ∗ ¯ (θn (b) − θˆn∗ )2 B (13) b=1 である。ブートストラップ標準誤差は、 B 1 ∑ ˆ∗ ¯ (θn (b) − θˆn∗ )2 B (14) b=1 となる。ブートストラップ標準誤差は、解析的に標準誤差の計算をすることが難しい場合 (いくつもの段階を踏む推定方法や、構造モデルの推定量など) に良く使われている方法で ある。 7.4 ブートストラップによる信頼区間の構築 信頼区間とは、ある確率で真のパラメーターを含む確率的な区間である。ここでは、θ0 が スカラーである場合を考える。α を真の確率を含まない確率とすると、信頼区間は、Ln と Un という次の性質を満たす統計量である。 1 − α = Pr(Ln ≤ θ ≤ Un ). (15) さて、信頼区間を Tn = θˆn − θ0 の分布から構築することを考える。Tn の分位点関数を qn (α) とする。つまり α = Gn (qn (α)) を満たすものとして、qn (α) を定義する。このとき、 1 − α = Pr(qn (α/2) ≤ Tn ≤ qn (1 − α/2)) = Pr(θˆn − qn (1 − α/2) ≤ θ0 ≤ θˆn − qn (α/2)) (16) (17) であるので、 [θˆn − qn (1 − α/2), θˆn − qn (α/2)] 3 (18) が信頼区間として使える。 分位点関数 qn をブートストラップで求めることにより、信頼区間を構築できる。つまり、 再抽出法によるなら、 α= B 1 ∑ ˆ∗ 1(θn (b) − θˆn ≤ qn∗ (α)) B (19) b=1 として、qn∗ という関数を求め、 [θˆn − qn∗ (1 − α/2), θˆn − qn∗ (α/2)] (20) がブートストラップ信頼区間となる。θˆn − θ0 でなく、θˆn を考え、そのブートストラップ分 布での分位点関数を q˜n∗ とするなら、 [2θˆn − q˜n∗ (1 − α/2), ˆ2θn − q˜n∗ (α/2)] (21) がブートストラップ信頼区間である。 • よく使われるが潜在的に問題のある方法は、信頼区間として、 [˜ qn∗ (α/2), q˜n∗ (1 − α/2)] (22) を使用するものである。この方法は、確率 1 − α で θˆn が入る区間を推定している。信 頼区間は、ある確率で θ0 が入る区間であり、θˆn が入る区間ではない。したがって、こ の方法でえら得るものは、適切な信頼区間となるとは限らない。θˆn の分布が θ0 で対 称の場合などでは、この方法でも適切な信頼区間が得られるため、θˆn が漸近正規性を 持つ場合などでは、漸近的に正当化可能である。しかし、一般にその保証はなく、ま たブートストラップの手法の自然な適用でもない。問題は、この方法が実際には良く 使われている、もしかすると上で紹介した適切な信頼区間よりも、良く使われている 可能性があることである。 パーセンタイル t 信頼区間 上の方法では、θˆn − θ0 の分布を利用したが、理論的には、t 検 定統計量の分布を利用したほうが、より正確なブートストラップ信頼区間が得られることが 分かっている。その理論は次の節で紹介する。ここでは、信頼区間の導出を説明する。統計 量として、t 統計量、Tn = (θˆn − θ0 )/s(θˆn ) を考える。s(θˆn ) は θˆn の標準誤差である。Tn の ブートストラップ分布での分位点関数を qn∗ とする。つまり、再抽出法によるなら、 B 1 ∑ α= 1 B b=1 ( θˆn∗ (b) − θˆn ≤ qn∗ (α) s(θˆ∗ (b)) ) (23) n として定義する。標準誤差もブートストラップのもとで計算することが肝要である。信頼区 間は、 [θˆn − s(θˆn )qn∗ (1 − α/2), θˆn − s(θˆn )qn∗ (α/2)] として求めることができる。この信頼区間をパーセンタイル t 信頼区間と呼ぶ。 4 (24) 対称パーセンタイル t 信頼区間 さらに理論的に優れている信頼区間は、Tn = |θˆn −θ0 |/s(θˆn ) の分布を利用することで得られる。Tn のブートストラップ分布での分位点関数を qn∗ とし、 [θˆn − s(θˆn )qn∗ (1 − α), θˆn + s(θˆn )qn∗ (1 − α)] (25) として、信頼区間を構築する。この信頼区間を対称パーセンタイル t 信頼区間と呼ぶ。 7.5 エッジワース展開によるブートストラップ法の理論 ここでは、ブートストラップの理論を簡単に紹介する。まず、エッジワース展開を説明す る。エッジワース展開は、中心極限定理をさらに高次まで拡張したもので、その証明も中心 極限定理の拡張といえる。 エッジワース展開 これは、統計量の分布の高次漸近展開の一種である。統計量 Tn は漸近 正規であるとする。つまり漸近分散を σ 2 として Tn →d N (0, σ 2 ) であると仮定する。Tn の分布を Gn (u, F ) とかく。このとき、ある条件のもとで、 ( ) (u) 1 1 1 √ Gn (u, F ) = Φ + √ g1 (u, F ) + g2 (u, F ) + O σ n n n n (26) (27) となる。ここで、Φ(·) は標準正規分布関数、g1 (·, ·) は偶関数、g2 (·, ·) は奇関数である。この Gn (u, F ) の展開をエッジワース展開と呼ぶ。 エッジワース展開の証明の仕方 エッジワース展開の証明は、中心極限定理の証明と同じよ うに、特性関数を使用して行う。ここでは、簡単のために {zi }, i = 1, . . . , n がスカラーの √ 列で、i.i.d. であり、E(zi ) = 0 かつ E(zi2 ) = 1 の場合を考え、Tn = n¯ z とする。また、上 の展開の g1 の導出だけを考える。g2 の導出も同様にできるが計算がさらに複雑になる。 最初に特性関数の展開を行う。Tn の特性関数は、 ψ(t) = E(eitTn ) (28) である。特性関数と分布関数は一対一に対応するため、特性関数の近似を与えれば、分布関 数の近似を得ることができる。ψz を z の分布の特性関数とすると、 ( ( )) ( ( ( )))n n 1 ∑ t ψ(t) = E exp it √ zi = E exp i √ zi (29) n n i=1 ))n ( ( )) ( ( t t = exp n log ψz √ (30) = ψz √ n n √ と書ける。これを t/ n = 0 の周りでテーラー展開すると、 ( ) t n log ψz √ (31) n ( )( ) ψz′ (0) t 1 ψz′′ (0) (ψz′ (0))2 t 2 √ +n √ = n log ψz (0) + n − (32) ψz (0) n 2 ψz (0) (ψz (0))2 n ( ( ( )( ) ) ) ψz′ (0)ψz′′ (0) (ψz′ (0))3 t 3 1 ψz′′′ (0) t 4 √ −3 + +n +O n √ (33) 6 ψz (0) (ψz (0))2 (ψz (0))3 n n 5 ここで、ψz (0) = 1、ψz′ (0) = iE(zi ) = 0、ψz′′ (0) = i2 E(zi2 ) = −1 であり、E(zi3 ) = µ3 と定 義すると、ψz′′′ (0) = i3 E(zi3 ) = −iµ3 である。よって、 ( n log ψz t √ n ) 1 i t3 = − t2 − µ 3 √ + O 2 6 n ( t4 n ) (34) となり、ψ(t) の近似は、 ( 2) ( ( 4 )) t t3 i t ψ(t) = exp − exp − µ3 √ + O 2 6 n n ( 2)( ( )) 3 t i t 1 = exp − 1 − µ3 √ + O 2 6 n n (35) (36) として与えられる。なお、二つ目の等式では、exp のテーラー展開を使用している。 この特性関数の近似から、密度関数を求める。これには、ラブラス逆変換の一種を使用す る。g(u) を密度関数とすると ( )) ( ∫ ∫ 1 1 i 1 t3 −iut −iut −t2 /2 e ψ(t)dt = e e 1 − µ3 √ + O dt g(u) = 2π 2π 6 n n ( ) ∫ ∫ 1 t3 1 1 −iut −t2 /2 −iut −t2 /2 i = µ3 √ dt + O e e dt − e e 2π 2π 6 n n ( ) 1 µ3 1 = ϕ(u) − √ ϕ′′′ (u) + O 6 n n となる。ϕ(·) は標準正規密度関数である。 この密度関数を積分することにより、分布関数の近似が得られる。つまり、 ( ) ∫ u 1 µ3 ′′ 1 Gn (u, F ) = g(x)dx = Φ(u) − √ ϕ (u) + O 6 n n −∞ ( ) 1 µ3 1 2 = Φ(u) + √ (1 − u )ϕ(u) + O 6 n n (37) (38) (39) (40) (41) となる。g1 (u, F ) = µ3 (1 − u2 )ϕ(u)/6 は偶関数である。 ブートストラップ信頼区間の精度 ブートストラップ法による近似は、漸近理論による解析 的なやり方と比べて、精度がよい近似となっているかどうかが、焦点となる。 まず、漸近理論による方法であるが、これは θˆn − θ0 の分布によるにせよ、t 統計量によ √ るせよ、エッジワース展開の最初の項のみを用いて行うため、近似の精度は 1/ n となる。 次に、θˆn − θ0 の分布に基づいたブートストラップ信頼区間を考える。以下では漸近分布 √ による近似と同じ精度であることを示す。Tn = n(θˆn − θ0 ) が漸近正規であるとすると、 ブートストラップ分布は、 ) ( (u) 1 (42) Gn (u, Fn ) = Φ + Op √ σ ˆ n となる。ここで、σ ˆ はブートストラップ分布での分散である。したがって、 ( ) ( ) ( ) (u) (u) 1 1 1 Gn (u, Fn ) − Gn (u, F ) = Φ −Φ +O √ + Op √ = Op √ σ ˆ σ n n n 6 (43) √ となる。なお、等式の間にある O(1/ n) に p の添字がないのは、これが Gn (u, F ) と正規 分布関数の差であり、Gn (u, F ) には乱数の要素はないからである。また、通常は、σ ˆ−σ = √ Op (1/ n) となるため上の二つ目の等式が成り立つ。よって、この方法では、漸近分布を利 用するのとおなじ精度の信頼区間が得られる。ブートストラップを使用する理論的な利点は ないが、それでも漸近分散の計算を避けることができるため、ブートストラップは有用であ る可能性がある。 次に、パーセンタイル t 信頼区間を考える。これは漸近分布による近似よりも精度が良く なることを示す。このとき、Tn は t 統計量のため、Tn →d N (0, 1) である。つまり、 ( ) 1 1 Gn (u, F ) = Φ (u) + √ g1 (u, F ) + O (44) n n かつ、 ( ) 1 1 Gn (u, Fn ) = Φ (u) + √ g1 (u, Fn ) + Op (45) n n √ が得られる。ここで、Fn の F への収束速度は n であるので、g1 (u, F ) − g1 (u, Fn ) = √ Op (1/ n) となり、 ( ) 1 Gn (u, Fn ) − Gn (u, F ) = Op (46) n となる。したがって、パーセンタイル t 信頼区間は、漸近分布によるものよりも、精度が 高い。 さらに、対称パーセンタイル t 信頼区間を考え、さらに精度の高い近似となることを示す。 ¯ Φ(·) を ¯ Φ(u) = Φ(u) − Φ(−u) = 2Φ(u) − 1 (47) ¯ となる。さらにエッジワー とすると、Tn は t 統計量の絶対値のため、Tn の漸近分布は Φ(·) ス展開により、 ( ( )) 1 1 1 √ (48) Gn (u, F ) = Φ (u) + √ g1 (u, F ) + g2 (u, F ) + O n n n n ( )) ( 1 1 1 √ − Φ (−u) + √ g1 (−u, F ) + g2 (−u, F ) + O (49) n n n n ) ( 2 1 ¯ √ = Φ(u) + g2 (u, F ) + O (50) n n n となる。最後の等式は、g1 が偶関数であり、g2 が奇関数であることより従う。同様に、ブー トストラップ分布のエッジワース展開をすると、 ( ) 2 1 ¯ √ Gn (u, Fn ) = Φ(u) + g2 (u, Fn ) + Op (51) n n n √ となる。Fn の収束速度が n のため、 ( ) 1 √ Gn (u, Fn ) − Gn (u, F ) = Op (52) n n となり、対称パーセンタイル t 信頼区間は、さらに高い精度の信頼区間となっている。 7 7.6 他のブートストラップ法とサブサンプリング ブートストラップ法にはいろいろな種類がある。ここではノンパラメトリックブートスト ラップ法を紹介したが、主なものとしては、以下のようなものがある。まず、Fn として、経 験分布でなく、パラメトリックに推定した分布を使用する。パラメトリックブートストラッ プがある。また回帰モデルなどで使われるワイルドブートストラップもよく知られている。 これは、 yi = g(xi , β) + ei (53) という回帰式のために E(ei |xi ) = 0 という条件をブートストラップ分布でも成立するよう に、eˆi を回帰残差として、 ( ( √ ) ) √ 5−1 1+ 5 ∗ √ , Pr ei = eˆi = (54) 2 2 5 ( ( √ ) ) √ 5+1 1− 5 ∗ √ eˆi = Pr ei = (55) 2 2 5 という分布を考えるものである。この分布の下で、E(e∗i |xi ) = 0, E((e∗i )2 |xi ) = eˆ2i , E((e∗i )3 |xi ) = eˆ3i がなりたつ。また時系列分析では、各観測点ごとに再抽出するのではなく、観測点の列を まとめて抽出するブロックブートストラップ法が使われる。 また、作業はブートストラップと似ているが、その哲学や理論が大きく異なる方法として サブサンプリングがある。{zi }, i = 1, . . . , n を標本とする。ここから、大きさ b の標本を抽 出する。そのような標本は ( ) n q= (56) b 個ある。分布を近似したい統計量を τn (θˆn − θ0 ) とする。θˆn を各部分標本で計算しなおした ものを θˆn,b,r とする。そして、分布を Ln,b (u) = q ) 1∑ ( ˆ 1 τb (θn,b,r − θˆn ) ≤ u q (57) r=1 で近似する。これがサブサンプリング法である。 定理 1. τn (θˆn − θ0 ) →d J(u) であるとする。この時、b → ∞, b/n → 0 かつ τb /τn → 0 で あれば、Ln,b (u) − J(u) →p 0 である。 定理にあるように、サブサンプリング法は、統計量が漸近分布をもてば、近似が正当化で き、これは非常に緩い条件のため、応用範囲が非常に広い。このため、漸近分布の解析的表 現が難しい場合でブートストラップも使えない場合などでは、サブサンプリング法を用いて 統計的推測を行うことが近年盛んになってきている。 7.7 さらなる学習のために このノートの作成に当たり、特に参考にしたのは、Hansen (2013) の 10 章である。また、 Horowitz (2001) は、ブートストラップ法が使用できない場合や、適用に当たって変更が必 要となる状況についての解説が多くあり、一読に値する。 8 Hall (1992) はブートストラップの理論の学習によく参考にされる書物であるが、読むの は大変である。サブサンプリングは Politis, Romano and Wolf (1999) が読みやすく、ま た理論的に高度なところまで解説している。またサブサンプリング法については、近年そ の方法の適用可能性について計量経済学界で研究が進んでいる。たとえば、Andrews and Guggenberger (2009) などを参照。 参考文献 [1] D. W. K. Andrews and M. Buchinsky. A three-step method for choosing the number of bootstrap repetittions. Econometrica, 68(1):23–51, 2000. [2] D. W. K. Andrews and P. Guggenberger. Hybrid and size-corrected subsampling methods. Econometrica, 77(3):721–762, 2009. [3] P. Hall. The Bootstrap and Edgeworth Expansion. Springer-Verlag, 1992. [4] B. E. Hansen. Econometrics. http://www.ssc.wisc.edu/~bhansen/econometrics/, 2013. [5] J. L. Horowitz. The bootstrap. In J. J. Heckman and E. Leamer, editors, Handbook of Econometrics, volume 5, chapter 52, pages 3159–3228. Elsevier, 2001. [6] D. N. Politis, J. P. Romano, and M. Wolf. Subsampling. Springer, 1999. 9
© Copyright 2024 ExpyDoc