中心極限定理 1 はじめに 2 ベルヌイ列の試行例

中心極限定理
1
はじめに
前回確率論が威力を発揮するのは極限定理であることを述べた。もちろん大数の法則のような、
非常に根源的なものを初めとして、数多くの極限定理がある。今回扱うのは、それら極限定理の
中でも中心に位置するという意味の名前を与えられた、最も偉大な定理である。1920 年にポーヤ
(Polya)が名付けたときには極限定理の中心にあるという意味であったが、その後の数学の発展の
中では数学全体の中心にあると言っても過言でない1 状況になり、まさにその名に恥じない大定理
である。
今回の講義では、ド・モアブルとラプラスが取り扱った二項分布に対する中心極限定理のみを扱
うが、その後ガウスが既に見抜いていたようにこの定理は真に普遍的なものであり、数学の至る所
で隠れた構造として姿を現わす。
2
ベルヌイ列の試行例
前回の講義で扱ったように、p ∈ (0, 1) をパラメータとして、確率変数 Xk : Ω → {0, 1}, k = 1, 2, . . .
において、X1 , X2 , . . . が独立で P (Xk = 1) = p, P (Xk = 0) = 1 − p であるようなものをベルヌイ
であるという。X(ω) = (X1 (ω), X2 (ω), X3 (ω), . . .) と表わすことにして、
• X(ω1 ) = (1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, . . .)
• X(ω2 ) = (0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, . . .)
• X(ω3 ) = (0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, . . .)
• X(ω4 ) = (0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, . . .)
という具合である。そして、X の中の X1 , . . . , Xn の中の 1 の個数:
Nn (ω) :=
n
Xk (ω)
k=1
なる新しい確率変数を考えよう。今のそれぞれの ωj (標本= sample という)では
• N10 (ω1 ) = 2, N10 (ω2 ) = 2, N10 (ω3 ) = 3, N10 (ω4 ) = 6
• N20 (ω1 ) = 5, N20 (ω2 ) = 5, N20 (ω3 ) = 8, N20 (ω4 ) = 11
• N35 (ω1 ) = 12, N35 (ω2 ) = 9, N35 (ω3 ) = 16, N35 (ω4 ) = 16
といった具合である。前の講義で扱ったように、Nn の分布は二項分布である:
n k
P (Nn = k) ≡ P ({ω ∈ Ω; Nn (ω) = k}) =
p (1 − p)n−k
k
1 驚くべきことに、素数分布やリーマン予想に関連して現われる極限定理の分布はガウス型ではなく、原子核物理に現わ
れるウィグナーの半円則であることが判明した。このことは数学最大の未解決問題と呼ばれるリーマン予想の難しさを直
接反映していると考えられている。
1
そして、大数の(強)法則によると、
1
P lim Nn = p = 1
n→∞ n
が成立するのであった。これは Nn ∼ np と書くこともある。(an ∼ bn とは lim an /bn = 1 が成
n→∞
り立つこと)
3
詳細な漸近挙動
前節で述べたように、大数の法則によると Nn ∼ np である。しかし、これは「等しい」というこ
とを表わしているのではない。言うまでもなく np ∼ np であるし、np + 100n0.9 ∼ np でもある。
要するに n よりも小さな程度(オーダー)で発散している項は無視されている。
テイラー展開でも
f (x) = f (0) + f (a)x + · · ·
と 1 次までの展開ではあまり有り難くなく、
1
f (x) = f (0) + f (a)x + f (a)x2 + · · ·
2
と 2 次まで展開すると急激に有り難みが増す。驚くべきことに、3 次以上展開してもあまり御利益
はない。
そこで確率変数でも
n
Xk ≡ Nn = E[Xk ]n + Znα + · · ·
k=1
のような展開をしたい。(もちろん、今は α < 1 である。)問題は Z は何か、ということと、α は
いくらか、ということである。(もちろん、数学的には、· · · の意味も明らかにしなければならない
が、これは位相空間論の問題としてもかなり難しいので、ここではこれ以上こだわらないことにす
る。)ここで Znα の意味は、Nn の乱雑さ具合が期待値 E[Nn ] = np からどの程度ずれているかと
いうことである。だから、前回述べた標準偏差の概念によって、ここには標準偏差が関係している
と予想できると思うが、これを決定するのが中心極限定理である。Z や α は後で述べるが、真に
驚くべきことに、これらは Xk がどんな確率変数であったとしても、いつも(本質的に)同一のも
のである。
4
二項分布の試行
中心極限定理を述べる前に、二項分布の多数の試行で値がどのように分布しているかを見ておく
ことにしよう。まずは B10,p(パラメータ p で 10 回硬貨を投げたときの表の出る回数)を 1000 回
繰り返してその度数分布を調べたものである。
図 1: p = 0.3
図 2: p = 0.5
2
図 3: p = 0.8
いずれも期待値(E[N10 ] = 10p)のあたりが一番多いがその周辺も十分多く、何か定量的なこと
は予言できない。そこで、今度は硬貨投げの回数を 100 回に増やしてみよう(B100,p )。同じくそ
れを 1000 度繰り返した度数分布が下図である。
図 4: p = 0.3
図 5: p = 0.5
図 6: p = 0.8
いずれも形が(p = 0.8 はややいびつではあるが)山型になってきた。次に硬貨投げを 1000 回と
したとき(B1000,p )の度数分布を示す。
図 7: p = 0.3
図 8: p = 0.5
図 9: p = 0.8
いずれも形が似通っているのが納得できるだろうか。但し、横軸の縮尺が p によって違うことに
も注意してほしい。期待値(300, 500, 800)と比べると、p = 0.3 と p = 0.5 ではあまり差がないよ
うにも見えるが、p = 0.8 は少し散らばり方が少ない。前回求めたように分散は V (Nn ) = np(1 − p)
だったから、それぞれ分散が 210, 250, 160 であり、標準偏差は 14.5, 15.8, 12.6 程度となる。
グラフの稜線がかなりギザギザしているが、これは乱雑さの影響が出ている。
注意 この図を見ると、Nn が n → ∞ で np に収束するのか疑問に思う人もいると思う。もちろん
収束しない。(そもそも両方発散するので、その言葉に意味がない。)あくまで大数の法則は n1 Nn
n
が p に収束することであった。いま我々が注目しているのは、Nn =
Xk そのものである。それ
k=1
は、今の図を見れば分かるとおり、期待値の周辺に散らばっている。その散らばり具合の中から、
第 2 の近似 Z をうまく取り出そうというのが我々の目指していることであり、漸近挙動の解析で
ある。そしてそれは数学的に徹底して厳密に実行せねばならない。
5
正規分布
いよいよ大定理である中心極限定理を述べる準備に入る。証明を見たり、深く考えると、何とな
くラプラスや特にガウスがこの謎めいた、そして 21 世紀になっても全く神秘さを失わない、数学
上最も重要な関数を見いだしたのかが見えてくるかも知れない。そしてそこには、初等数学を統括
√
する π, e, , x2 など重要なものが見事に組み合わされて現われる。
定義 1【ガウス関数(Gaussian function)】. 平均 m で分散 v のガウス関数 gv (x) とは
1
(x − m)2
gm,v (x) := √
exp −
2v
2πv
3
のことをいう。但し exp{x} は ex のことである。
0.16
0.08
0.14
0.07
0.12
0.06
0.1
0.05
0.08
0.04
0.06
0.03
0.04
0.02
0.02
0.01
0
0
-4
-2
0
2
4
-4
図 10: 分散 = 1
-2
0
2
4
図 11: 分散 = 2
この関数のグラフの美しさと奥深さが分かってくればホンモノである。
次の関係式は、大学 1 年の微積分を象徴するものである。「普通の人にとって 2 掛ける 2 が 4 で
あることが当たり前であると同じくらいにこの等式が当たり前に見える人こそ数学者と呼ぶに値す
る。リュービル2 は数学者であった。
」
(ケルヴィン卿3 )なお、被積分関数の原始関数は具体的には
書き表わせない。
命題 1.
∞
−∞
√
(x − m)2
1
exp −
dx = 1
2v
2πv
証明 簡単のため m = 0, v = 1 として、次の積分を求めることにする。(一般の m, v は単なる変
数変換)
2
x
exp −
dx
2
−∞
∞
これを求めるのは大変だから、同じ積分を掛けておく。
2
2
∞
∞
x
y
exp −
exp −
dx
dy
2
2
−∞
−∞
これが求めたい量の 2 乗である。ところが、これは重積分と値が等しい:
2
2
∞ ∞
x
1
y
exp −
exp − (x2 + y 2 ) dx dy
exp −
dx dy =
2
2
2
−∞ −∞
R2
そこで、変数変換 x = r cos θ, y = r sin θ を行なうと、dx = cos θ dr − r sin θ dθ, dy = sin θ dr +
r cos θ dθ だから、dx ∧ dy = r dr ∧ dθ となる4 。したがって積分範囲は r : 0 → ∞, θ : 0 → 2π だ
から
2π ∞
1
1
exp − (x2 + y 2 ) dx dy =
dθ
r exp − r2 dr
2
2
0
0
R2
2 Joseph Liouville, 1809–1882。数論・複素解析・微分幾何・力学等で顕著な業績を上げる。ガロアの遺稿を紹介した
ことでも有名。
3 William Thomson, 1824–1907。クラウジウスと独立に熱力学の第二法則(エントロピー増大の法則)を発見し、絶対
温度の概念の導入、ベクトルの概念の導入など、物理学に数知れない偉大な業績を残し、ラーグスのケルヴィン男爵(Baron
Kelvin of Largs)の爵位を得る。温度の単位ケルビンは彼の爵位に由来する。
4 この計算法は「外微分」と呼ばれるベクトルの「外積」の理論であるが、簡単には dx ∧ dx = 0 と dx ∧ dy = −dy ∧ dx
の 2 つの規則で普通に計算できるものである。なおこうして計算した係数が本来の「行列式」の定義であるが、ヤコビア
ンを計算する方に慣れている場合はそれで十分である(回りくどい定義と計算をしているだけであるが)。外積および外微
分に関しては「微分形式」と呼ばれて幾何学関係の講義で取り扱われる。
4
こうなると原始関数がちゃんと計算できて、
∞
∞
1 2
1 2
r
r
r exp −
=1
dr = − exp −
2
2
0
r=0
がわかる。結局
2π
1 2
2
exp − (x + y ) dx dy =
dθ = 2π
2
0
R2
となることがわかった。
定義 2. 確率変数 Z : Ω → R が
P (a ≤ Z ≤ b) =
b
gm,v (x) dx
a
を満たすとき、Z は平均 m で分散 v の正規分布に従うといい、Z を平均 0 で分散 v の正規確率変数
であるという。または単に Z はガウスであるという。さらに v = 1 のときには標準正規(standard
normal)であるという。
演習 1. 次を示せ。
∞
(x − m)2
1
exp −
1.
x√
dx = m
2v
2πv
−∞
∞
(x − m)2
1
exp −
(x − m)2 √
2.
dx = v
2v
2πv
−∞
従って特に、平均 m で分散 v の正規分布に従う確率変数の期待値は m で分散は v である。
注意 1. 言うまでもないが、正規分布はパラメータ m ∈ R と v > 0 の 2 つだけを持つ。それ自身
は自明であるが、中心極限定理の意味を考えると、このことの意義は深い。
注意 2. v = 0 のとき、gm,v (x) は定義不能となる。しかし直観的にはすべての確率が x = m に
集中している、つまり P (Z = m) = 1 となるものに相当する。そこでこれを形式的ではあるが
δm (x) := gm,0 (x) と書くことがあり、デルタ関数という(もちろん、関数ではない)
。つまり、直観
∞
的には δm (x) = 0(x = m)・δm (m) = ∞ で −∞ δm (x) dx = 1 となるようなものである。数学的
には連続関数 f (x) に対して値 f (m) を対応させる線型写像のことであり、これを直観を生かして
∞
f (x)δm (x) dx = f (m)
−∞
と書くことがある。このような意味で、確率変数の分布とは、関数という概念をさらに広げたもの
であり、超関数と呼ばれることもある(「超関数」はフランス語/英語の distribution を岩村聯が
訳したものであり、海外では「分布」と「超関数」は同じ意味である)。
6
スターリングの公式・ラプラス法
スターリングの公式はスターリングによって 1730 年に得られた(厳密に証明されたわけではな
い)漸近展開で、z = n +
1
2
とするとき、
∞
log(n!) = z log z − z +
B2k ( 12 )
1
log(2π) +
2
(2k − 1)2kz 2k−1
k=1
5
というものである。但し Bn (z) はベルヌイの多項式と呼ばれ、
∞
zexz
zn
=
Bn (x)
z
e − 1 n=0
n!
によって定義される。スターリングはこれによって log 1000! の非常によい精度の近似値を得たが、
実は右辺の級数は収束しない。
まず 2 つの数列について an と bn が
lim
n→∞
an
=1
bn
を満たすとき、an ∼ bn であると表わすことにする。an ∼ bn , bn ∼ cn であれば、
lim
n→∞
an
an b n
an
bn
= lim
= lim
lim
=1
n→∞ bn cn
n→∞ bn n→∞ cn
cn
であるから、an ∼ cn である。
次の事実は微積分の授業で学ぶことであるが、今回の証明中で重要だから復習のために述べて
おく。
補題 1【Taylor の公式】. 関数 f は [a, b] で C n -級とする。このとき
f (b) =
n−1
f (k) (a)
k=0
(b − a)k
+ Rn (a, b)
k!
が成り立つ。ただし剰余項 Rn (a, b) は 0 < pa,b ≤ n, 0 < θa,b < 1, ξ = a + (b − a)θ を用いて
b
1
Rn (a, b) =
f (n) (x)(b − x)n−1 dx
(n − 1)! a
(b − a)p (b − ξ)n−p
(n − 1)!p
(b − a)n (1 − θ)n−p
= f (n) (a + θ(b − a))
(Roche–Schl¨
omilch 剰余)
(n − 1)!p
1
= f (n) (ξ)(b − a)n (Lagrange 剰余)
n!
1
f (n) (ξ)(b − a)(b − ξ)n−1 (Cauchy 剰余)
=
(n − 1)!
= f (n) (ξ)
と表現できる。
特に、f (x) を a の周りのテイラー展開によって n − 1 次の多項式で近似すると誤差は必ず (x − a)n
に応じた量となることが重要である。
ここでは対数を考えない版のスターリングの公式を取り扱う。現在ではスターリングの公式はこ
の記号を用いて次のように定式化される。
定理 1【Stirling の公式】.
n! ∼
√
2πnnn e−n
証明はラプラスによる。ラプラスが提示した方法は(以下のものは少し改良を加えてある)非常
に普遍性をもつものであり、漸近挙動を考える際に最も基本となる。
まず Γ 関数を用いて n! を表現する。
n! = Γ(n + 1) ≡
∞
xn e−x dx
0
これは必要なだけ部分積分を繰り返せば容易に確認できる。
6
右図は x5 e−x のグラフであるが、一般に関数 xn e−x
n −n
は x = n で最大値 n e
25
をとる。実はこの関数の最
20
大値を取る点が重要となるので、それが 1 になるよう、
15
5
-
x *%e x
x = ny と変数変換すると
∞
Γ(n + 1) =
(ny)n e−ny n dy
0
n+1 −n
=n
e
10
5
∞
y n e−n(y−1) dy
0
0
0
2
4
6
8
10
x
y n e−n(y−1) = e−n(y−log y−1) に注意して f (y) := y − log y − 1 とおく(y > 0)。
左図は f (y) のグラフの概形である。上で述べたよ
7
うに、この y = 1 の点での挙動が重要である。そこで
6
y = 1 の周りの解析を行なう。テイラーの定理によっ
て、f (1) = 0, f (1) = 0, f (1) = 1 だから
-log(y)+y-1
5
4
f (y) =
3
2
1 1
f (1)(y − 1)2 + R3 (y) = (y − 1)2 + R3 (y)
2
2
とかける。ただし R3 (y) は 3 次の剰余項である(形は
1
重要ではない)。
0
0
2
4
6
8
テイラーの定理によれば、どんな ε > 0 に対しても
10
y
δ > 0 がとれて、区間 |y − 1| ≤ δ においては
1
1
(1 − ε)(y − 1)2 ≤ f (y) ≤ (1 + ε)(y − 1)2
2
2
が成立するようにできる。
右図に示したのは、ε = 0.02 とした場合で、f (y)
が y = 1 の非常に近く(δ = 0.12 くらい)において
2
2
0.49(y − 1) より大きく 0.51(y − 1) より小さいこと
を表わしている。以下の解析的議論によって分かるよ
0.014
-log(y)+y-1
0.45*(y-1)2
0.55*(y-1)2
0.012
0.01
うに、漸近挙動は最大値の周辺で決定されるのである
0.008
が、その点の 2 階の微分係数が重要な役割を果たして
0.006
いるのである。いま、
∞
y n e−n(y−1) =
0.004
0
∞
0.002
e−nf (y) dy
0
0.85
0
0.9
0.95
1
1.05
1.1
y
であったことを思い出しておこう。|y − 1| ≤ δ においてはいま示した評価によって
1+δ
1+δ
1+δ
2
2
1
1
e−n 2 (1+ε)(y−1) dy ≤
e−nf (y) dy ≤
e−n 2 (1−ε)(y−1) dy
1−δ
1−δ
1−δ
が成立する。次にこの左右の積分を評価するのであるが、u :=
n(1 ± ε)(y − 1) と変数変換
(du = n(1 ± ε) dy, y : 1 − δ → 1 + δ のとき u : −δ n(1 ± ε) → δ n(1 ± ε))すれば
1+δ
δ√n(1±ε)
2
1
u2
1
e−n 2 (1±ε)(y−1) dy = e− 2 du
√
n(1 ± ε) −δ n(1±ε)
1−δ
となる。ここで n → ∞ とすれば
√
∞
1+δ
2
√
2π
1
−n 12 (1±ε)(y−1)2
− u2
n
e
dy → √
e
du = √
1 ± ε −∞
1±ε
1−δ
7
1+δ
n→∞ 1−δ
従って lim
e−nf (y) dy が存在するかどうかは分からないが、
√
√
1+δ
1+δ
√
√
2π
2π
−nf (y)
−nf (y)
√
e
dy ≤ lim sup n
e
dy ≤ √
≤ lim inf n
n→∞
1+ε
1−ε
n→∞
1−δ
1−δ
(1)
であることが分かる。
次に |y−1|>δ e−nf (y) dy を考える。これは y > 1 + δ の部分と y < 1 − δ に分けて考えること
にする(f (y) のグラフを見よ)。y > 1 + δ では f (y) の関数はほとんど 1 次関数に近い。そこで
f (y) = 1 − 1/y に注意すると f (y) は y > 1 で単調増大である。だから、点 (1 + δ, 0) を通り傾き
f (1 + δ) の直線は必ず f (y) よりも下側にある。f (1 + δ) = 1 −
f (y) >
1
1+δ
=
δ
1+δ
であるから
y
δ
(y − (1 + δ)) =
−δ
1+δ
1+δ
y
がわかり、e−nf (y) < e−n( 1+δ −δ) となる。従って
∞
∞
∞
√
√
√
y
n
n
e−nf (y) dy < n
e−n( 1+δ −δ) dy = nenδ
e− 1+δ y dy
1+δ
1+δ
1+δ
√ nδ 1 + δ −n
1+δ
e
= ne
= √ en(δ−1)
n
n
これは δ < 1 のときに n → ∞ で 0 に収束する。
y < 1 − δ の側は易しい。f (y) > f (1 − δ) だから
√
n
0
1−δ
e−nf (y) dy ≤
これらを併せて、
√
1−δ
n
0
√
lim n
n→∞
e−nf (1−δ) dy =
√
n(1 − δ)e−nf (1−δ) → 0
e−nf (y) dy = 0
|y−1|>δ
を得る。従って (1) を組み合わせればどのような ε > 0 に対してもある δ > 0 が存在して、
√
√
∞
∞
√
√
2π
2π
−nf (y)
−nf (y)
√
e
dy ≤ lim sup n
e
dy ≤ √
≤ lim inf n
n→∞
1+ε
1−ε
n→∞
0
0
ところがこの式には δ は現われない。ε > 0 は任意に小さくとれるので、結局極限の存在も分かり、
∞
√
√
lim n
e−nf (y) dy = 2π
n→∞
0
であることが分かった。即ち
√
√ −(n+1) n
n!
nn
e Γ(n + 1) = lim √ n −n = 2π
n→∞
n→∞
nn e
lim
となり、求める式が得られた。
注意 3. 今の証明を見ると次のことが分かる。e−nf (y) の積分の漸近挙動を求めるとき、f (y) は正
であるからほとんどの y で e−nf (y) は急速に 0 に収束し、漸近挙動には影響を与えない。影響を与
えるのは f (y) = 0 の点のみである。しかし、積分ではその周辺での関数の微小な挙動が影響を与
える。そこでは 1 階微分は 0 である(最小値だから)から、2 階微分が影響を与える。そしてそれ
だけで漸近挙動が完全に決定できる、というのが今の証明の流れであった。従ってこの証明を少し
一般化すれば次の定理を得る。
8
定理 2【ラプラス】. −∞ ≤ a < b ≤ ∞ とし、g は (a, b) で連続、h は (a, b) で C 2 -級で
1. h は c ∈ (a, b) でのみ最小値をとる:h(c) < h(x), x = c
2. h (c) > 0
b
3. a |g(x)|e−h(x) dx < ∞
とする。このとき λ → ∞ のときに漸近挙動
b
g(x) e−λh(x) dx ∼
a
2π
g(c)e−λh(c)
h (c)λ
が従う。
√
√
√
1
1
2πnnn e−n および 2πnnn e−n e 12n ・ 2πnnn e−n e 12n+1 の数表である。後ろの
ものはもう一段頑張って漸近展開をすると現われる近似式で、何とも驚くしかないことに、n が非
次の表は n! と
常に小さくても、「ほとんど」正確といってよい。
n
7
√
2πnnn e−n
√
1
2πnnn e−n e 12n+1
n!
√
1
2πnnn e−n e 12n
1
2
0.92214
1.9190
0.99587
1.9973
1
2
1.0023
2.0007
3
4
5.8362
2.3506 × 101
5.9961
2.3991 × 101
6
24
6.0006
2.4001 × 101
5
6
1.1802 × 102
7.1008 × 102
1.1997 × 102
7.1987 × 102
120
720
1.2000 × 102
7.2001 × 102
7
8
4.9804 × 103
3.9902 × 104
5.0393 × 103
4.0316 × 104
5040
40320
5.0400 × 103
4.0320 × 104
9 3.59537 × 105
10 3.59870 × 106
3.62851 × 105
3.62856 × 106
362880
3.62880 × 106
3.62881 × 105
3.62881 × 106
20 2.42279 × 1018
2.43286 × 1018
2.43290 × 1018
2.43290 × 1018
30 2.64517 × 1032
40 8.14217 × 1047
2.65251 × 1032
8.15912 × 1047
2.65253 × 1032
8.15915 × 1047
2.65253 × 1032
8.15915 × 1047
50 3.03634 × 1064
60 8.30944 × 1081
3.04140 × 1064
8.32097 × 1081
3.04141 × 1064
8.32099 × 1081
3.04141 × 1064
8.32099 × 1081
70 1.19643 × 10100
80 7.14949 × 10118
1.19786 × 10100
7.15694 × 10118
1.19786 × 10100
7.15695 × 10118
1.19786 × 10100
7.15695 × 10118
90 1.48434 × 10138
100 9.32485 × 10157
1.48571 × 10138
9.33262 × 10157
1.48572 × 10138
9.33262 × 10157
1.48572 × 10138
9.33262 × 10157
中心極限定理
今回の講義では局所極限定理(local limit theorem)を経て中心極限定理を示す。局所極限定理
の証明はやや大変な解析的評価を必要とするが、その価値はある。以降では記号を簡単にするため
に q := 1 − p とおく。p + q = 1 である。
9
√
√
定理 3【局所極限定理】. a < b とする。np + a n ≤ k ≤ np + b n とすると二項分布に従う確率
変数 Nn に対して
(k−np)2
1
P (Nn = k) = √
e− 2npq (1 + rn (k))
2πnpq
但し誤差項 rn は
lim
√ max
√ |rn (k)|
n→∞ np+a n≤k≤np+b n
=0
を満たす。
証明 まず定理の仮定から、n → ∞ のとき k ∼ n かつ n − k ∼ n が成立している。そこでスター
リングの公式によって
n k n−k
n!
pk q n−k
P (Nn = k) =
p q
=
k
k!(n − k)!
√
2πnnn e−n pk q n−k
∼√
2πkk k e−k 2π(n − k)(n − k)n−k e−n+k
nn
1
=
pk q n−k
k
k n−k k (n − k)n−k
2πn · ·
n
k
1
=
2πn ·
k
n
·
n−k
k
−k −(n−k)
k
n−k
pk q n−k
n
n
n−k
k
1
∼√
e−k log n −(n−k) log n +k log p+(n−k) log q
2πnpq
n−k
k
k − np
+ k log p + (n − k) log q とおく。z := √
そこで S := −k log − (n − k) log
とおくと
n
n
npq
√
√
k = npqz + np, n − k = − npqz + nq であり
√
√
nq − z npq
np + z npq
− (n − k) log
+ k log p + (n − k) log q
S = −k log
n
n
pq
pq
= −k log p + z
− (n − k) log q − z
+ k log p + (n − k) log q
n
n
さて、ここで log(a + x) = log a + log(1 + xa ) = log a + xa − 12 ( xa )2 + · · · であるから
pq
pq 1 1 2 pq
1
−
+ R1
log p + z
z
= log p + z
n
p
n
2 p2 n
pq
pq 1 1 2 pq
1
−
+ R2
log q − z
z
= log q − z
n
q
n
2 q2 n
pq
但し Rj は剰余項で、p < ξ1 < p + z pq
n, q−z
n < ξ2 < q によって
3
pq
1 2
1 z 3 (pq)3/2
1 z 3 (pq)3/2
R1 =
= 3
, R2 = 3
z
3
3/2
3! ξ1
n
3ξ1 n
3ξ2 n3/2
となる。これを代入すれば、
z2q k
q
p
+
− (n − k) log q + (n − k)z
S = −k log p − kz
np
2p n
nq
+
z2p n − k
+ k log p + (n − k) log q − R1 − R2
2q n
z 2q k
z 2p n − k
q
p
+
+ (n − k)z
+
− R1 − R2
= −kz
np
2p n
nq
2q n
10
さて、まず誤差項 Rj の評価に入る。z =
る。従って p < ξ1 < p +
√b
n
かつ q −
√a
n
k−np
√
npq
であったから、仮定より
√a
pq
≤z≤
√b
pq
がわか
< ξ2 < q であり、また
a3
z 3 (pq)3/2
b3
≤
≤ 3/2
3/2
3/2
n
n
n
を合わせると次の評価を得る。
a3
3(p +
√b )3 n3/2
n
≤
1 z 3 (pq)3/2
b3
≤
3ξ13 n3/2
3p3 n3/2
a3
1 z 3 (pq)3/2
b3
≤
≤
3ξ23 n3/2
3q 3 n3/2
3(q − √an )3 n3/2
これらの両辺は k によらないから、
1 z 3 (pq)3/2
=0
3ξj3 n3/2
√
√
である。Rn (k) := −(R1 + R2 ) とおくと、k = np + npqz, n − k = nq − npqz を代入して
z2q k
z 2p n − k
q
p
+
+ (n − k)z
+
+ Rn (k)
S = −kz
np
2p n
nq
2q n
√
√
nq − npqz √ z 2 q k
np + npqz √
z2p n − k
z q+
z p
+
+ Rn (k)
=−
np
nq
2p n
2q n
z2q k
z 2p n − k
√
√
= npqz − z 2 q + npqz − pz 2 +
+
+ Rn (k)
2p n
2q n
z 2p n − k
z 2q k
+
+ Rn (k)
= −z 2 +
2p n
2q n
lim
√ max
√
n→∞ np+a n≤k≤np+b n
したがってこれを代入すれば
z2q k
z 2 p n−k
2
1
1
P (Nn = k) ∼ √
eS = √
e−z + 2p n + 2q n +Rn (k)
2πnpq
2πnpq
2
1 2
1
∼√
e−z + 2 z eRn (k)
2πnpq
(k−np)2
1 2
1
1
∼√
e− 2 z = √
e− 2npq
2πnpq
2πnpq
であり、しかも
lim
√ max
√ e
n→∞ np+a n≤k≤np+b n
Rn (k)
=1
だから証明が完了した。
命題 2. max P (Nn = k) = P (Nn = [np − k] + 1) でありしかも lim max P (Nn = k) = 0 で
0≤k≤n
n→∞ 0≤k≤n
ある。
証明 まず
n!k!(n − k)!
p
n−kp
P (Nn = k + 1)
=
=
P (Nn = k)
(k + 1)!(n − k − 1)!n! q
k+1 q
P (Nn =k+1)
P (Nn =k) ≥ 1 ⇐⇒ k ≤ np − q がわかり、最大値は k0 := [np − q] + 1 で達成される。
√2
z0 := k√0 −np
npq とおくと |k0 − np| = |[np − q] + 1 − np| ≤ 2 だから |z0 | ≤
npq となり、局
であるから
ところが
所極限定理から
2
z0
1
P (Nn = k0 ) ∼ √
e− 2 → 0 (n → ∞)
2πnpq
11
定理 4【中心極限定理(Central Limit Theorem)
】. −∞ ≤ a < b ≤ ∞ とすると
b
Nn − np
1
z2
lim P a ≤ √
e− 2 dz
≤b = √
n→∞
npq
2π a
が成立する。
証明 簡単のため、−∞ < a, b < ∞ とする。a = −∞ または b = ∞ の場合には慎重に極限を取
k − np
ればよい。z := √
とすると、局所極限定理から
npq
1
z2
√
√
√
P (np + a npq ≤ Nn ≤ np + b npq) =
e− 2 (1 + rn (k))
2πnpq
a≤z≤b
√
√
である。ここで、和は {a ≤ z ≤ b} = {k; np + a npq ≤ k ≤ np + b npq} となる k についての和
である。(少しいい加減な書き方になるが、適当に整数でないものは整数部分を取ると理解して)
√
npq
k − np
k − np
a √
−a
=
−
j= √
npq
npq
b−a
b−a
b−a
√
と変数変換を行なう( k−np
npq = a +
b−a
√
。すると一般に
npq j )
√
√
np+a npq≤k≤np+b npq
f
k − np
√
npq
√
npq j
f a + (b − a) √
=
npq
j=0
が成り立つ。だから区分求積によって
a≤z≤b
1
−1
e 2
√
npq
k−np
√
npq
2
(1 + rn (k)) →
b
e−
z2
2
dz
a
がわかる。但し誤差項が無視できることは(再び局所極限定理から)
1
√
max
rn (k) ≤
|rn (k)|(b − a) → 0
√
√
npq
√
√
np+a npq≤k≤np+b npq
np+a npq≤k≤np+b npq
と |e−
z2
2
| ≤ 1 から分かる。
V (X1 ), m = E[X1 ]
とすると、(つまり Xk がどのような分布の確率変数かということには一切関係なく!)
b
n
Xk − m
z2
1
√
lim P a ≤
e− 2 dz
≤b = √
n→∞
σ n
2π a
k=1
注意 4. 実は、中心極限定理は、X1 , X2 , . . . が独立で同分布な確率変数で σ =
として成り立つ。この意味で、Z を標準正規な確率変数とすると、形式的に
n
√
Xk ∼ mn + σZ n + · · ·
k=1
と「展開」できる。但し、これは数学的には ω ∈ Ω ごとの関係式として理解すべきだが、残念な
がらそのようなことはできず、正しい式として意味をつけることは極めて難しい(汎弱位相と呼ば
れる、極めて弱い位相で成り立っているが、詳しくは位相空間論・関数解析学で学ぶ)。しかし確
率を求めるだけなら今示したように正しい。とくに左辺は何か得体の知れない確率変数だが右辺の
確率的な要素は標準正規な Z だけであり、Z は真に普遍的な、
「確率現象」の本質を表わすもので
ある。
12