推定 1 点推定 2 最尤推定法

推定
統計学の目標は得られた標本から母集団について、定量的な言及付きで、推定することである。
もちろん我々は母集団について完全に確定的なことはどうやっても分からない。しかし根拠のない
主張は何の信頼も得られない。
一般に、推定したい母集団分布の特性量を θ で表わす。それに対して標本 X1 , X2 , . . . , Xn から
ˆ 1 , X2 , . . . , Xn ) と表わす。やや用語が混乱するが、次のように区別する。
推定した推定値を θˆ ≡ θ(X
定義 1. X1 , X2 , . . . , Xn の関数 θˆ を θ の推定量(estimator)といい、ω が指定されたときの θˆ の
ˆ 1 (ω), . . . , Xn (ω)) を推定値(estimate)という。
値 θ(X
1
点推定
母集団の特性量 θ をただ 1 つの値で推定することを点推定(point estimation)という。例えば
¯ n ≡ 1 (X1 + · · · + Xn ) で
母集団の期待値 m に対する推定量 m
ˆ として最も妥当なものは標本平均 X
n
√
n
あろう。しかしそれ以外にも例えば X1 X2 . . . Xn も候補になり得るかも知れない。そこで、点
推定においては、推定量に次のことを要請する。
ˆ = θ をみたす。これをみたす
• 不偏性:θˆ は「平均的に」θ に一致せねばならない。即ち E[θ]
推定量を不偏推定量(unbiased estimator)という。
• 一致性:θˆ は標本数 n が増えると、θ と異なる確率が 0 に収束せねばらならない。即ち
lim P (|θˆ − θ| > ε) = 0 をみたす。より強く P ( lim θˆ = θ) = 1 をみたせば理想的であ
n→∞
n→∞
り、強一致であるという。これをみたす推定量を一致推定量(consistent estimator)という。
• 有効性:不偏性と一致性をみたす推定量の中で分散が最小である。これをみたす推定量を有
効推定量(efficient estimator)という。一般的に有効性の確認は難しいので、漸近的有効性:
n → ∞ で漸近分布が正規分布となる推定量でその漸近分散が最小となるもので妥協するこ
とも多い。
また、以上のほかにも漸近正規性:n → ∞ で正規分布に収束することを要請することもある。
¯ n は期待値に対して不偏性と一致性をみたす。また、漸近正規でもある(中
注意 1. (1) 標本平均 X
¯ n は有効推定量でもある。
心極限定理)。さらに、もし母集団が正規母集団であれば X
(2) 標本分散 V¯n は分散に対して不偏性と一致性をみたす。
いうまでもなく、問題は一般にこのような推定量をどのように特徴付け、どのように求めるかと
いうことである。
2
最尤推定法
ここでは各確率変数が P (X = 1) = p かつ P (X = 0) = 1 − p となるベルヌイの場合を考える
が、この議論はより一般の確率変数についても拡張可能である。問題は標本から p を推定すること
である。
その上で、標本として X1 = 1, X2 = 1, X3 = 0, X4 = 1, X5 = 1 の 5 つが得られたとしよう。
その上で p を推定したい。最も単純には標本平均 15 (1 + 1 + 0 + 1 + 1) =
が、それは正当化できるか。
1
4
5
が手頃な推定値である
ゆう
そこで我々の推定法として最尤原理(principle of maximum
0.09
0.08
「現実の標本は可能なパラメータ p の内で最大確率を
likelihood)
0.07
0.06
与えるものが実現している」を採用する。すなわち、
0.05
0.04
• いまの標本が得られる確率は仮定によって L(p) = p4 (1−p)
0.03
0.02
である。
0.01
0
0
0.2
0.4
0.6
0.8
1
• L(p) が最大となっている p はいくらであるか(左図)。
を求める。0 に近い p や 1 に近い p ではこの標本が得られる確率は小さいから、推定値としては妥
当ではない。もちろん L(p) が大きくなる p の幅はそれなりには広いが、最大を与えるものを採用
もっと
するのである。これは(微分すれば)明らかに p = 4/5 である。この値を最も尤もらしい値として
採用するのが最尤法(maximum likelihood method)である。
もっと
このように推定したい母集団の特性量 θ(いまは p)に対してそれぞれの θ の尤もらしさを与え
ゆう
ゆう
る関数 L(θ) を尤度関数といい、その値を尤度(likelihood)という。そして決定したいパラメータ
の範囲を母数空間 Θ(parameter space)といい、θ ∈ Θ の範囲で L(θ) が最大となる θ を推定値と
する。やや一般的にして定義を与える(標本とは独立同分布列であったことを思い出すように)。
定義 2. 母集団の特性量 θ ごとに、確率変数 X = xk となる確率を f (xk ; θ) と表わす:f (xk ; θ) :=
Pθ (X = xk )。このとき標本 x1 , x2 , . . . , xn が与えられた(固定!)ときの θ の関数
n
L(θ) :=
f (xk ; θ) = f (x1 ; θ)f (x2 ; θ) . . . f (xn ; θ)
k=1
を尤度関数という。特性量が複数 θ1 , θ2 , . . . , θN あるときも同様。
命題 1【二項分布の場合】. 確率変数 X がパラメータ p のベルヌイ分布に従うと仮定する。n 個の
標本中で r 個が 1 であるとき、p の最尤推定量は
r
n
で与えられる。
証明 パラメータ p に対する尤度関数は L(p) = pr (1−p)n−r で与えられる。L(p) と log L(p) の最大
を与える点は等しいから log L(p) を考える(対数尤度という)と、log L(p) = r log p+(n−r) log(1−p)
となる。これを p で微分すれば
r
n−r
d(log L(p))
= −
=0
dp
p 1−p
となる p は
r
n
である。
命題 2【正規分布の場合】. 確率変数が 2 つのパラメータ m, v によって決まる正規分布 N (m, v)
に従うとする。このとき標本 x1 , x2 , . . . , xn による最尤推定量はそれぞれ m
ˆ =
1
n
n
k=1
(xk − m)
ˆ 2 で与えられる。
証明 この場合、尤度関数は m と v の 2 変数関数である。
n
L(m, v) =
k=1
(xk − m)2
1
√
exp −
2v
2πv
˜
v) を求めると
そこでこれの対数尤度 L(m,
n
1
˜
L(m,
v) = log L(m, v) = − log(2πv) −
2
2v
2
n
k=1
(xk − m)2
1
n
n
k=1
xk , vˆ =
となる。これの微分が 0 となる点を求めると
˜
∂L
1
=
∂m
v
n
(xk − m) = 0
k=1
n
˜
n1
1
∂L
=−
+ 2
∂v
2v
2v
(xk − m)2 = 0
k=1
より結論を得る。
注意 2. 正規分布の場合の分散 v の最尤推定量から分かるように、最尤推定量が必ずしも不偏性を
持つわけではない。v の最尤推定量は
1
n
n
k=1
(xk − m)
ˆ 2 であるが、我々はそれを採用しない。
命題 3【ポアソン分布の場合】. 確率変数がパラメータ λ によって決まるポアソン分布に従うと仮
定する。このとき λ に対する最尤推定量は
証明 尤度関数は L(λ) =
n
λxk
k=1 xk !
1
n
n
k=1
xk である。
e−λ であるから、対数尤度は
n
˜
L(λ)
=
(xk log λ − log xk ! − λ)
k=1
˜ (λ) =
である。それを微分すると L
n
k=1
( xλk − 1) =
1
λ
n
k=1
xk − n だから結論を得る。
注意 3. 母集団の分布が未知(ノンパラメトリック)である場合には最尤法は使えない。そのとき
にはモーメント法がよく用いられる。モーメント法は E[X k ](k 次モーメント)のような量が、標
本から求められるモーメントに等しくなると仮定して期待値や分散を推定する方法である。今述べ
た例では最尤推定量はモーメント法による推定量に一致するが、一様分布のように一致しない例も
ある。また、一般に分散に対するこれらの推定量は不偏ではないことに注意が必要である。
今の例のように最尤推定量はある意味で自然な推定量を与えるが、それを採用する数学的に合理
的な根拠もある。最尤推定量に対しては次の性質が成り立つ。
定理 1. (1) 不偏な有効推定量が存在すれば、それは最尤推定量である。
(2) 最尤推定量は強一致性をもつ(ワルド(Wald)の定理)。
(3) 最尤推定量は漸近正規である(クラメル(Cram´er)の定理)。
この定理の証明はかなり複雑である。そのためには
• フィッシャー情報量と呼ばれる量を定義する。
• フィッシャー情報量と不偏推定量との関係を明らかにする(クラメル・ラオの不等式と呼ば
れる)。
などの手順が要求される。またその準備のもとでもそれぞれの証明はかなり複雑であるので、この
講義では省略し、最尤推定量には数学的な根拠があるという注意のみにとどめておくことにする。
3
3
区間推定
もっと
母集団のある未知の特性量 θ に対して、点推定では最も尤もらしい推定値 θˆ を定めることを目標
とした。これ自身はもちろん意味のあることではあるが、例えばベルヌイの場合で標本数 5 の場合
に X1 = 1, X2 = 1, X3 = 0, X4 = 1, X5 = 5 の場合に p = 0.8 と推定したが、本当は 0.79 かもしれ
ない。もちろん、確率的には p = 0.01 だってこういうことは(確率 1 億分の 1 くらいでは)起こり
うる。我々は自分の目の前に起こったことがそういう稀なものだとはあまり信じないが。p = 0.6
位なら 0.05 よりも大きな確率で生じるので、ぎりぎり、普通の人によっては許容できるくらいの
数値であろう。
よほどの事情がない限り、点推定で求めた値が真の値に一致することはまず期待できないので、
我々は次に、p に対して幅を持って推定したい。しかし、極端に言って 0 < p < 1 と推定したので
は何の意味もない。できる限り狭い範囲で、許容できる程度に決めたい。許容できるとは曖昧な
いい方であるが、これは、誤る確率が低いと解釈する。例えば l < p < u と推定して、それが誤っ
ている確率が 0.05 よりも小さければ許容すると決める。この許容量は完全に主観的なものであり、
一切の客観性を持たない。もちろん誤る確率を 0.01 とすると p の区間としては大きく推定してお
かなければならない。もし誤る確率を 0 にしたければ、何の推定もできない(0 < p < 1 とせざる
を得ない)。推定は原理的に誤る確率を含む。
注意 4. 次のことはよく誤解されるので、あらかじめ注意する。以下で θ の含まれる区間 [l, u] を推
定するが、これは推定に用いる標本ごとに異なる。つまり l, u は確率変数である。そして θ は(未
知だが)確定しているある実数である。我々は P (l ≤ θ ≤ u) が大きくなるように l と u を各標本
から決めるのであって、θ を求めるのとは違う。特に、ある標本から求めた l, u に対して θ ∈ [l, u]
となる確率という概念は存在しない(それは事実として、含まれているかいないかのいずれかに確
定している)。
定義 3. 母集団のある特性量 θ に対し、ある与えられた 0 < α < 1 と n 個の標本 X1 (ω), . . . , Xn (ω)
によって決まるある確率変数 l ≡ l(X1 (ω), . . . , Xn (ω); α) と u ≡ u(X1 (ω), . . . , Xn (ω); α) を
P (l ≤ θ ≤ u) ≥ 1 − α
をみたすように選んだとき、その l と u をそれぞれ下側信頼限界(lower confidence limit)および
上側信頼限界(upper confidence limit)といい、1 − α を信頼係数(confidence coefficient)とい
う。さらに区間 [l, u] を 100(1 − α)%信頼区間(confidence interval)という。
注意 5. 以下では具体的な標本に応じて信頼区間を求める。上の注意で述べたように、その標本によっ
て例えば信頼係数 0.95 に対する信頼区間が [0.6, 0.9] と定まったとき、それは P (0.6 ≤ θ ≤ 0.9) ≥ 0.95
という意味ではない。もし θ = 0.7 なら、{ω ∈ Ω; 0.6 ≤ 0.7 ≤ 0.9} はあえていえば Ω なのでその
確率は 1 である。θ は母集団 Ω が設定されたときに決まっている定数である。
注意 6. 信頼係数 1 − α としては多くの場合で 95%や 99%、即ち 0.95 や 0.99 を用いる。その理由
は、何となく切りがいいからである。ほかに理由はない。α は完全に主観的に決めてよい。その意
味で統計学は主観的確率を含む概念である。
3.1
正規母集団に対する区間推定
正規母集団に対する区間推定は、本質的に既に示したことである。
4
3.1.1
母分散が既知の場合の母平均の推定
命題 4. 母集団が分散 σ 2 の正規分布に従っている場合、Zα/2 > 0 を
1
√
2π
∞
Zα/2
exp −
z2
2
dz =
α
2
¯ n によって平均 m は
をみたす定数とすると、標本 X1 , . . . , Xn に対する標本平均 X
P
α/2
α/2
¯ n − σZ
¯ n + σZ
√
√
X
≤m≤X
n
n
=1−α
である。
¯ n は正規分布 N (m, σ 2 /n) に従う確率変数であるから、これを標準化すると
証明 標本平均 X
P
a≤
√ ¯
n(Xn − m)
≤b
σ
b
1
= √
2π
a
exp −
z2
2
dz
であるから、あとはこれを変形すればよい。
注意 7. 明らかなように、上下の信頼限界 l, u の決め方には一意性はない。但し、u − l が小さい
方がよいに決まっているので、正規分布の場合はその分布の対称性から、今の命題のように左右対
称に信頼区間を設定するときに u − l は最も小さくなる。
3.1.2
母分散が未知の場合の母平均の推定
定理 2. 母集団が正規分布に従っている場合、tα/2 (n) > 0 を
1
√
nB( 12 , n2 )
∞
tα/2 (n)
t2
+1
n
− n+1
2
dt =
α
2
¯ n と標本分散 V¯n によって平均 m は
をみたす定数とすると、標本 X1 , . . . , Xn に対する標本平均 X
P
¯n −
X
V¯n tα/2 (n − 1)
¯n +
√
≤m≤X
n
V¯n tα/2 (n − 1)
√
n
=1−α
をみたす。
√ ¯
n(Xn − m)
証明 は自由度 n − 1 の t 分布に従う。t 分布は対称だから、結論を得る。
V¯n
注意 8. 標本数 n が十分大きいときには、母分散が既知の場合で σ を V¯n に置き換えて適用しても
実用上はあまり差し支えない(これは未知の場合の推定が上の定理でできることが分かっていて、
t 分布が正規分布で近似できるから保証できることである)。
3.1.3
母分散の推定
命題 5. 母分散が正規分布に従っている場合、Cx (n) > 0 を
1
2Γ(n/2)
∞
Cx (n)
z
2
5
n
2 −1
z
e− 2 dz = x
となる定数とすると標本 X1 , . . . , Xn に対する標本分散 V¯n によって分散 σ 2 は
P
(n − 1)V¯n
(n − 1)V¯n
≤ σ2 ≤
Cα/2 (n − 1)
C1−α/2 (n − 1)
=1−α
をみたす。
証明 母集団の分散を σ 2 とすると
P
C1−α/2 (n − 1) ≤
¯n
(n−1)V
σ2
は自由度 n − 1 の χ2 分布に従う。従って
(n − 1)V¯n
≤ Cα/2 (n − 1)
σ2
=1−
α α
− =1−α
2
2
であり、結論を得る。
3.1.4
母分散の比の推定
命題 6. 2 つの母集団が正規分布に従っている場合、Fx (m, n) > 0 を
m
n
m 2 n2
n
B( m
2 , 2)
m
∞
Fx (m,n)
z 2 −1
(mz + n)
m+n
2
dz = x
をみたす定数とすると、標本 X1 , . . . , Xm に対する標本分散 V¯X と標本 Y1 , . . . , Yn に対する標本分
散 V¯Y によって分散比 σ 2 /σ 2 は
Y
P
X
V¯X
V¯X
σ2
F1−α/2 (m − 1, n − 1) ¯ ≤ 2Y ≤ Fα/2 (m − 1, n − 1) ¯
σX
VY
VY
=1−α
をみたす。
証明 ¯X
(m−1)V
2
σX
と
¯Y
(n−1)V
2
σY
はそれぞれ自由度 m−1, n−1 の χ2 分布に従うから
は自由度対 (m − 1, n − 1) の F 分布に従う。
¯
(m−1)V
X
σ2
X
m−1
¯
(n−1)V
Y
σ2
Y
n−1
=
2 ¯
σY
VX
2 ¯
σX
VY
注意 9. 母分散の比の信頼区間が 1 を含むとき、統計学では、「2 つの正規分布の分散が等しいと
仮定することが許される」としてそれを仮定することがある。
3.1.5
母平均の差の推定
分散が等しいと仮定できるとき(注意 9 参照)には平均の差が再び t 分布に従うことを用いて平
均の差を推定することができる。そうでないときにはウェルチの近似法を用いて推定できるが、詳
細は略する。
一方、例えばある月における毎日の 2 観測地点の気温のように、2 つの母集団から得られる標本
が対になっていることがある。この場合には母平均の差を推定するとき、その 2 標本の差が再び正
規分布になることを利用して、1 標本問題として扱う。そうすると一般に 2 標本問題よりも狭い信
頼区間で推定が可能になる。
3.1.6
まとめ
正規分布はある点では易しく、しかしパラメータとして平均 m と標準偏差 σ の 2 つを含むので
ある点では難しいが、正規分布に対する数学的分析を詳しく行なうことで上述のように推定が可能
になる。
6
3.2
ポアソン母集団に対する区間推定
ポアソン母集団とは確率変数 X が P (X = k) =
λk −λ
k! e
で出現するものである。少数の法則に
よってこの仮定はしばしば合理的である。まず多くの統計学の教科書に載っている命題を挙げる。
¯n
定理 3. パラメータ λ のポアソン母集団からの n 個の標本 X1 , X2 , . . . , Xn によって標本平均 m
ˆ := X
を求めると、n が十分大きいときには
P
m
ˆ − Zα/2
m
ˆ
≤λ≤m
ˆ + Zα/2
n
m
ˆ
n
1−α
をみたす。但し Zα は標準正規分布の側 100α パーセント点である。
È X −nλ
n
証明 ポアソン確率変数の期待値と分散は共に λ である。標本数 n が大きいときには
m−λ
ˆ
√
は標準正規と仮定してもよい(中心極限定理)
。だから P
λ
n
≤ Zα/2
k
k=1
√
nλ
1 − α である。この
2
+ 2nm)λ
ˆ + nm
ˆ 2 ≤ 0 であり、これを方程式として解くと
不等式は nλ2 − (Zα/2
λ=
2
+ 2nm)
ˆ ±
(Zα/2
2
(Zα/2
+ 2nm)
ˆ 2 − 4n2 m
ˆ2
2n
=m
ˆ +
2
Zα/2
2n
± Zα/2
2
Zα/2
4n2
ところで、Zα/2 は n によらない定数であり、従ってこの n → ∞ での漸近挙動は
+
m
ˆ
n
m/n
ˆ
のオー
ダーである。つまりこれより高位の無限小は n → ∞ では無視できるので結論を得る。
注意 10. この定理はポアソン分布がパラメータ 1 つ(λ)だけから期待値と分散を決めており、今
の場合には共に等しいことを用いている。ベルヌイのときにも、分散は異なるがやはり 1 つのパラ
メータから決まるので、同様の定理が成り立つ(定理 5)
。正規分布の場合にはパラメータが 2 つ
なのでこのようなことがいえない。
注意 11. 今の議論は n → ∞ での正規分布による近似と、さらに信頼区間の近似が入っており、見
るからに乱暴である。後者は例えば Zα/2 が 2 程度(α = 0.046)と見積もれば信頼区間 n = 200 で
信頼区間は 0.01 程度変わることになる。n = 30 程度では 0.07 程度影響がある。統計学の教科書で
は、信頼に足るとされているものでも n = 10 でこの定理を適用し α = 0.01 で(Z0.005 = 2.576)小
2
数点以下 2 桁まで求めているものがある(Z0.005
/20 = 0.33)
。こういうのを無茶苦茶という。我々
はそのような単なる誤りに陥ってしまわないよう、じっくり数学的に厳密に理解を続けてきたので
ある。あくまでもこれは正規近似が悪いのではなく、証明最後の 2 次不等式に諸悪の根元がある
ˆ と λ を取り違えているのではないかという疑いもある。こ
(注意:実は多くの統計学の教科書で λ
れは区間推定の最初に述べた注意によって明らかな間違いである)。
ポアソン分布の場合には、実は厳密な信頼区間を求めることができる。しかもそれは(それほ
ど)難しくなく、今までに学んできたことだけで十分である。
補題 1. 任意の実数 a と自然数 k に対して次が成り立つ。
ea = 1 + a +
ak
1
a2
+ ···+
+
2!
k!
k!
a
0
ex (a − x)k dx
証明 Ik :=
1
k!
a
0
ex (a − x)k dx =
1 x
1
[e (a − x)k ]a0 +
k!
k!
7
a
0
ex k(a − x)k−1 dx = −
ak
+ Ik−1
k!
である。したがって
Ik = −
a x
e
0
であるが I0 =
ak−1
a
ak
−
− · · · − + I0
k!
(k − 1)!
1
dx = ea − 1 だから。
補題 2. fn (z) を自由度 n の χ2 分布の密度関数とすると
n
k=0
∞
∞
λk −λ
e =
k!
2λ
λk −λ
e =
k!
f2(n+1) (z) dz,
k=n+1
2λ
f2(n+1) (z) dz
0
証明 前の補題より
m
k=0
λk −λ
λn
e =e−λ 1 + λ + · · · +
k!
n!
=1−
1
n!
λ
0
= e−λ eλ −
1
n!
λ
0
ex (λ − x)n dx
e−(λ−x) (λ − x)n dx
ここで z := 2(λ − x) とおくと
m
k=0
0
λk −λ
1
e = 1+
k!
n!
= 1−
2λ
z
e− 2
z
2
n
1
dz = 1 −
2
2Γ
2λ
2(n+1)
2
0
z
e− 2
z
2
2(n+1)
−1
2
dz
∞
f2(n+1) (z) dz =
0
2λ
1
f2(n+1) (z) dz
2λ
定理 4. X1 , X2 , . . . , Xn をパラメータ λ のポアソン母集団からの標本とする。S :=
n
k=1
Xk とお
き、C α2 , C1− α をそれぞれ
2
∞
Cα
f2(S+1) (z) dz =
2
∞
α
,
2
C1− α
f2S (z) dz = 1 −
α
2
2
で定まる確率変数とする。ただし fn (z) は自由度 n の χ2 分布の密度関数とする。このとき
P
C1− α
2
2n
≤λ<
C α2
2n
≥1−α
が成立する。
n
証明 X1 , X2 , . . . , Xn が独立なパラメータ λ のポアソンとすると、S =
のポアソンに従う(特にどの ω でも S(ω) は整数である)
。そこで β :=
n1
k=0
∞
(nλ)k −nλ
e
≤ β,
k!
k=n2
α
2
k=1
Xk はパラメータ nλ
とおき、整数 n1 と n2 を
(nλ)k −nλ
e
≤β
k!
をみたす最大の n1 と最小の n2 として定める。すると定義によって n1 , n2 は
P (n1 < S < n2 ) ≥ 1 − 2β = 1 − α
をみたす最大・最小のものである。さて、補題 2 と合わせれば、n1 は
n1
k=0
(nλ)k −nλ
e
=
k!
∞
2nλ
f2(n1 +1) (z) dz ≤ β =
8
∞
Cβ
f2(S+1) (z) dz
(1)
をみたす最大のものであった。従って n1 < S(ω) となる ω ∈ Ω では(最初の等号と左の積分から
∞
2nλ
f2(S+1) (z) dz > β だから)Cβ (ω) > 2nλ であり、逆に Cβ (ω) > 2nλ となる ω では(最後の
積分と f2(S+1) (z) > 0 から β <
∞
2nλ
f2(S+1) (z) dz だから)n1 < S(ω) である。つまり
{ω ∈ Ω; n1 < S(ω)} = {ω ∈ Ω; 2nλ < Cβ (ω)} = {ω ∈ Ω; λ <
Cβ (ω)
}
2n
がわかる。同様に n2 は
n2 −1
k=0
(nλ)k −nλ
e
=
k!
∞
2nλ
f2n2 (z) dz > 1 − β =
∞
2nλ
C1−β
f2S (z) dz
∞
2nλ
f2S (z) dz ≤ 1 − β となり
f2S (z) dz ≤ 1 − β だから n2 > S であ
をみたす最小の整数である。従って n1 と同様に S < n2 なら
2nλ ≥ C1−β が成り立つ。また 2nλ ≥ C1−β であれば
∞
る。従って結局
P (n1 < S < n2 ) = P
C1−β
Cβ
≤λ<
2n
2n
≥1−α
例 1. ある 1 時間ごとに電話を受信した回数を 10 日間調べたところ、その回数は 4, 3, 5, 4, 8, 2, 5, 9, 3, 5
回であった。電話のかかってくる回数をポアソン分布に従うものと仮定すると、n = 10 に対して
S=
10
k=1
2
Xk = 48 である。信頼係数を 99%(α = 0.01)とすると、χ2 (98) の 0.5%点は C0.005 = 137.80
で χ (96) の 0.5%点は C0.005 = 64.06 だから信頼区間は [3.20, 6.89) と求まる。もし信頼係数を
95%とすれば、C0.025 = 127.28, C0.025 = 70.78 だから [3.54, 6.36) と求まることになる。一方「標
ˆ = 4.8
準的な教科書」では、信頼係数 99%のもとで、正規分布に対して Z0.005 = 2.576 であって λ
ˆ
だから [3.02, 6.58] と推定している。我々の推定は上側にややずれている(しかも λ = 4.8 は我々の
2
信頼区間の中央にはない)
。これはそのずれが厳密値からおおむね Z0.005
/20 = 0.33 程度であろう
と予想した注意 11 に適合している。一方でもしこれが正規母集団であると仮定して、t 分布によ
¯ 10 = 4.8 で V¯10 = 4.844 であり、t0.005 (10) = 3.1693 だから [2.63, 7.05] と求ま
る推定を行なうと X
ることになる。我々の求めた信頼区間は数学的に厳密なものである。数学的な分析によって社会に
流通している常識にすらなっている手法が実は誤りであることを指摘することもできるし、そうし
て初めて正しい方法も自信を持って適用できるようになる。
3.3
二項母集団に対する区間推定
標本数 n が非常に大きいときには定理 3 と同様の定理を用いて推定できる。
¯n
定理 5. パラメータ p のベルヌイ母集団からの n 個の標本 X1 , X2 , . . . , Xn によって標本平均 m
ˆ := X
を求めると、n が十分大きいときには
P
m
ˆ − Zα/2
m(1
ˆ − m)
ˆ
≤p≤m
ˆ + Zα/2
n
m(1
ˆ − m)
ˆ
n
1−α
をみたす。但し Zα は標準正規分布の側 100α パーセント点である。
証明 ベルヌイ分布の分散は p(1 − p) で与えられるから、あとは定理 3 の証明と同様である。
もちろんポアソンの場合の注意はそのまま当てはまる。そこで、我々は n が小さいときにも通
用する厳密な推定を与える。基本的な流れはポアソンの場合と同様である。
9
補題 3.
k
(1 + x)n =
n j
n!
x +
j
k!(n − k − 1)!
j=0
証明 Ik :=
n!
k!(n − k − 1)!
x
0
x
0
(1 + t)n−k−1 (x − t)k dt
(1 + t)n−k−1 (x − t)k dt
n k
n k
n
とおくと部分積分によって Ik = −
x +Ik−1 がわかる。だから Ik = −
x −
xk−1 −
k
k
k−1
n
x
···−
x − I0 で、I0 = n 0 (1 + t)n−1 dt = (1 + x)n − 1 より結論を得る。
1
補題 4. fm,n (z) を自由度対 (m, n) に対する F 分布の密度関数とする。このとき、
k
n j
p (1 − p)n−j =
j
j=0
n
∞
(n−k)p
(k+1)(1−p)
∞
n j
p (1 − p)n−j =
j
j=k
f2(k+1),2(n−k) (z) dz,
k(1−p)
(n−k+1)p
f2(n−k+1),2k (z) dz
である。
証明 細かな計算は省略する(詳細は【演習】)。
k
k
j=0
だから補題 3 で x =
1+
k
n j
n j
n
1
= (1 − p)n
p (1 − p)n−j = (1 − p)n
p
j
j
j
j
(1
−
p)
j=0
j=0
k
n
p
1−p
p
1−p
=
j=0
j
p
1−p
として
n
j
p
1−p
j
+
p
1−p
n!
k!(n − k − 1)!
0
(1 + t)n−k−1
k
p
−t
1−p
dt
となる。だから両辺 (1 − p)n 倍して
k
j=0
n j
n!
(1 − p)n
p (1 − p)n−j = 1 −
j
k!(n − k − 1)!
これは、t =
p
1−p
−
u
1−p
=1−
0
(1 + t)n−k−1
p
−t
1−p
k
と変数変換すると
=1−
と書ける。さらに u =
p
1−p
n1 z
n1 z+n2 ,
n!
k!(n − k − 1)!
n!
k!(n − k − 1)!
p
0
(1 − u)n−k−1 uk du
n1 = 2(k + 1), n2 = 2(n − k) とおくと
n2
n1 (1−p)
0
n2
n1 z + n2
を得る。これを整理すればよい。第 2 式も同様。
10
n−k−1
n1 z
n1 z + n2
k
n1 n2
dz
(n1 z + n2 )2
dt
定理 6. パラメータ p のベルヌイ分布に従う独立同分布の確率変数列 X1 , X2 , . . . , Xn に対して
S :=
n
k=1
Xk とおく。fm,n (z) を自由度対 (m, n) の F 分布の密度関数とし、F α2 , F α をそれぞれ
2
∞
Fα
F2(S+1),2(n−S) (z) dz =
2
∞
α
,
2
Fα
F2(n−S+1),2S (z) dz =
α
2
2
で定まる確率変数とする。このとき次が成り立つ。
(S + 1)F α2
S
<p<
(n − S + 1)F α + S
(S + 1)F α2 + (n − S)
P
≥1−α
2
証明 β :=
α
2
とおき、n1 と n2 をそれぞれ
n1
j=0
n j
p (1 − p)n−j ≤ β,
j
n2
n j
p (1 − p)n−j ≤ β,
j
j=0
をみたす最大および最小の整数とする。すると
P (n1 < S < n2 ) ≥ 1 − 2β = 1 − α
である(P (S = k) =
S(ω)
j=0
n j
p (1 − p)n−j だから)。ところで前の補題によるとすべての ω ∈ Ω で
j
n j
p (1 − p)n−j =
j
∞
(n−S(ω))p
(S(ω)+1)(1−p)
f2(S(ω)+1),2(n−S(ω)) (z) dz
が成り立つ。もし n1 < S(ω) であればこの積分は β よりも大きい。従って Fβ の定義から
Fβ (ω) >
(n − S(ω))p
,
(S(ω) + 1)(1 − p)
∀ω ∈ {n1 < S}
である。逆に、明らかにこの不等式をみたす ω では n1 < S(ω) である。同様にしてもし S(ω) < n2
であれば
n
j=S(ω)
n j
p (1 − p)n−j =
j
となるから、
Fβ (ω) >
∞
S(ω)(1−p)
(n−S(ω)+1)p
S(ω)(1 − p)
,
(n − S(ω) + 1)p
f2(n−S(ω)+1),2S(ω) (z) dz > β
∀ω ∈ {S < n2 }
であり、この 2 つの不等式を p について解くと結論を得る。
例 2. あるサイコロを 15 回振ったところ、1 の目が 5 回出た。1 の目が出る確率を p として、信頼係
数 95%で p の信頼区間を求める。 α2 = 0.025 として、2(S + 1) = 12, 2(n − S) = 20 だから (12, 20)
の F 分布の 2.5%点 F0.025 = 2.6758 である。また 2(n − S + 1) = 22, 2S = 10 だから (22, 10) の F
分布の 2.5%点 F0.025 = 3.3897 である(配布した F 分布表には載っていないので近くの値を補間し
(5+1)×2.6758
= 0.118 で (5+1)×2.6758+(15−5)
= 0.616 であり (0.118, 0.616)
と求まる。p = 0.167 はあり得るが、比較的大きい。さらにこの区間の中間値は 0.367 であり 5/15
て求める)
。だから
5
(15−5+1)×3.3897+5
より大きい。p = 0.1 や p = 0.7 はこの標本からは「あり得ない」
。つまり、
「本当は」p = 0.1 かも
知れないが、この標本を見る限り「信じられない」。
11
例 3. ある市長選挙の選挙場での出口調査を 100 人に対して行なったところ、A 候補には 45 人、B
候補には 36 人の人が投票したと答えた(標本では B 候補は A 候補の 80%の得票率である)。信頼
係数を 95%とし、両候補の得票率 p の信頼区間を求める。(母集団が大きいので、非復元抽出の問
題は生じないと仮定する。)
まず F 分布を用いた推定を行なう。A 候補は (112, 90) の F 分布の F0.025 = 1.4902 と (92, 110) の
F 分布の F0.025 = 1.4775 から (0.350, 0.553) である。B 候補は (130, 72) の F 分布の F0.025 = 1.5251
と (74, 128) の F 分布の F0.025 = 1.4861 から (0.266, 0.462) である。従って A 候補の得票率は 30%台
の可能性もあり、B 候補の得票率は 40%台の可能性もある。従ってこの出口調査の結果からは「A
候補が当選とは言い切れない」
。なお信頼係数を 90%としたときには (0.365, 0.537) と (0.280, 0.446)
であり、やはりまだ言い切れない。
定理 5 を用いた推定では、信頼係数 95%のときに A 候補は (0.368, 0.532) で B 候補は (0.281, 0.439)
である。信頼係数 90%のときには A 候補は (0.386, 0.514) で B 候補は (0.298, 0.446) である。まだ
誤った「当選」を出してしまうほどではないが、正規分布近似は標本 100 でも危ういことがある。
必要とされる正確さに応じて使い分ければよいが、昔と異なり、厳密な推定がそれほど計算困難と
いうわけではない。
[計算機の進歩はこの種の厳密な議論に貢献しうるが、それを用いる側の理論
が古色蒼然では何も役立たない。肝要なのは計算機の能力ではなくて、使う側の理解である。]
例 4. 前の例と同様に 454 人の標本を得た結果 A 候補は 205 人(45.2%)で B 候補は 163 人(35.9%)
の得票であった。その結果信頼係数を 95%として、F 分布による信頼区間は A 候補が (0.405, 0.499)
で B 候補が (0.315, 0.405) であった。なお、定理 5 を用いた推定では、A 候補が (0.413, 0.490) で
B 候補が (0.322, 0.396) である。従って、A 候補は B 候補よりも支持されていると推定できる。
注意:信頼区間の幅は得票数によって変化する。従って 454 人の調査が常に十分だというわけで
はない。最小限の標本数を効率よく決定するには、事前にどの程度の割合になるかの見積もり作業
も大切である。「事前電話調査と出口調査によれば当選確実である」
標本数をいくらにとればよいかを F 分布を用いて厳密に求めることは難しい。しかし定理 5 を
用いた正規分布であれば易しい。従って定理 5 は必要となる標本数の目処をつけるためには有効
である。
3.4
まとめ
我々は正規母集団の標本分析において、正規分布から出発し、χ2 分布、F 分布を経由してつい
に t 分布に到達した。それを用いて標準偏差が未知でも、t 分布によって正規分布の平均を推定で
きる。ところが、ポアソン分布では χ2 分布、ベルヌイ分布では F 分布を用いると完全な推定がで
きる。そしてそれらは標本数が多いと、正規分布で近似的に推定できる。つまり正規分布・χ2 分
布、F 分布、t 分布は元来正規分布特有に生じるように見えるが、典型的な標本分布はすべてこれ
に統括されているという極めて不思議な体験をしたわけである。つまりこの 4 つの分布を使いこ
なすということが、即ちこの世の中の典型的な現象をすべて理解するということにつながるわけで
あって、それはいうまでもなく感覚的に把握することは困難なもので、数学的考察による偉大な到
達点である。
12