1 主な確率分布の例

数理統計学第 3 回 講義ノート
勝島 義史
2015/5/12
1 主な確率分布の例
今回の目標は、古くから知られる代表的な確率分布(離散)を紹介することである。具
体的には
0. ベルヌーイ分布
1. 二項分布 (既出)
2. ポアソン分布
3. 幾何分布
4. 負の二項分布
を紹介する。分布を羅列して、それらの期待値や分散を計算する。復習をすると、確率分
布とは、確率変数 X の値の、それぞれの起こる確率のことである。確率変数とは、起こ
りうる全ての事象の空間(標本空間)から実数の空間への写像のことであった。
念のためさらにおさらいすると、標本空間の一つ一つの元のことを根元事象あるいは標
本と言った。なぜ確率変数を考えるかというと、標本空間はとても複雑な構造をしていて
も良く、そのため、なにか物事を考えるときには抽象化しなければならないのである。ど
ういうことかというと、例えば地球上にいる動物全てを対象に考えるとわかりやすい。動
物は様々な情報を持っている。例えば 標本空間が表のようになっていたとして、身長の
標本
身長
体重
性別
確率
犬1
50cm
7kg
オス
1/2
金魚 1
10cm
100g
メス
1/4
カマキリ 1
3cm
0.3g
オス
1/8
カマキリ 2
10cm
5g
オス
1/16
156cm
105kg
オス
1/32
18cm
20g
雌雄同体
1/32
先生 1
ミミズ 1
分布を知りたいときに、性別の情報はあまり役にたつとは思えない (カマキリなどはメス
1
の方が大きいが)。個体に対して一つの情報を持ってきなさい、というのが一次元の確率
変数である。確率変数 X : Ω → R, ω 7→ (ω の身長) の確率分布を調べることは以下の表
を作ることと同じである。もとの標本空間はややこしいので、抽象化した確率分布のみを
身長
3cm
10cm
18cm
50cm
156cm
確率
1/8
5/16
1/32
1/2
1/32
見るのがよいだろう。確率分布を考えることは、新しい標本空間を考えることと似たよう
なものである。例えば上の例では、新しい標本空間に Ω′ = {3, 10, 18, 50, 156} を、それ
らの確率を 1/8, 5/16, 1/32, 1/2, 1/32 と与えることに対応する。カマキリ 2 と金魚 1 は
同じ値を持つので、同じものとして扱い、身長 10cm である確率は 1/4 + 1/16 = 5/16 と
なる。以降、しばらくは確率空間として、このように標本が数字だけで与えられるものを
考える。
0. ベルヌーイ分布
ベルヌーイ分布とは、標本空間が Ω = {0, 1} で、それぞれの確率が
P ({0}) = 1 − p,
P ({1}) = p
となる確率空間 (Ω, P ) から確率変数 X : ω 7→ ω(つまり 0 には 0 を、1 には 1 を与える
ルール) の分布のことである。期待値や分散の計算をする。そのために、あえてモーメン
ト母関数から始める。モーメント母関数は、離散確率変数に対しては以下のように定義さ
れた。すなわち、確率変数の値域が {x1 , x2 , . . . } で、それぞれの確率が P ({xi }) = fi で
与えられたとき、モーメント母関数 MX (t) は
MX (t) =
∑
etxi fi
i
と定義された。ここでは、値域が {x0 = 0, x1 = 1} で、確率分布が P ({0}) = 1 − p,
P ({1}) = p なので、モーメント母関数は
MX (t) = et·0 (1 − p) + et·1 p
= (1 − p) + et p
2
となる。確率変数の期待値は、モーメント母関数の t 微分に、t = 0 を代入したもので
あった。すなわち
d
MX (t)|t=0
dt
= pet |t=0 = p
E(X) =
2
d
d
2
となる。また、分散は V (X) = { dt
2 MX (t) − ( dt MX (t)) }|t=0 であった。期待値と同様
に計算すると
V (X) = {et p − (et p)2 }|t=0 = p − p2
= p(1 − p)
となる。ちなみに、これらを定義通りに計算すると、以下のようになる。
E(X) =
∑
xi fi
i
= 0 × (1 − p) + 1 × p = p
V (X) =
∑
(xi − E(X))2 fi
i
= (−p)2 (1 − p) + (1 − p)2 p
= (1 − p)p(1 − p + p) = p(1 − p)
確かに、モーメント母関数から計算したものと一致する。どちらで計算しても良い。1 の
起こる確率が p であるようなベルヌーイ分布のことを、Be(p) と略記する。
1. 二項分布
二項分布は前回定義した。標本空間として Ω = {(x1 , x2 , . . . , xN )}、xi は 0 または
1、を持ってきて、確率変数として X =
∑
i
xi を持ってきていた。ここでは確率変
数の分布を見ている。値域は {0, 1, 2, . . . , N } である。確率変数 X の値が n になる確
率は P ({X(ω) = n}) =
N
n
n!(N −n)! p (1
− p)N −n である。二項分布の期待値、分散は
E(X) = N p、V (X) = N p(1 − p) となることを、前回示した。今回はモーメント母関数
の計算から求めてみよう。モーメント母関数 MX (t) は
MX (t) =
N
∑
n=0
etn
N!
pn (1 − p)N −p
n!(N − n)!
3
である。pn と etn を一緒にして計算すると、
=
N
∑
N!
(pet )n (1 − p)N −n
n!(N
−
n)!
n=0
= (pet + (1 − p))N
とわかる。よって期待値は
d
MX (t)|t=0
dt
= N {pet (pet + (1 − p)N }|t=0
= Np
E(X) =
となる。分散も同様に計算できる。このような二項分布のことを、Bi(N, p) と略記する。
2. ポアソン分布
確率変数の値域が {0, 1, 2, . . . , n, . . . }、つまり自然数全体で、各 n についての確率が
P ({ω|X(ω) = n}) =
e−λ λn
n!
であるような確率分布のことをポアソン分布と呼ぶ。ポアソ
ン分布を P o(λ) で表す。ポアソン分布の解説をする前に、数学的な注意をひとつ。
関数 f (x) は無限回微分可能であると仮定する。関数 f (x) について、x = x0 のまわり
で以下の級数を考える。
fˆ(x) =
∞
∑
1 (n)
f (x0 )(x − x0 )n
n!
n=0
この級数のことを、f (x) の x = x0 近傍のテイラー級数と呼ぶ。この級数が x0 の近くで
絶対収束する (「各項の絶対値」の和が収束する) とき、f (x) = fˆ(x) が成立する。
特に、ex について、x = 0 周りでテイラー級数を計算すると以下のようになる。
dn x
dxn e |x=0
= ex |x=0 = 1 なので、
ex =
∞
∑
1 n
x
n!
n=0
4
となる。この事実を用いると、
∞
∑
P ({n}) = e
−λ
n=0
∞
∑
1 n
λ
n!
n=0
= e−λ eλ = 1
となる。確かに、すべての確率の和は 1 になる。ポアソン分布の期待値と分散を計算し
よう。
E(X) =
∞
∑
e−λ λn
n
n!
n=0
= λe−λ
∞
∑
λn−1
(n − 1)!
n=1
= λe−λ eλ = λ
つまり、期待値は λ である。分散の計算をする。
V (X) = e−λ
= e−λ
∞
∑
n=0
∞
∑
(n − λ)2
1 n
λ
n!
{n(n − 1) − (2λ − 1)n + λ2 }
n=0
1 n
λ
n!
= λ − (2λ − 1)λ + λ2
2
=λ
分散も、期待値と同じく V (X) = λ となる。モーメント母関数を計算すると
MX (t) = e
∞
∑
−λ
n=0
=e
ent
1 n
λ
n!
−λ λet
e
となる。
ポアソン分布は、二項分布のある意味で極限になる。N p = λ と固定したまま、N → ∞
とすると、ポアソン分布が得られる。具体的に見てみると、
N!
pn (1 − p)N −n
n!(N − n)!
1
N p N −n
N N −1
N −n+1
= (N p)n (1 −
)
×(
···
)
n!
N
N N
N
P (n) =
5
λ = N p で、N → ∞ なので、この値は
1 n −λ
λ e
n!
に収束する。グラフで見てみよう。
N=10 P=0.3
0.00
0.00
0.05
0.05
0.10
0.10
0.15
0.15
0.20
0.25
0.20
0.30
0.25
N=5 P=0.6
図1
図2
Bi(5,0.6)
Poisson lambda=3
0.00
0.00
0.05
0.05
0.10
0.10
0.15
0.15
0.20
0.20
N=50 P=0.06
Bi(10,0.3)
図3
図4
Bi(50,0.06)
Po(3)
グラフは、λ = N p = 3 のまま、N を 5, 10, 50 と大きくしたものとポアソン分布 P o(3)
の n ≤ 20 までの棒グラフである。N = 50 程度までになると、ほとんど二項分布とポア
ソン分布は同じようなものである。ちなみに Bi(50, 0.06) と P o(3) の間の、確率の差の
最大値は 0.007 程度である。
6
R 言語では、このような古典的な分布の値を与える関数が組み込まれている。例えば、
x <- dbinom (0:20 ,50 ,0.06)
と R のコンソールでタイプすると、21 次元ベクトル x に、二項分布 Bi(50, 0.06) の n = 0
から n = 20 の確率を振る。
x
とタイプすると確率を表示する。
[1]
[6]
[11]
[16]
[21]
4.533073 e -02
1.017634 e -01
5.227493 e -04
1.213630 e -07
2.692470 e -12
1.446725 e -01
4.871650 e -02
1.213344 e -04
1.694563 e -08
2.262432 e -01
1.954583 e -02
2.517044 e -05
2.163272 e -09
2.310569 e -01
6.705883 e -03
4.696286 e -06
2.531488 e -10
1.732927 e -01
1.997497 e -03
7.922306 e -07
2.721421 e -11
ここで e − 05 などは、(単精度) 実数 ×10−5 等を意味する。
dbinom (n ,N , p )
は二項分布 Bi(N, p) の確率分布の値 N Cn pn (1 − p)N −n を計算する関数で、その引数
に 0 : 20 と入れると 0 から 20 まで入れた値のベクトルを返す。同様に、ポアソン分布
P o(λ) の場合
dpois (n , lambda )
とすると n での値
1 −λ n
λ
n! e
を与える。
ポアソン分布はいろいろな自然現象のモデルに現れる。詳しくはググってください。
3. 幾何分布
例 1 コインを何度も投げる。一回の試行で表が出る確率は 0 < p < 1 であるとする。表
が出ればコイン投げは終わるとする。このとき、n 回目でコイン投げが終わる確率を求め
よ。——–
一回目で表が出る確率は p であり、一回目で表が出ない確率は 1−p である。試行が独立
であれば、一回目が裏で二回目が表である確率は p(1 − p) となる。以下、同様にして n
回目の試行で表が出る確率は p(1 − p)n−1 である。
7
この例のような確率分布のことを、幾何分布という。つまり、変数 X の値域が {1, 2, . . . }
で、確率 P (X = n) が p(1 − p)n−1 であるような確率変数の分布を幾何分布という。幾何
分布のことを、Ge(p) と略す。期待値と分散を計算しよう。
期待値は
E(X) =
∞
∑
np(1 − p)
n−1
n=1
∞
∑
d
= −p
(1 − p)n
dp
n=0
∞
d ∑
1
d
= −p
(1 − p)n = −p
dp n=0
dp 1 − (1 − p)
=p
1
1
=
2
p
p
分散は、
∞
∑
n p(1 − p)
2
n−1
n=1
∞
∑
d
d
[(1 − p) (1 − p)n ]
=p
dp
dp
n=0
= −p
であることより、V (X) =
V (X) =
1
p
− ( p1 )2 =
d
1
1
[(1 − p) ] =
dp
p
p
1−p
p2
が示される。ここで、分散の計算には
∑
2
2
n xn fn ) であることを用いた。
n xn fn − (
∑
幾何分布の確率分布を R で出そうとするときは注意が必要で、n は 0 から始まる仕様
になっている。つまり、一回目の試行を n = 0 と考えて
dgeom (n , p )
とタイプする。これは定義の流儀の違いなので、郷に入っては郷に従ってください。グラ
フは単調に減少するグラフになる。
8
0.0
0.1
0.2
0.3
0.4
0.5
P=0.5
ちなみにこのグラフの R での書き方は、
x <- dgeom (0:10 ,0.5)
barplot (x , main =" P =0.5")
である。
4. 負の二項分布
例 2 幾何分布の場合と同じ設定で、今度は表が n 回出たときにコイン投げを終了する。
このとき、コイン投げを合計何回したかを数える。n + x 回でコイン投げが終了する確
率は
n−1
(1
n+x−1 Cx p
− p)x · p
つまり、n + x − 1 回目のコイン投げまでに n − 1 回表がでて、ちょうど n + x 回目に表
が出ることを考えたものに等しい。
この確率の、x = 0 から ∞ までの和は確かに 1 になる。なぜなら
9
∞
∑
x
n+x−1 Cx (1 − p) =
x=0
∑ (n + x − 1) · · · n
x!
[
]
∞
∑
1 dx
−n
=
(1 − q)
(1 − p)x
x
x!
dq
q=0
x=0
=
1
1
= n
n
(1 − (1 − p))
p
なので、
∞
∑
n
n+x−1 Cx p (1
− p)x = 1
x=0
とわかる。このような確率分布を負の二項分布と呼び、N eBi(n, p) 等と書く。定義の流
儀によっては n + x を確率変数とすることもあるが、ここでは「n 回目の表が出るまでに
裏の出た回数」x を確率変数と思うことにする。期待値を計算する。
E(X) =
=
∞
∑
x=0
∞
∑
x · n+x−1 Cx pn (1 − p)x
n · n+x−1 Cx−1 pn (1 − p)x
x=1
∞
=
n(1 − p) ∑
n+1
(1 − p)x−1
(n+1)+(x−1)−1 Cx−1 p
p
x=1
=
n(1 − p)
p
同様に計算すると、分散は V (X) =
n(1−p)
p2
とわかる。
R では負の二項分布の計算は
dnbinom (x ,n , p )
の形で計算できる。
例えば、n = 4、p = 0.3 の負の二項分布の確率分布を x = 0 から x = 30 まで求める
には
dnbinom (0:30 ,4 ,0.3)
10
0.00
0.02
0.04
0.06
0.08
とタイプすれば良い。棒グラフで見ると以下のようになる。
まとめ以下の表に主な確率分布の特徴をまとめておく。
分布
期待値
分散
Np
N p(1 − p)
P o(λ)
λ
λ
Ge(p)
1
p
n(1−p)
p
1−p
p2
n(1−p)
p2
Bi(N, p)
N eBi(n, p)
11
R の関数
dbinom(n,N,p)
dpois(n,lambda)
dgeom(n,p)
dnbinom(x,n,p)