第03回

専攻科 応用数学 II
第 3 回 講義資料 離散型確率変数
離散型確率変数
1
サイコロを投げたとき, 出た目が偶数ならば 1 点, 奇数ならば −1 点がもらえるゲームを考えたとす
る. この場合, もらえる得点は 1 回の試行の後に決まるので, 根元事象の関数といえる. サイコロを 1
回投げるという試行において標本空間は Ω = {ω1 , ω2 , · · · , ω6 } である. ただし ωi は「i の目が出る」
という事象である. このとき, 1 回の試行の後, もらえる得点を X とすると
X(ω) = 1 (ω = ω2 , ω4 , ω6 のとき)
X(ω) = −1 (ω = ω1 , ω3 , ω5 のとき)
ということになる. これが確率変数の考え方である. 上の例では確率変数のとる値は −1 あるいは 1
の 2 通りであるが, 取り得る値が高々可算個である確率変数 (離散型確率変数) を定義しよう.
定義 (離散型確率変数) (Ω, F, P ) を確率空間とする. Ω 上で定義された実数値関数 X : Ω → R が
離散型確率変数であるとは, 次の 2 条件を満たすことである:
(1) X による Ω の像 X(Ω)(= ImX とも書かれる) は R の高々可算な部分集合である. つまり, X
の取り得る値の集合が {x1 , x2 , · · · , xn , · · · } と書くことができる.
(2) 任意の実数 x に対して {ω ∈ Ω|X(ω) = x}(= X −1 ({x})) ∈ F が成り立つ.
注意
(1) 条件 (1) は Ω 自身が高々可算な集合であれば, 自動的に満たされるが, Ω 自身が高々可算な集合で
なくてもよい.
(2) 条件 (2) は次のように考えればよい. X は R に値をとる関数であるが, 確率変数の値は偶然性を
ともなう試行の後に決まるので, 確実に知るのは不可能である. そのため, 任意の実数 x に対して
X が値 x をとる確率が定義できる状態にしておきたいということである. X が値 x をとる確率
が定義できるためには
X(ω0 ) = x ⇐⇒ ω0 ∈ {ω ∈ Ω|X(ω) = x}
であることに注意すれば {ω ∈ Ω|X(ω) = x} という集合の確率が定義される, つまりこの集合が
F の元に入るということが要求される.
確率変数を用いて, 次の定義をしよう.
定義 (確率質量関数) (Ω, F, P ) を確率空間とし, X : Ω → R を離散型確率変数とする. このとき
pX (x) = P ({ω ∈ Ω|X(ω) = x})
を確率質量関数という.
注意 P ({ω ∈ Ω|X(ω) = x}) を簡単に P (X = x) と書くこともある.
確率質量関数の性質を述べよう. X は離散確率変数であるから, X(Ω) は可算集合である.
1
確率測度の完全加法性より
∑
∪
pX (x) = P (
{ω ∈ Ω|X(ω) = x}) = P (Ω) = 1
x∈X(Ω)
x∈X(Ω)
∑
が成り立つ. ここで
∪
や
x∈X(Ω)
の x ∈ X(Ω) は, X(Ω) に属する x のすべてについて和をとる,
x∈X(Ω)
和集合をとるということである. 今, X(Ω) つまり, X の取り得る値をすべて集めて出来る集合は高々
可算な集合であるので, {x1 , x2 , · · · , xn , · · · } と書くことが出来る. これを用いれば
∑
pX (x) =
x∈X(Ω)
∞
∑
pX (xi ),
i=1
∪
{ω ∈ Ω|X(ω) = x} =
∞
∪
{ω ∈ Ω|X(ω) = xi }
i=1
x∈X(Ω)
と書くことができる.
定理 S = {s1 , s2 , · · · , } は異なる実数の可算集合で, {π1 , π2 , · · · , } は次の条件をみたす実数の集
まりであるとする.
• すべての i = 1, 2, · · · に対して π = 1
•
∞
∑
πi = 1
i=1
このとき, ある確率空間 (Ω, F, P ) とその上の離散確率変数 X が存在して
• すべての i = 1, 2, · · · に対して pX (si ) = πi
• s∈
/ S ならば pX (s) = 0
証明 Ω = S, F = 2Ω とする. このとき, A ∈ F に対して
∑
P (A) =
πi
i:si ∈A
とする. これは確率測度になる (第 1 回講義資料の 命題 参照). また確率変数 X : Ω → R をすべての
ω ∈ Ω に対して
X(ω) = ω
と定義すればよい. 2.
この定理は離散確率変数の本質部分を抜き出しているといえる. 別の言い方をすれば, 離散確率変数
は上の si や πi たちだけがあれば, 標本空間, σ− 加法族や確率測度については忘れてしまっても問題
ないということを意味する. 確率空間は行う試行によって変わるが, 異なる試行であっても確率変数を
通して同じ性質をもつということを見ることができる.
(Ω, F, P ) を離散型確率空間 (このときは Ω は高々可算集合) とし, X を (離散) 確率変数とすると,
X による Ω の像 X(Ω) も高々可算な集合となる. R = X(Ω) とおくと, 確率質量関数 µ(x) = pX (x)
は R 上の関数となるが, A ⊂ R に対して
∑
µ(A) =
pX (a)
a∈A
˜ を R 含む可算集合とし, a ∈ R
˜\R
と定義することによって µ は R 上の確率測度となる. よって, R
˜ 上に拡張すれば, (R,
˜ 2R˜ , µ) は確率空間となる. µ を X の法則あるいは分布
に対して µ(a) = 0 と R
2
という. つまり試行から出発した確率空間は確率変数によって実数の可算部分集合を標本空間とする
確率空間へ問題の舞台を移すことができるのである.
2
離散確率変数の例
離散確率変数の例を述べよう.
例 (Ω, F, P ) を確率空間とし, E ∈ F とする. このとき
{
1 ω∈E
χE (ω) =
0 ω∈
/E
とすれば, χE は確率変数となる. χE は E の特性関数という.
証明 {ω ∈ Ω|χE (ω) = 1} = E ∈ F , {ω ∈ Ω|χE (ω) = 0} = E c ∈ F , x ̸= 0, 1 に対しては
{ω ∈ Ω|χE (ω) = x} = ∅ ∈ F. 2
例
(1) (ベルヌーイ分布) X が 0, 1 の値をとり, P (X = 1) = p, P (X = 0) = q (p,q > 0, p + q = 1) とな
るとき, X はパラメータ p のベルヌーイ分布に従うといわれる.
(2) (二項分布) X の像が {0, 1, 2, · · · , n} であり, k = 0, 1, 2, · · · , に対して
( )
n k
P (X = k) =
p (1 − p)n−k
k
となるとき, X はパラメータ p の二項分布に従うといわれる.
(3) (ポアソン分布) λ > 0 とする. X の像が {0, 1, 2, · · · } であって, k = 0, 1, 2, · · · に対して
P (X = k) =
λk −λ
e
k!
となるとき, X はパラメータ λ のポアソン分布に従うといわれる.
(4) (幾何分布) 0 < p < 1 とする. X の像が {1, 2, 3, · · · } であって, k = 1, 2, 3, · · · に対して
P (X = k) = p(1 − p)k−1
となるとき, X はパラメータ p の幾何分布に従うといわれる.
問 次の問に答えよ.
(1) X がパラメータ p の二項分布に従うとき
n
∑
P (X = k) = 1 を示せ.
k=0
(2) X がパラメータ λ のポアソン分布に従うとき
∞
∑
P (X = k) = 1 を示せ.
k=0
(3) X がパラメータ p の幾何分布に従うとき,
∞
∑
P (X = k) = 1 を示せ.
k=1
3
確率変数の関数
3
(Ω, F, P ) を確率空間とし, X : Ω → R を離散確率変数とする. g : R → R とするとき, Y (ω) =
g(X(ω)) とすると Y : Ω → R であるが, 再び同じ確率空間の上の確率変数となることを見よう. ま
ず, X は離散確率変数であるから X(Ω) = {s1 , s2 , · · · } と書ける. よって Y = g(X) の像による Ω
の像は {g(s1 ), g(s2 ), · · · } である. この中に同じものがあるかもしれないが, 高々可算な集合である
ことにはかわりない. よって, 確率変数の条件の (1) は示された. 次に y を任意の実数とするとき,
{ω ∈ Ω|Y (ω) = y} ∈ F を示そう. X(Ω) = {s1 , s2 , · · · }, Y (Ω) = {t1 , t2 , · · · } とする. y ∈
/ Y (Ω) ならば
{ω ∈ Ω|Y (ω) = y} = ∅ であるから F の元である. y = ti とすると, ti = g(sj ) となる j が存在する.
よって
∪
{ω ∈ Ω|Y (ω) = ti } =
{ω ∈ Ω|X(ω) = sj }
j:g(sj )=ti
であるから, σ− 加法族の定義より F の元である.
X の確率質量関数を pX (x) とするとき, Y = g(X) の確率質量関数 pY (y) を求めよう. まず
∪
{ω ∈ Ω|Y (ω) = y} =
{ω ∈ Ω|X(ω) = x}
x∈X(Ω):g(x)=y
に注意しよう. まず ω0 ∈ {ω ∈ Ω|Y (ω) = y} とする. X(ω) = x0 とすると, g(x0 ) = y であるから
ω0 ∈ {ω ∈ Ω|X(ω) = x0 } よって ⊂ が成立. 逆に ω0 ∈ 右の集合とすると, ある g(x) = y なる x ∈ X(Ω)
があって ω0 ∈ {ω ∈ Ω|X(ω) = x} となる. よって Y (ω0 ) = g(X(ω0 )) = g(x) = y より ω0 ∈ 左の集合
となる. また, 右の集合の和集合は可算個の和集合であり, 互いに素であることに注意する. 確率測度
の完全加法性により
pY (y) = P ({ω ∈ Ω|Y (ω) = y})


∪
= P
{ω ∈ Ω|X(ω) = x}
x∈X(Ω):g(x)=y
=
∑
P ({ω ∈ Ω|X(ω) = x})
x∈X(Ω):g(x)=y
=
∑
pX (x)
x∈X(Ω):g(x)=y
となる.
例題 3.1 確率空間 (Ω, F, P ) 上で定義された確率変数 X の確率質量関数を pX とし, Y = X 2 と
する. このとき, Y の確率質量関数を pX を用いて表せ.
解 まず X 2 = 0 より, y < 0 に対して pY (y) = P (Y = y) = 0. 次に, y = 0 のとき, x = 0 より
√
py (0) = pX (0). 次に y > 0 とすると, y = x2 となる x は x = ± y. よって
pY (y) =
∑
√
√
pX (x) = pX ( y) + pX (− y)
x∈X(Ω),y=x2
4
以上より

y<0
 0
pX (0)
y=0
pY (y) =
√
√

pX ( y) + pX (− y) y > 0
平均 (期待値) · 分散
4
4.1
平均
サイコロを何回も投げるという試行を考える. 何回も投げると起こりうる結果 1, 2, 3, 4, 5, 6 はそ
れぞれサイコロ投げの回数の 6 分の 1 くらい現れるであろう (詳細は「大数の法則」で示される). 出
た目の平均は近似的に
1
1
1
1
1
1
7
×1+ ×2+ ×3+ ×4+ ×5+ =
6
6
6
6
6
6
2
になるであろう. この考え方は確率変数を用いて次のように定義される.
定義 X を確率空間 (Ω, F, P ) 上の離散確率変数とする. このとき, X の平均あるいは期待値
E(X) は次の式で定義される
∑
E(X) =
xP (X = x)
x∈X(Ω)
ただし, 上の式の右辺が絶対収束, つまり
∑
|xP (X = x)| < ∞
x∈X(Ω)
が成り立つときに限る.
例 X がベルヌーイ分布に従う確率変数であるとき
E(X) = 0 × P (X = 0) + 1 × P (X = 1) = p
確率変数の関数 g(X) の平均について, 次のことがわかる.
定理 X を確率空間 (Ω, F, P ) 上の離散確率変数とする. また g : R → R とする. このとき
E(g(X)) =
∑
g(x)P (X = x)
x∈X(Ω)
が成り立つ. ただし, 右辺の和が絶対収束するときに限る.
証明 I = X(Ω) = {x1 , x2 , · · · } とすると Y = g(X) による Ω の像は g(I) = {y1 , y2 , · · · } である.
5
よって
E(Y ) =
∑
yP (Y = y) =
∞
∑
yj P (Y = yj )
j=1
y∈g(I)
=
=
∞
∑
∑
yj
P (X = xi )
j=1
i:g(xi )=yj
∞
∑
∑
g(xi )P (X = xi )
j=1 i:g(xi )=yj
=
∞
∑
g(xi )P (X = xi )
i=1
=
∑
g(x)P (X = x)
x∈X(Ω)
絶対収束するので和が順序に依らないことに注意する. 2.
例題 3.2 X がパラメータ λ のポアソン分布に従うとき, Y = etX の平均を求めよ. t は実数と
する.
解 g(x) = e
tx
として定理を用いる.
E(Y ) = E(etX ) =
∞
∑
g(k)P (X = k) =
∞
∑
k=0
= e−λ
∞
∑
(et λ)k
k=0
k!
k=0
etk
λk −λ
e
k!
= e−λ eλe = eλ(e −1)
t
t
後に定義するが, MX (t) = E(etX ) と書き, X のモーメント母関数という.
4.2
分散
定義 X を離散確率変数とする. このとき
E((X − E(X))2 )
を Var(X) と書き, X の分散という:
Var(X) = E((X − E(X))2 )
E(X) = µ, g(x) = (x − µ) とするれば, 先ほどの定理より
∑
∑
Var(X) =
g(x)P (X = x) =
(x − µ)2 P (X = x)
2
x∈X(Ω)
x∈X(Ω)
6
が成り立つ. 分散を求めるのに, 便利な公式を得よう.
∑
∑
Var(X) =
(x − µ)2 P (X = x) =
(x2 − xµ + µ2 )2 P (X = x)
x∈X(Ω)
=
∑
x∈X(Ω)
∑
x2 P (X = x) − 2µ
x∈X(Ω)
xP (X = x) + µ2
x∈X(Ω)
∑
P (X = x)
x∈X(Ω)
= E(X ) − 2µE(X) + µ = E(X ) − E(X)
2
2
2
2
よって次を得る:
公式 Var(X) = E(X 2 ) − E(X)2
例題 3.3 X がパラメータ p の幾何分布に従うとき, X の平均, 分散を求めよ. また |t| が十分小
さいとき E(etX ) を求めよ.
解 q = 1 − p とおくと P (X = k) = pq
E(X) =
∞
∑
k−1
(k = 1, 2, · · · ) であるので
kpq k−1 = p + 2pq + 3pq 2 + · · · + npq n−1 + · · ·
k=0
= p(1 + 2q + 3q 2 + nq n−1 + · · · )
ここで,
Sn = 1 + 2q + 3q 2 + · · · + nq n−1
とおくと
d
d
Sn = (q + q 2 + · · · + q n ) =
dq
dq
(
q(1 − q n )
1−q
)
=
1 − qn
nq n
−
(1 − q)2 1 − q
ここで |q| < 1 より q n → 0, nq n → 0 (n → ∞) であるから
E(X) = p
1
1
=
(1 − q)2
p
次に
2
E(X ) =
∞
∑
k 2 pq k−1 = p + 22 pq + 32 pq 2 + · · · + n2 pq n−1 + · · ·
k=0
= p(1 + 22 q + 32 q 2 + n2 q n−1 + · · · )
ここで
Tn = 1 + 22 q + 32 q 2 + · · · + n2 q n−1
d
d
d
(q + 2q 2 + 3q 3 + · · · nq n ) = (qSn ) = Sn + q Sn
=
dq
dq
dq
{
}
n−1
n
−nq (1 − q) + 2(1 − q ) n(n − 1)q n−1 (1 − q) + nq n
= Sn − q
−
(1 − q)3
(1 − q)2
ここで n → ∞ のとき Sn → 1/p2 , q n → 0, n(n − 1)q n−1 (1 − q) → 0, nq n → 0 より
Tn →
1
2q
+
2
p
(1 − q)3
7
よって
(
)
1
2q
1 2q
E(X ) = p 2 + 3 = + 2
p
p
p p
1 2q
1
1
Var(X) = E(X 2 ) − E(X)2 = + 2 − 2 = 2
p p
p
p
2
最後に
E(etX ) =
∞
∑
etk pq k−1 = pet
k=1
∞
∑
(qet )k−1
k=1
ここで, |q| < 1 より |t| が十分小さいとき |et q| < 1 である. よって, 無限等比級数の公式から
E(etX ) = pet
pet
pet
1
=
=
1 − qet
1 − qet
1 − (1 − p)et
問 X がパラメータ p の二項分布に従うとき, X の平均, 分散を求めよ. また E(etX ) を求めよ.
条件付期待値
5
X を確率空間 (Ω, F, P ) 上の離散型確率変数とし, B ∈ F を P (B) > 0 なる事象とする. B が起こ
ることが与えられたとき, X の分布に影響を及ぼす. このとき P (X = x) なる確率は
P (X = x|B) =
P ({ω ∈ Ω|X(ω) = x} ∩ B)
P (B)
という条件付確率となる. これを用いて次の定義を行う.
定義 X を確率空間 (Ω, F, P ) 上の離散型確率変数とし, B ∈ F を P (B) > 0 なる事象とする. こ
のとき B が与えられたときの X の条件付期待値を次の式で定義する:
∑
E(X|B) =
xP (X = x|B).
x∈X(Ω)
ただし, 右辺の和が絶対収束するときに限る.
定理 X を確率空間 (Ω, F, P ) 上の離散型確率変数とし, {Bi |i = 1, 2, · · · } ⊂ F を P (Bi ) > 0
(i = 1, 2, · · · ) なる Ω の分割とすると
E(X) =
∞
∑
E(X|Bi )P (Bi )
i=1
ただし,
∞
∑
E(|X||Bi )P (Bi ) < ∞ のときに限る.
i=1
8
証明 X(Ω) = {x1 , x2 , · · · } とおくと, E(X|Bi ) =
∞
∑
xj P (X = xj |Bi ) より
j=1
∞
∑
E(X|Bi )P (Bi ) =
i=1
=
(∞
∞
∑
∑
)
xj P (X = xj |Bi ) P (Bi )
i=1
j=1
∞
∞
∑∑
xj P (X = xj |Bi )P (Bi )(絶対収束性から和の順序の変更を行った)
j=1 i=1
=
=
∞
∑
j=1
∞
∑
xj
(∞
∑
)
P (X = xj |Bi )P (Bi )
i=1
xj P (X = xj )(全確率の公式)
j=1
= E(X)
となり示される. 2
例題 3.4 コインを繰り返し投げる. 各回で表の出る確率は p とする. 1 回目に出た面が続く回数
を X とするとき, X の平均を求めよ. つまり, 1 回目に表が出れば, 表が続く回数, 1 回目に裏が出
れば, 裏が続く回数のことである.
解 1 回目に表が出るという事象を H とすると, H と H は標本空間の分割を与える. よって, 定理
より
E(X) = E(X|H)P (H) + E(X|H c )P (H c )
c
まず, E(X|H) は 1 回目に表るという条件で, 表が続く回数であるので q = 1 − p とすると P (X =
k|H) = pk−1 q である. なぜなら, 1 回目に表が出るという条件の下で表が合計 k 回続くためには, あと
表が k − 1 回続き, その後, 裏がでればよいからである. よって
E(X|H) =
∞
∑
kP (X = k|H) =
∞
∑
k=1
k=1
kpk−1 q =
1
q
同様にして
E(X|H c ) =
1
p
であるので
E(X) = E(X|H)P (H) + E(X|H c )P (H c ) =
9
1
1
1
·p+ ·q =
−2
q
p
pq