ω ∈ Ω|X(ω) ≤ x, Y (ω) ≤ y

情報ネットワーク学基礎１講義ノート（7 月 16 日）
[14]
氏名：
同時確率変数
定義 1 (同時確率変数)
(Ω, F, P ) を確率空間とする．Ω 上の二つの確率変数 X : Ω → R と Y : Ω → R が与えられたとき，確率変数
の組 (X, Y ) を同時確率変数という．これはベクトル値確率変数
ω ∈ Ω → (X(ω), Y (ω)) ∈ R2 = R × R
と見なすことができる．
注意 1 事象「X = x」，事象「X = x かつ Y = y 」，事象「X ≤ x かつ Y ≤ y 」などの言い方をする場合が
あるが, これらは以下の意味である．
• 事象「X = x」
：{ω ∈ Ω | X(ω) = x }
• 事象「X = x かつ Y = y 」
：{ω ∈ Ω | X(ω) = x, Y (ω) = y }
• 事象「X ≤ x かつ Y ≤ y 」
：{ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y }
注意 2 確率空間 (Ω, F, P ) と確率変数 X, Y に関して
{ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y } = {ω ∈ Ω | X(ω) ≤ x } ∩ {ω ∈ Ω | Y (ω) ≤ y } ∈ F
であるから，同時累積分布関数を以下のように計算できる．
定義 2 (同時累積分布関数)
同時確率変数 (X, Y ) について，
FXY (x, y) := P ({ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y })
=
P ({ω ∈ Ω | X(ω) ≤ x } ∩ {ω ∈ Ω | Y (ω) ≤ y })
を確率変数 X, Y の同時（累積）分布関数 (joint distribution function) という．
定義 3 (離散型同時確率変数，同時確率関数)
同時確率変数 (X, Y ) について，X と Y の値域：
X = X(Ω) = {X(ω) | ω ∈ Ω } ,
Y = Y (Ω) = {Y (ω) | ω ∈ Ω }
が両方とも高々可算であるとき，(X, Y ) を離散型同時確率変数といい，事象「X = x かつ Y = y 」の確率：
PXY (x, y) := P ({ω ∈ Ω | X(ω) = x, Y (ω) = y })
を確率変数 X, Y の同時確率（質量）関数 (joint probability function) という．
補題 1 (同時確率関数の性質)
1
PXY (x, y) ≥ 0,
∑∑
x∈X y∈Y
1
和が１となることを必ずチェックせよ!
1
PXY (x, y) = 1
定義 4 (連続型同時確率変数，同時確率密度関数)
X と Y はそれぞれ連続型確率変数であり，同時確率変数 (X, Y ) について，同時累積分布関数 FXY (x, y) が
∫ y ∫ x
FXY (x, y) =
fXY (x, y) dxdy
−∞
−∞
と書ける場合，(X, Y ) は連続型同時確率変数といい，微分と積分の関係により次式が成り立つ．
fXY (x, y) =
∂ 2 FXY (x, y)
∂x∂y
fXY (x, y) を X, Y の同時確率密度関数 (joint probability density function) という．
注意 3 (同時確率密度関数の意味) 一変数の場合と同様に，以下の式が成り立つ 2 ．
∫
Pr {ω ∈ Ω | a < X(ω) ≤ b, c < Y (ω) ≤ d } =
d∫ b
fXY (x, y) dxdy
c
補題 2 (同時確率密度関数の性質)
a
3
∫
fXY (x, y) ≥ 0,
∞
−∞
∫
∞
−∞
fXY (x, y) dxdy = 1
例 1 公正なコインを２回ふる．このとき (i, j) において i を一回目の結果，j を二回目の結果とすると
• 標本空間 Ω = {(0, 0), (0, 1), (1, 0), (1, 1)}; ただし head=1, tail=0 とする．
• P ({ω}) =
1
4
for all ω ∈ Ω
このとき確率変数 X : Ω → R と Y : Ω → R を以下のように定義する
• X(ω) = ω の第 1 成分
• Y (ω) = ω の第 2 成分
FXY (x, y) = P ({ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y })


0
(x < 0 or y < 0)








=








1
(1 ≤ x and 1 ≤ y)
[15]
同時確率関数と周辺確率関数
以降では離散型確率変数を扱う（基本的な考え方は連続型確率変数でも同様であり，和を積分に置き換えて
考えればよい）．
補題 3 (周辺確率関数とその計算方法)
確率変数 X, Y の同時確率関数 PXY (x, y) と，確率関数 PX (x)，PY (y) について，次式が成り立つ．
PX (x) =
∑
PXY (x, y)
(1)
PXY (x, y)
(2)
y∈Y
PY (y) =
∑
x∈X
2
１変数の連続型確率変数の場合と同じく，Pr{X = a, Y = b} = 0 なので，等号は気にしなくてよい．
3
必ずチェックせよ!
2
証明： (1) についてのみ示す．Ω =
∪
y∈Y
Y −1 ({y}) に注意すると，
∪
PX (x) = P (X −1 ({x})) = P (X −1 ({x}) ∩ Ω) = P (
=
∑
P (X
−1
({x}) ∩ Y
−1
({y})) =
y∈Y
∑
(X −1 ({x}) ∩ Y −1 ({y})))
y∈Y
P ({ω ∈ Ω | X(ω) = x, Y (ω) = y }) =
y∈Y
∑
PXY (x, y)
y∈Y
□
注意 4 同時確率関数 PXY (x, y) と PX (x), PY (y) をそれぞれ同時分布 (joint distribution)，周辺分布 (marginal
distribution) ということもある．
定義 5 (条件付き確率関数)
PX (x) > 0 のとき，条件付き確率関数 (conditional probability function) が以下で定義される．
PY |X (y|x) :=
PXY (x, y)
PX (x)
例 2 袋の中に 1 と書いてあるボールが 1 個，2 と書いてあるボールが 2 個, 3 と書いてあるボールが 3 個，4 と
書いてあるボールが 4 個ある．まず袋の中からボールを一つ選び，1 のボールを選んだ場合のみボールを袋に
戻す（それ以外なら戻さない）．その後，もう一度袋からボールを一つ選ぶ．
(i, j) において i を一回目に引いたボールの数，j を二回目に引いたボールの数とすると
• Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)}
すべての ω ∈ Ω が同じ確率を持っているわけではないことに注意！
このとき確率変数 X : Ω → R と Y : Ω → R を以下のように定義する
• X(ω) = ω の第 1 成分（一回目にひいたボールの数）
• Y (ω) = ω の第 2 成分（二回目にひいたボールの数）
計算方法：
• その１：そのまま同時確率関数 PXY (x, y) を計算する．
• その２：周辺分布 PX (x) と条件付き確率関数 PY |X (y|x) から計算する．
このとき，同時確率関数 PXY (x, y)，および周辺確率関数 PX (x), PY (y) をまとめた表は以下のようになる．
x\y
1
2
3
4
PY (y)
1
2
3
4
PX (x)
2
100
6
90
条件付き確率関数 PY |X (y|x) の表は以下のようになる．
\y
PY |X (y|1)
PY |X (y|2)
PY |X (y|3)
PY |X (y|4)
1
2
3
3
4
定義 6 (確率変数の独立性)
def
確率変数 X と Y が独立 ⇐⇒ ∀x, ∀y, PXY (x, y) = PX (x)PY (y)
⇐⇒ すべての x と y について事象 X = x と事象 Y = y が独立
補題 4 (同時確率変数の関数：期待値) Z = f (X, Y ) のとき
E[Z] =
∑∑
f (x, y)PXY (x, y)
x∈X y∈X
定義 7 (共分散)
同時確率変数 X, Y に対して共分散 (covariance) を次式で定義する．
Cov(X, Y ) := E[(X − µX )(Y − µY )]
ただし，µX = E[X], µY = E[Y ] とおいた．
補題 5 (期待値，分散，共分散の性質)
(1) E[aX + bY ] = aE[X] + bE[Y ]
(2) X と Y が独立のとき，E[XY ] = E[X]E[Y ]
(3) V [X + Y ] = V [X] + 2 Cov(X, Y ) + V [Y ]
(4) X と Y が独立ならば Cov(X, Y ) = 0 となり V [X + Y ] = V [X] + V [Y ]
注意 5 (三つ以上の確率変数と独立性)
• 以上の話は３つ以上の確率変数についても成立する．X1 , X2 , · · · , Xn を Ω から R への確率変数とすると
き，(X1 , X2 , · · · , Xn ) を n 変数の確率変数といい，その確率関数を PX1 X2 ···Xn (x1 , x2 , · · · , xn ) で書く．
PX1 X2 ···Xn (x1 , x2 , · · · , xn ) := P ({ω ∈ Ω | X1 = x1 , X2 = x2 , . . . , Xn = xn })
• 三つ以上の確率変数の独立性も以下のように定義される．
確率変数 X1 , X2 , · · · , Xn が独立
def
⇐⇒ ∀x1 , ∀x2 , · · · , ∀xn , PX1 X2 ···Xn (x1 , x2 , · · · , xn ) = PX1 (x1 )PX2 (x2 ) · · · PXn (xn )
⇐⇒ すべての x1 , x2 , · · · , xn について事象 X1 = x1 , 事象 X2 = x2 , · · · , 事象 Xn = xn が独立
定義 8 (独立同一分布, independently and identically distributed (i.i.d))
(Ω, F, P ) を確率空間とし，n 個の確率変数
X1 , X2 , · · · , Xn (Xi : Ω → R for i = 1, 2, . . . , n)
が独立で, かつある確率変数 X : Ω → R を用いて
[
]
PX1 X2 ···Xn (x1 , x2 , · · · , xn ) = PX1 (x1 )PX2 (x2 ) · · · PXn (xn ) = PX (x1 )PX (x2 ) · · · PX (xn ) ∵ 離散型
[
]
fX1 X2 ···Xn (x1 , x2 , · · · , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) = fX (x1 )fX (x2 ) · · · fX (xn )
∵ 連続型
と書けるとき，X1 , X2 , · · · , Xn は独立同一分布に従うという．
4
確率に関する不等式
[16]
(1) Markov の不等式
(Ω, F, P ) を確率空間とし，X を非負の値をとる確率変数とする (i.e., for all x ∈ X(Ω), x ≥ 0). このと
き以下が成立．
∀a > 0,
E[X]
a
P ({ω ∈ Ω | X(ω) > a}) ≤
(2) Chebyshev の不等式
期待値と分散を持つ任意の確率変数 X に対して，
∀t > 0,
P ({ω ∈ Ω | X(ω) − E[X] > t}) ≤
V [X]
t2
証明： |X(ω) − E[X]| > t ⇐⇒ (X(ω) − E[X])2 > t2 であるから，
P ({ω ∈ Ω | X(ω) − E[X] > t}) = P ({ω ∈ Ω | (X(ω) − E[X])2 > t2 })
E[(X − E[X])2 ]
[∵ Markov の不等式]
t2
V [X]]
=
[∵ 分散の定義]
t2
≤
□
[17]
大数の弱法則
定義 9 (算術平均)
(Ω, F, P ) を確率空間とし，{Xi }∞
i=1 を確率変数 Xi : Ω → R, i ≥ 1, から構成される列（確率変数列）とする．
このとき
1∑
Yn =
Xi
n
n
(n = 1, 2, · · · )
i=1
で定義される確率変数を算術平均（標本平均）という 4 ．
定理 1 (大数の弱法則, weak law of large numbers)
n 個の確率変数 X1 , X2 , · · · , Xn が独立同一分布に従うとき，E[(X1 )2 ] < ∞ であれば，以下が成り立つ．
{
∀ε > 0,
lim Pr
n→∞
注意 6
1∑
Xi − E[X1 ] > ε
n
n
n→∞
=0
(3)
i=1
({
• (3) を ω を使って表現すると， lim P
}
1∑
Xi (ω) − E[X1 ] > ε
n
n
ω∈Ω
})
= 0.
i=1
• (3) は以下と同値である．
{
∀ε > 0, lim Pr
n→∞
4
1∑
Xi − E[X1 ] ≤ ε
n
n
[
}
= lim
n→∞
i=1
算術平均と期待値を混同しないように！
5
{
1 − Pr
1∑
Xi − E[X1 ] > ε
n
n
i=1
}]
=1
• 期待値 E[X1 ] も全ての ω に対して同じ値を返す確率変数である．
• どんな小さな ε > 0 についても，算術平均と期待値の差が ε 以内である確率は 1 に近づく．このとき，Yn
は E[X1 ] に “確率収束する” という．
• 条件 E[(X1 )2 ] < ∞ は，期待値や分散が有限の値となることを保証している 5 ．
証明：（大数の弱法則）
X1 , X2 , · · · , Xn の期待値は等しいので，µ = E[X1 ] = E[X2 ] = · · · = E[Xn ] とおく．同様に分散についても
∑
σ 2 = V [X1 ] = V [X2 ] = · · · = V [Xn ] とおく．ここで算術平均を Yn = n1 ni=1 Xi とおくと，
]
[ n
n
1∑
1∑
Xi =
E[Xi ] = µ
E[Yn ] = E
n
n
i=1
i=1
[ n
]
n
∑
1
1 ∑
1
σ2
V [Yn ] = V
Xi = 2
V [Xi ] = 2 · nσ 2 =
n
n
n
n
i=1
i=1
である．よって，チェビシェフの不等式より，
V [Yn ]
σ2
=
ε2
nε2
したがって，limn→∞ (σ 2 /nε2 ) = 0 と Pr {|Yn − µ| > ε} ≥ 0 より
{
}
n
1∑
lim Pr {|Yn − µ| > ε} = lim Pr
Xi − E[X1 ] > ε = 0
n→∞
n→∞
n
Pr {|Yn − µ| > ε} ≤
i=1
□
定理 2 (大数の強法則)
確率変数 X1 , X2 , · · · , Xn , · · · が独立同一分布に従うとき，E[X14 ] < ∞ であれば，以下が成り立つ．
{
}
n
1∑
Pr lim
Xi = E[X1 ] = 1
n→∞ n
(4)
i=1
注意 7 確率空間 (Ω, F, P ) 上の確率変数は標本空間 Ω 上の関数であった．(4) を省略しないで書くと以下の通
りである．
({
})
n
1∑
P
ω ∈ Ω lim
Xi (ω) = E[X1 ]
=1
n→∞ n
i=1
このとき，Yn は E[X1 ] に “概収束する” という．大数の強法則を，証明まで正確に理解するには，事象の極限
操作について学ぶ必要がある．
定理 3 (中心極限定理)
X1 , X2 , · · · , Xn . . . を独立同一分布に従う確率変数列とし, Yn を算術平均 Yn =
σ 2 = V [X1 ] とおくと，Yn を平均 0 分散 1 に規格化した確率変数
∑n
Xi − nµ
Yn − µ
√
= i=1 √
σ n
σ 2 /n
は正規分布 N(0, 1) に近づく．つまり
lim Pr
n→∞
{
Y −µ
√n
≤y
σ 2 /n
}
1
=√
2π
∫
y
e−
x2
2
1
n
∑n
i=1 Xi
とする．µ = E[X1 ],
dx
−∞
実際，Cauchy-Schwarz の不等式（(E[XY ])2 ≤ E[X 2 ]E[Y 2 ]）を用いると，(E[ |X1 | ])2 = (E[ 1·|X1 | ])2 ≤ E[ 12 ]E[ (X1 )2 ] < ∞
であるから E[ |X1 | ] < ∞．すなわち，期待値 E[X1 ] は有限の値に絶対収束する．このとき，V [ X1 ] = E[ X12 ] − (E[ X1 ])2 < ∞ と
なり，分散も有限の値になる．
5
6
[18]
演習問題
問題 11
問 11-1 補題 5 (期待値，分散，共分散の性質) を証明せよ．
Hint：(1) X と Y を確率変数とすると，f (X, Y ) = aX + bY も確率変数．あとはある補題を使う．
(2) 定義より．
(3) (1) を使う．
(4) (2) と (3) を使う．
問 11-2 授業で扱った例 2 について，まず同時確率関数の表を完成させよ．
次に，Y が与えられたもとでの X の条件付き確率の表を
(a) 同時確率関数を Y に関する周辺分布 PY (y) で割ることにより求めよ．
(b) 問 (a) で求めた表の少なくとも以下の 2 つの確率についてベイズの公式を証明したうえで，この公式
を用いて，PX (x) と PY |X (y|x) から計算し，同じ値になることを確かめよ．
PX|Y (x|y = 1),
PX|Y (x|y = 3)
注意：確率変数に対するベイズの公式とは同時確率変数 (X, Y ) について，PX (x) と PY |X (y|x) が与えら
れたとき，PX|Y (x|y) を計算するための以下の公式のことである．
PX (x)PY |X (y|x)
′
′
x′ ∈X PX (x )PY |X (y|x )
PX|Y (x|y) = ∑
問題 12
X, Y を離散型確率変数とし Z = X + Y とする．このとき Z の確率関数は次式で計算される．
∑
PZ (z) =
PXY (x, y)
(z ∈ Z = Z の値域)
(x,y)∈X ×Y
z=x+y
特に X と Y が独立なとき，以下のたたみこみ (convolution) で計算される．
∑
PZ (z) =
PX (x)PY (y)
(x,y)∈X ×Y
z=x+y
=
∑
PX (x)PY (z − x) =
x
∑
PX (z − y)PY (y)
y
上記の定義と公式を用いて以下の問に答えよ．
X と Y が独立にそれぞれパラメータ λ1 , λ2 のポアソン分布に従う確率変数であるとき，Z = X + Y の確率関
数を求めよ．
7

Download Report