ω ∈ Ω|X(ω) ≤ x, Y (ω) ≤ y

情報ネットワーク学基礎1講義ノート (7 月 16 日)
[14]
氏名:
同時確率変数
定義 1 (同時確率変数)
(Ω, F, P ) を確率空間とする.Ω 上の二つの確率変数 X : Ω → R と Y : Ω → R が与えられたとき,確率変数
の組 (X, Y ) を同時確率変数という.これはベクトル値確率変数
ω ∈ Ω → (X(ω), Y (ω)) ∈ R2 = R × R
と見なすことができる.
注意 1 事象「X = x」,事象「X = x かつ Y = y 」,事象「X ≤ x かつ Y ≤ y 」などの言い方をする場合が
あるが, これらは以下の意味である.
• 事象「X = x」
:{ω ∈ Ω | X(ω) = x }
• 事象「X = x かつ Y = y 」
:{ω ∈ Ω | X(ω) = x, Y (ω) = y }
• 事象「X ≤ x かつ Y ≤ y 」
:{ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y }
注意 2 確率空間 (Ω, F, P ) と確率変数 X, Y に関して
{ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y } = {ω ∈ Ω | X(ω) ≤ x } ∩ {ω ∈ Ω | Y (ω) ≤ y } ∈ F
であるから,同時累積分布関数を以下のように計算できる.
定義 2 (同時累積分布関数)
同時確率変数 (X, Y ) について,
FXY (x, y) := P ({ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y })
=
P ({ω ∈ Ω | X(ω) ≤ x } ∩ {ω ∈ Ω | Y (ω) ≤ y })
を確率変数 X, Y の同時(累積)分布関数 (joint distribution function) という.
定義 3 (離散型同時確率変数,同時確率関数)
同時確率変数 (X, Y ) について,X と Y の値域:
X = X(Ω) = {X(ω) | ω ∈ Ω } ,
Y = Y (Ω) = {Y (ω) | ω ∈ Ω }
が両方とも高々可算であるとき,(X, Y ) を離散型同時確率変数といい,事象「X = x かつ Y = y 」の確率:
PXY (x, y) := P ({ω ∈ Ω | X(ω) = x, Y (ω) = y })
を確率変数 X, Y の同時確率(質量)関数 (joint probability function) という.
補題 1 (同時確率関数の性質)
1
PXY (x, y) ≥ 0,
∑∑
x∈X y∈Y
1
和が1となることを必ずチェックせよ!
1
PXY (x, y) = 1
定義 4 (連続型同時確率変数,同時確率密度関数)
X と Y はそれぞれ連続型確率変数であり,同時確率変数 (X, Y ) について,同時累積分布関数 FXY (x, y) が
∫ y ∫ x
FXY (x, y) =
fXY (x, y) dxdy
−∞
−∞
と書ける場合,(X, Y ) は連続型同時確率変数といい,微分と積分の関係により次式が成り立つ.
fXY (x, y) =
∂ 2 FXY (x, y)
∂x∂y
fXY (x, y) を X, Y の同時確率密度関数 (joint probability density function) という.
注意 3 (同時確率密度関数の意味) 一変数の場合と同様に,以下の式が成り立つ 2 .
∫
Pr {ω ∈ Ω | a < X(ω) ≤ b, c < Y (ω) ≤ d } =
d∫ b
fXY (x, y) dxdy
c
補題 2 (同時確率密度関数の性質)
a
3
∫
fXY (x, y) ≥ 0,
∞
−∞
∫
∞
−∞
fXY (x, y) dxdy = 1
例 1 公正なコインを2回ふる.このとき (i, j) において i を一回目の結果,j を二回目の結果とすると
• 標本空間 Ω = {(0, 0), (0, 1), (1, 0), (1, 1)}; ただし head=1, tail=0 とする.
• P ({ω}) =
1
4
for all ω ∈ Ω
このとき確率変数 X : Ω → R と Y : Ω → R を以下のように定義する
• X(ω) = ω の第 1 成分
• Y (ω) = ω の第 2 成分
FXY (x, y) = P ({ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y })


0
(x < 0 or y < 0)








=








1
(1 ≤ x and 1 ≤ y)
[15]
同時確率関数と周辺確率関数
以降では離散型確率変数を扱う(基本的な考え方は連続型確率変数でも同様であり,和を積分に置き換えて
考えればよい).
補題 3 (周辺確率関数とその計算方法)
確率変数 X, Y の同時確率関数 PXY (x, y) と,確率関数 PX (x),PY (y) について,次式が成り立つ.
PX (x) =
∑
PXY (x, y)
(1)
PXY (x, y)
(2)
y∈Y
PY (y) =
∑
x∈X
2
1変数の連続型確率変数の場合と同じく,Pr{X = a, Y = b} = 0 なので,等号は気にしなくてよい.
3
必ずチェックせよ!
2
証明: (1) についてのみ示す.Ω =
∪
y∈Y
Y −1 ({y}) に注意すると,
∪
PX (x) = P (X −1 ({x})) = P (X −1 ({x}) ∩ Ω) = P (
=
∑
P (X
−1
({x}) ∩ Y
−1
({y})) =
y∈Y
∑
(X −1 ({x}) ∩ Y −1 ({y})))
y∈Y
P ({ω ∈ Ω | X(ω) = x, Y (ω) = y }) =
y∈Y
∑
PXY (x, y)
y∈Y
□
注意 4 同時確率関数 PXY (x, y) と PX (x), PY (y) をそれぞれ同時分布 (joint distribution),周辺分布 (marginal
distribution) ということもある.
定義 5 (条件付き確率関数)
PX (x) > 0 のとき,条件付き確率関数 (conditional probability function) が以下で定義される.
PY |X (y|x) :=
PXY (x, y)
PX (x)
例 2 袋の中に 1 と書いてあるボールが 1 個,2 と書いてあるボールが 2 個, 3 と書いてあるボールが 3 個,4 と
書いてあるボールが 4 個ある.まず袋の中からボールを一つ選び,1 のボールを選んだ場合のみボールを袋に
戻す(それ以外なら戻さない).その後,もう一度袋からボールを一つ選ぶ.
(i, j) において i を一回目に引いたボールの数,j を二回目に引いたボールの数とすると
• Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)}
すべての ω ∈ Ω が同じ確率を持っているわけではないことに注意!
このとき確率変数 X : Ω → R と Y : Ω → R を以下のように定義する
• X(ω) = ω の第 1 成分(一回目にひいたボールの数)
• Y (ω) = ω の第 2 成分(二回目にひいたボールの数)
計算方法:
• その1:そのまま同時確率関数 PXY (x, y) を計算する.
• その2:周辺分布 PX (x) と条件付き確率関数 PY |X (y|x) から計算する.
このとき,同時確率関数 PXY (x, y),および周辺確率関数 PX (x), PY (y) をまとめた表は以下のようになる.
x\y
1
2
3
4
PY (y)
1
2
3
4
PX (x)
2
100
6
90
条件付き確率関数 PY |X (y|x) の表は以下のようになる.
\y
PY |X (y|1)
PY |X (y|2)
PY |X (y|3)
PY |X (y|4)
1
2
3
3
4
定義 6 (確率変数の独立性)
def
確率変数 X と Y が独立 ⇐⇒ ∀x, ∀y, PXY (x, y) = PX (x)PY (y)
⇐⇒ すべての x と y について事象 X = x と事象 Y = y が独立
補題 4 (同時確率変数の関数:期待値) Z = f (X, Y ) のとき
E[Z] =
∑∑
f (x, y)PXY (x, y)
x∈X y∈X
定義 7 (共分散)
同時確率変数 X, Y に対して共分散 (covariance) を次式で定義する.
Cov(X, Y ) := E[(X − µX )(Y − µY )]
ただし,µX = E[X], µY = E[Y ] とおいた.
補題 5 (期待値,分散,共分散の性質)
(1) E[aX + bY ] = aE[X] + bE[Y ]
(2) X と Y が独立のとき,E[XY ] = E[X]E[Y ]
(3) V [X + Y ] = V [X] + 2 Cov(X, Y ) + V [Y ]
(4) X と Y が独立ならば Cov(X, Y ) = 0 となり V [X + Y ] = V [X] + V [Y ]
注意 5 (三つ以上の確率変数と独立性)
• 以上の話は3つ以上の確率変数についても成立する.X1 , X2 , · · · , Xn を Ω から R への確率変数とすると
き,(X1 , X2 , · · · , Xn ) を n 変数の確率変数といい,その確率関数を PX1 X2 ···Xn (x1 , x2 , · · · , xn ) で書く.
PX1 X2 ···Xn (x1 , x2 , · · · , xn ) := P ({ω ∈ Ω | X1 = x1 , X2 = x2 , . . . , Xn = xn })
• 三つ以上の確率変数の独立性も以下のように定義される.
確率変数 X1 , X2 , · · · , Xn が独立
def
⇐⇒ ∀x1 , ∀x2 , · · · , ∀xn , PX1 X2 ···Xn (x1 , x2 , · · · , xn ) = PX1 (x1 )PX2 (x2 ) · · · PXn (xn )
⇐⇒ すべての x1 , x2 , · · · , xn について事象 X1 = x1 , 事象 X2 = x2 , · · · , 事象 Xn = xn が独立
定義 8 (独立同一分布, independently and identically distributed (i.i.d))
(Ω, F, P ) を確率空間とし,n 個の確率変数
X1 , X2 , · · · , Xn (Xi : Ω → R for i = 1, 2, . . . , n)
が独立で, かつある確率変数 X : Ω → R を用いて
[
]
PX1 X2 ···Xn (x1 , x2 , · · · , xn ) = PX1 (x1 )PX2 (x2 ) · · · PXn (xn ) = PX (x1 )PX (x2 ) · · · PX (xn ) ∵ 離散型
[
]
fX1 X2 ···Xn (x1 , x2 , · · · , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) = fX (x1 )fX (x2 ) · · · fX (xn )
∵ 連続型
と書けるとき,X1 , X2 , · · · , Xn は独立同一分布に従うという.
4
確率に関する不等式
[16]
(1) Markov の不等式
(Ω, F, P ) を確率空間とし,X を非負の値をとる確率変数とする (i.e., for all x ∈ X(Ω), x ≥ 0). このと
き以下が成立.
∀a > 0,
E[X]
a
P ({ω ∈ Ω | X(ω) > a}) ≤
(2) Chebyshev の不等式
期待値と分散を持つ任意の確率変数 X に対して,
∀t > 0,
P ({ω ∈ Ω | X(ω) − E[X] > t}) ≤
V [X]
t2
証明: |X(ω) − E[X]| > t ⇐⇒ (X(ω) − E[X])2 > t2 であるから,
P ({ω ∈ Ω | X(ω) − E[X] > t}) = P ({ω ∈ Ω | (X(ω) − E[X])2 > t2 })
E[(X − E[X])2 ]
[∵ Markov の不等式]
t2
V [X]]
=
[∵ 分散の定義]
t2
≤
□
[17]
大数の弱法則
定義 9 (算術平均)
(Ω, F, P ) を確率空間とし,{Xi }∞
i=1 を確率変数 Xi : Ω → R, i ≥ 1, から構成される列(確率変数列)とする.
このとき
1∑
Yn =
Xi
n
n
(n = 1, 2, · · · )
i=1
で定義される確率変数を算術平均(標本平均)という 4 .
定理 1 (大数の弱法則, weak law of large numbers)
n 個の確率変数 X1 , X2 , · · · , Xn が独立同一分布に従うとき,E[(X1 )2 ] < ∞ であれば,以下が成り立つ.
{
∀ε > 0,
lim Pr
n→∞
注意 6
1∑
Xi − E[X1 ] > ε
n
n
n→∞
=0
(3)
i=1
({
• (3) を ω を使って表現すると, lim P
}
1∑
Xi (ω) − E[X1 ] > ε
n
n
ω∈Ω
})
= 0.
i=1
• (3) は以下と同値である.
{
∀ε > 0, lim Pr
n→∞
4
1∑
Xi − E[X1 ] ≤ ε
n
n
[
}
= lim
n→∞
i=1
算術平均と期待値を混同しないように!
5
{
1 − Pr
1∑
Xi − E[X1 ] > ε
n
n
i=1
}]
=1
• 期待値 E[X1 ] も全ての ω に対して同じ値を返す確率変数である.
• どんな小さな ε > 0 についても,算術平均と期待値の差が ε 以内である確率は 1 に近づく.このとき,Yn
は E[X1 ] に “確率収束する” という.
• 条件 E[(X1 )2 ] < ∞ は,期待値や分散が有限の値となることを保証している 5 .
証明: (大数の弱法則)
X1 , X2 , · · · , Xn の期待値は等しいので,µ = E[X1 ] = E[X2 ] = · · · = E[Xn ] とおく.同様に分散についても
∑
σ 2 = V [X1 ] = V [X2 ] = · · · = V [Xn ] とおく.ここで算術平均を Yn = n1 ni=1 Xi とおくと,
]
[ n
n
1∑
1∑
Xi =
E[Xi ] = µ
E[Yn ] = E
n
n
i=1
i=1
[ n
]
n
∑
1
1 ∑
1
σ2
V [Yn ] = V
Xi = 2
V [Xi ] = 2 · nσ 2 =
n
n
n
n
i=1
i=1
である.よって,チェビシェフの不等式より,
V [Yn ]
σ2
=
ε2
nε2
したがって,limn→∞ (σ 2 /nε2 ) = 0 と Pr {|Yn − µ| > ε} ≥ 0 より
{
}
n
1∑
lim Pr {|Yn − µ| > ε} = lim Pr
Xi − E[X1 ] > ε = 0
n→∞
n→∞
n
Pr {|Yn − µ| > ε} ≤
i=1
□
定理 2 (大数の強法則)
確率変数 X1 , X2 , · · · , Xn , · · · が独立同一分布に従うとき,E[X14 ] < ∞ であれば,以下が成り立つ.
{
}
n
1∑
Pr lim
Xi = E[X1 ] = 1
n→∞ n
(4)
i=1
注意 7 確率空間 (Ω, F, P ) 上の確率変数は標本空間 Ω 上の関数であった.(4) を省略しないで書くと以下の通
りである.
({
})
n
1∑
P
ω ∈ Ω lim
Xi (ω) = E[X1 ]
=1
n→∞ n
i=1
このとき,Yn は E[X1 ] に “概収束する” という.大数の強法則を,証明まで正確に理解するには,事象の極限
操作について学ぶ必要がある.
定理 3 (中心極限定理)
X1 , X2 , · · · , Xn . . . を独立同一分布に従う確率変数列とし, Yn を算術平均 Yn =
σ 2 = V [X1 ] とおくと,Yn を平均 0 分散 1 に規格化した確率変数
∑n
Xi − nµ
Yn − µ
√
= i=1 √
σ n
σ 2 /n
は正規分布 N(0, 1) に近づく.つまり
lim Pr
n→∞
{
Y −µ
√n
≤y
σ 2 /n
}
1
=√
2π
∫
y
e−
x2
2
1
n
∑n
i=1 Xi
とする.µ = E[X1 ],
dx
−∞
実際,Cauchy-Schwarz の不等式((E[XY ])2 ≤ E[X 2 ]E[Y 2 ])を用いると,(E[ |X1 | ])2 = (E[ 1·|X1 | ])2 ≤ E[ 12 ]E[ (X1 )2 ] < ∞
であるから E[ |X1 | ] < ∞.すなわち,期待値 E[X1 ] は有限の値に絶対収束する.このとき,V [ X1 ] = E[ X12 ] − (E[ X1 ])2 < ∞ と
なり,分散も有限の値になる.
5
6
[18]
演習問題
問題 11
問 11-1 補題 5 (期待値,分散,共分散の性質) を証明せよ.
Hint:(1) X と Y を確率変数とすると,f (X, Y ) = aX + bY も確率変数.あとはある補題を使う.
(2) 定義より.
(3) (1) を使う.
(4) (2) と (3) を使う.
問 11-2 授業で扱った例 2 について,まず同時確率関数の表を完成させよ.
次に,Y が与えられたもとでの X の条件付き確率の表を
(a) 同時確率関数を Y に関する周辺分布 PY (y) で割ることにより求めよ.
(b) 問 (a) で求めた表の少なくとも以下の 2 つの確率についてベイズの公式を証明したうえで,この公式
を用いて,PX (x) と PY |X (y|x) から計算し,同じ値になることを確かめよ.
PX|Y (x|y = 1),
PX|Y (x|y = 3)
注意:確率変数に対するベイズの公式とは同時確率変数 (X, Y ) について,PX (x) と PY |X (y|x) が与えら
れたとき,PX|Y (x|y) を計算するための以下の公式のことである.
PX (x)PY |X (y|x)
′
′
x′ ∈X PX (x )PY |X (y|x )
PX|Y (x|y) = ∑
問題 12
X, Y を離散型確率変数とし Z = X + Y とする.このとき Z の確率関数は次式で計算される.
∑
PZ (z) =
PXY (x, y)
(z ∈ Z = Z の値域)
(x,y)∈X ×Y
z=x+y
特に X と Y が独立なとき,以下のたたみこみ (convolution) で計算される.
∑
PZ (z) =
PX (x)PY (y)
(x,y)∈X ×Y
z=x+y
=
∑
PX (x)PY (z − x) =
x
∑
PX (z − y)PY (y)
y
上記の定義と公式を用いて以下の問に答えよ.
X と Y が独立にそれぞれパラメータ λ1 , λ2 のポアソン分布に従う確率変数であるとき,Z = X + Y の確率関
数を求めよ.
7