確率・統計(電子2年) 第6講 前回復習

確率・統計(電子2年)
第6講
• 確率ベクトル,結合(同時)分布,条件付分布・条件付結合分布,確率変数
間の独立性
前回復習
練習1:幾何分布の無記憶性
確率変数 X がパラメタ a の幾何分布に従う,すなわち,Pr[X = k] = (1 −
a)ak , k = 0, 1, 2, . . . の時,
Pr[X ≥ n] = Pr[X ≥ n + m|X ≥ m]
が成り立つ.実際,
Pr[X ≥ n] = 1 − Pr[X ≤ n − 1] = 1 −
n−1
k=0
Pr[X ≥ n + m|X ≥ m] =
ak (1 − a) = 1 −
1 − an
· (1 − a) = an
1−a
an+m
Pr[X ≥ n + m]
= m = an
Pr[X ≥ m]
a
1
のサイコロを投げ続ける場合に「初めて1以外
6
の目が出るまでに1の目が連続して出る回数」を X とすると,パラメタ 1/6 の幾
何分布に従う.この時,
例えば,1の目が出る確率が
• 「今から投げ始めて,
(少なくとも)n 回続けて1が出る確率」と
• 「これまで m 回続けて1が出た状況で,これから先さらに(少なくとも)n
回続けて1が出る確率」と
が等しいのは当然(自然な要請)である.離散分布で無記憶性を持つのは幾何分
布だけ.
参考:生存時間と条件付き確率
何かが「継続」する時間を確率変数 X で扱う.例として生存時間 X(今から死ぬ
までの時間).分布は密度関数 f (x) (x ≥ 0) を持つとする: Pr[X ≤ t] =
t
0
f (x)dx.
• 時間 s が経過した時点で生存している場合の,そこからの残余寿命 Xs∗
の分布(密度関数)を求めてみよう.
残余寿命が従う分布は以下のように条件付き確率を用いて定義するのが自然で
ある.t ≥ 0 に対して,
1
• Pr[Xs∗ ≤ t] = 1 − Pr[X ∗ > t] = 1 − Pr[X > s + t|X > s]
ただし,Pr[X > s] > 0 とする.
よって,
Pr[Xs∗
Pr[X > s + t]
1 − 0s+t f (x)dx
≤ t] = 1 −
=1−
Pr[X > s]
1 − 0s f (x)dx
∞
s+t
t
1
f (x)dx
s f (x)dx − 1 + 0
∞
= ∞
=
f (s + x)dx
s f (x)dx
s f (x)dx 0
f (s + x)
つまり,Xs∗ の密度関数は fs∗ (x) = ∞
s f (y)dy
(0 ≤ x)
例題 生存時間を表す確率変数 X の従う分布が
1
T
s(ただし 0 < s < T )での残余寿命の密度関数は,
• 区間 [0, T ] 上の一様分布の場合(密度関数 f (x) =
fs∗ (x)
f (s + x)
= ∞
=
s f (y)dy
( T1 )/( TT−s ) =
0
1
T −s
(0 ≤ x ≤ T )),時刻
0≤x≤T −s
otherwise
T 時間後までに確実に死ぬというモデルなので,残り時間 (T − s) が短い程,
単位時間当たりの死ぬ可能性が高くなる.
• パラメタ λ の指数分布の場合(密度関数 f (x) = λe−λx
の残余寿命の密度関数は,
⎧
⎨ λe
f (s + x)
e−λs
=
fs∗ (x) = ∞
⎩
0
s f (y)dy
−λ(s+t)
(x ≥ 0)),時刻 s で
= λe−λx 0 ≤ x
otherwise
これは元の生存時間の密度関数 f (x) と一致する.つまり,生存時間の分布
が指数分布である場合は,残余寿命の分布が元の分布と同じになり,今から
生きられる時間はそれまで生きた時間と無関係.これと同じ意味の別の表現
が前述の「指数分布の無記憶性」である.
練習2:小レポート課題3 →授業の最後に回収
1> 1 日の事故発生件数(非負整数)を X とし,それがパラメラ λ = 1 のポアソ
ン分布に従う場合に,確率 Pr[X ≥ 1](1 件以上事故が起きる)は?
Pr[X ≥ 1] = 1 − Pr[X = 0] = 1 − e−λ = 1 − e−1
2
2> <1>の事故の発生間隔(単位は日数.ただし半端な値を許す,つまり実数値)
を Y とし,それがパラメラ λ = 1 の指数分布に従う場合に,確率 Pr[Y ≤ 1]
(発生間隔が 1.0 日以下)は?
Pr[Y ≤ 1] =
1
0
λe−λx dx = −e−λx
1
0
= 1 − e−1
3> <2>と同じ Y に関して,確率 Pr[1 ≤ Y ≤ 2](発生間隔が 1.0 日以上 2.0 日
以下)は?
Pr[1 ≤ Y ≤ 2] =
2
1
λe−λx dx = −e−λx
2
1
= e−1 − e−2
追加演習
まず答えを見ずにやってみて下さい.ただし数値の計算(四則演算)は最後ま
でやらなくてOK.
<1> 各々裏返した御椀で蓋をされた 3 個のサイコロ考える.各サイコロに関して
1 の目が上にある(1 の目が出る)ように置いてある確率は 1/6 とする.1 の
目が出るサイコロがちょうど 2 個ある確率は?
<2> <1>において左端の御椀を開けると 1 の目が出た.この状況で,3 個全体
の中に 1 の目が出るサイがちょうど 2 個ある(言い換えると,残った 2 個の
うち 1 個で 1 の目が出る)確率は?
<2B> 問題を変えて,<1>において(事前の裏情報で)少なくともどれか 1 個の
御椀には 1 の目が出るサイが置いてあることを知っていたとする.この状況
で,3 個全体の中に 1 の目が出るサイがちょうど 2 個ある確率は?
<3> 腕時計の(滑らかに移動する)秒針を考える.カバーによって時計の全面が
隠されている場合,今の瞬間,秒針が右半面にある(0 秒から 30 秒の間)確
率は?
<4> <3>においてカバーを下に半分ずらし,時計の上半面が見える状態にした
所,その範囲([0, 15], [45, 60])に秒針は見えなかった.この状況で,今の瞬
間,秒針が右半面にある(15 秒から 30 秒の間)確率は?
1> 各サイの出目は独立なので,1 の目が出る個数 X は,パラメタ n = 3, a = 1/6
の2項分布に従う.X = 2 が起きる確率:
Pr[X = 2] =
3!
3·5
5
(1/6)2 (5/6)1 = 3 =
2!1!
6
72
3
2> 単純に左端を除外した 2 個の御椀だけで考えればよく,1 の目が出る個数 Y
は,パラメタ n = 2, a = 1/6 の2項分布に従うので,2 個のうちちょうど 1
個の 1 の目が出る確率は,
Pr[Y = 1] =
2!
2·5
5
(1/6)1(5/6)1 = 2 =
1!1!
6
18
2B> <2>のようにある御椀を開けた場合と違い,純粋に X に関する制約条件
が付いただけなので,条件付確率 Pr[X = 2|X ≥ 1] と考えられ,
=
Pr[X = 2]
3·5
15
Pr[X = 2, X ≥ 1]
=
= 3
=
Pr[X ≥ 1]
1 − Pr[X = 0]
(6 )(1 − (5/6)3 )
91
この確率は<2>の確率より小さい.
3> 秒針の値 X は [0, 60) 上の一様分布に従う.0 < X < 30 が起きる確率:
Pr[0 < X < 30] =
1
30
=
60
2
4> 条件付確率と考えられるので,
Pr[0 < X < 30|15 < X < 45] =
1/4
1
Pr[15 < X < 30]
=
=
Pr[15 < X < 45]
1/2
2
8. 確率ベクトルの結合分布,条件付き結合分布,独立性
5枚のコインの話
複数個の確率現象が同時に起きる様子を扱いたい.単純な架空の例として,5 枚
の(実は細工がしてあってお互いに関係がある かも知れない)コインがあり,各
コインの出目を表す(表が 0 で裏が 1)確率変数を X1 , X2 , . . . , X5 とする.
ωj
X1
X2
X3
X4
X5
0 1 2
3 4
5 6 7
0 1 0 1 0 1 0
0 0 0 0 1 1 1
1 0 1 0 1 0 1
0 0 1 1 0 0 1
0 1 0 1 0 1 0
(運命と出目の対応表)
1
1
0
1
1
簡単のために神様が選択する世界の運命は8通りしかないとし:
({ω0, ω1 , . . . , ω7 }),
神様がどれか1つの運命を平等に(確率 1/8)選択し,各運命において各コインの
出目は以下の表のようになるとする.人間はどの運命が選択されたかは知らない.
運命(ω )が決まると 5 枚全部のコインの出目が一斉に決まる点が重要である.
4
• P (X1 = 0) = P ({ω0, ω2 , ω4 , ω6 }) =
1
2
であり,同様に,P (X2 = 0) = P (X3 = 0) = P (X4 = 0) = P (X5 = 0) =
個々の Xj の従う分布は同じ.しかし,
1
なので,
2
• コイン 1 と 2 で同時に表が出る確率は,
1
.
4
これは,P (X1 = 0) と P (X2 = 0) の積になっている.つまり,事象として,
「コイン 1 が表」(X1 = 0) と「コイン 2 が表」(X2 = 0) は独立である.
P (X1 = 0, X2 = 0) = P ({ω0, ω2 }) = P ({ω0 }) + P ({ω2 }) =
• 同様に,コイン 2 と 3 で同時に表が出る確率も,
P (X2 = 0, X3 = 0) = P ({ω2, ω3 }) = P ({ω2 }) + P ({ω3 }) =
と P (X3 = 0) の積になっている.
1
で,P (X2 = 0)
4
• しかし,コイン1と 3 で同時に表が出る確率は,P (X1 = 0, X3 = 0) = P (∅) = 0 .
つまり同時には表がでないようになっており,事象として,
「コイン 1 が表」
と「コイン 3 が表」は独立ではない.
• 一方,3つのコインの出目 {X1 ,X2 ,X4 } を考えると,どの 2 つも、同時に
1
表が出る確率は, で,さらに,3 つとも表が出るのは,運命 {ω0 } の時だけ
4
1
で,その確率は, になる.
8
つまり,
「コイン 1 が表」,
「コイン 2 が表」,
「コイン 4 が表」の 3 つの事象は,
互いに独立である.
• 最後に,コイン 1 と 5 に着目すると,この2つはどんな運命でも同じ目が出
る.つまり,何らかの方法で互いに模倣してると考えられる.
つまり複数の確率現象を扱うには,複数個の確率変数を考え,それらの値の組
み合わせの発生確率を計算できる必要がある.
確率ベクトルと結合(同時)分布
モデル化する.(Ω, F , P ) 上で定義された n 個の確率変数:X1 , X2 , . . . , Xn を同
時に考える時,
X = (X1 , X2 , . . . , Xn ) : Ω → Rn
を確率ベクトルと呼ぶ.つまり,運命(ω )が決まると n 個すべての確率変数の値
が決まる.
確率ベクトル X の分布関数 FX : Rn → [0, 1] (X1 , X2 , . . . , Xn の「結合分布
(または同時分布)」関数と呼ぶ)とは,
def
FX (x1 , . . . , xn ) = P ({ω|X1(ω) ≤ x1 } ∩ . . . ∩ {ω|Xn(ω) ≤ xn })
5
結合分布関数 FX を与えると,n 次元空間内の(体積が定義できるような普通
の)領域 B (∀B ∈ Bn .Bn は Rn 上のボレル集合体)に対して,
• P ({ω|(X1(ω), X2(ω), . . . , Xn (ω)) ∈ B}) =
B
FX (dx1 dx2 . . . dxn )
が決まる.
通常は結合密度関数 f や結合確率関数 p を使って書く:
• 離散型分布(非負整数値の場合)の結合確率関数 p(x1 , . . . , xn ) を用いて,
x1 x2 Pr[X1 ≤ x1 , . . . Xn ≤ xn ] =
···
y1 =0 y2 =0
xn yn =0
Pr[(X1 , X2 , . . . , Xn ) ∈ B] =
p(y1 , . . . , yn )
p(x1 , x2 , . . . , xn )
(x1 ,x2 ,...,xn )∈B
• 連続型分布の結合密度関数 f (x1 , . . . , xn ) を用いて,
x1
Pr[X1 ≤ x1 , . . . Xn ≤ xn ] =
−∞
Pr[(X1 , X2 , . . . , Xn ) ∈ B] =
B
···
xn
−∞
f (y1 , . . . , yn )dy1 . . . dyn
f (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn
また,特定の確率変数 Xj にだけ着目した分布を周辺分布と呼ぶ.
def
Fj (x) = P ({ω|Xj (ω) ≤ x}) =
x
pj (k) または
k=0
x
−∞
fj (y)dy .ただし,
• pj (k) は,
(非負整数値の)離散型分布の周辺確率関数:
def
pj (x) =
∞
···
y1 =0
∞
∞
···
yj−1 =0 yj+1 =0
∞
yn =0
p(y1 , . . . , yj−1, x, yj+1, . . . , yn )
• fj (y) は,連続型分布の周辺密度関数:
def
fj (x) =
∞
−∞
...
∞
−∞
f (y1 , . . . , yj−1, x, yj+1, . . . , yn )dy1 . . . dyj−1dyj+1 . . . dyn
例題:二項分布 正常なコイン(表裏の出る確率が各々0.5)を 3 回投げ,表が出る回数 X ,裏が
出る回数 Y として,(X, Y ) の結合確率関数は,
Pr[X = i, Y = 3 − i] = Pr[X = i] = 3 Ci (1/2)3 i + j = 3
Pr[X = i, Y = j] =
.
0
otherwise
6
例題:多項分布 n 個の箱があり,i 番目の箱に入っている玉の数を Xi とする.はじめ箱は空と
して,m 個の玉を投げ入れた後の Xi を確率変数と考える.ただし,
(1個の)玉
を投げる時,必ずどれかの箱に入り,また,i 番目の箱に入る確率を pi とする.
(X1 , X2 , . . . , Xn ) の結合分布をパラメタ (m, p1 , p2 , . . . , pn ) の n-項分布(多項分布)
と呼ぶ.ただし,
n
pi = 1 .
i=1
• n-項分布の結合確率関数 Pr[X1 = k1 , · · · , Xn = kn ] は,
–
n
ki = m では,Pr[X1 = k1 , · · · , Xn = kn ] =
i=1
m!
pk1 pk2 · · · pknn
k1 !k2 ! · · · kn ! 1 2
m!
は,(a1 + a2 + . . . + an )m の展開係数である.
k1 !k2 ! · · · kn !
– それ以外の (k1 , k2 , . . . kn ) では,そのような組み合わせは起きないので,
Pr[X1 = k1 , · · · , Xn = kn ] = 0.
なお,
例えば,m 個のサイコロを同時に投げて,i の目が出ているサイコロの個数を Xi
とすると,(X1 , X2 , . . . , X6 ) は,パラメタ (m, 1/6, . . . , 1/6) の 6-項分布に従う.こ
の場合,4 回投げて「1 が 3 回,2 が 1 回,他の目は出ない」という確率は
Pr[X1 = 3, X2 = 1, X3 = · · · = X6 = 0]
=
4!
3!1!(0!)4
3 1 0 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
=
4!
1
=
4
6
54
別の見方:Y :
「1 と 2 以外の目が出る回数」とし,(X1 , X2 , Y ) は,パ
ラメタ (m, 1/6, 1/6, 2/3) の 3-項分布に従うと考える.この場合,4 回
投げて「1 が 3 回,2 が 3 回,他の目は出ない」という確率は
3 1 0
1
4!
Pr[X1 = 3, X2 = 1, Y = 0] =
3!1!0! 6
1
6
2
3
=
4!
1
=
4
6
54
参考:ここで,1番目の箱だけに着目すると,X1 の分布は,パラメタ m, p1 の二
項分布になるはずである.実際,X1 の周辺分布を計算すると,
,
Pr[X1 = k1 ] =
=
m−k
1 −k2
1 m−k
k2 =0
m−k
1
k2 =0
···
m−k1 ···−kn−2
k3 =0
···
kn−1 =0
m−k1 ···−kn−2
kn−1 =0
Pr[X1 = k1 , · · · , Xn = kn ]
m!
kn−1
pk11 · · · pn−1
(1 − p1 − · · · − pn−1 )kn
k1 !k2 ! · · · kn !
7
ここで,kn = m − · · · − kn−2 − kn−1 に注意し,
(1 − p1 − · · · − pn−2 )m−k1 ···−kn−2 = (pn−1 + (1 − p1 − · · · − pn−2 − pn−1 ))m−k1 ···−kn−2
=
m−···−k
n−2
kn−1 =0
=
m−···−kn−2
kn−1 =0
(m − · · · − kn−2 )!
k
p n−1 (1 − p1 · · · − pn−1 )m−···−kn−2 −kn−1
kn−1 !(m − · · · − kn−2 − kn−1)! n−1
(m − · · · − kn−2 )! kn−1
pn−1 (1 − p1 · · · − pn−1 )kn
kn−1 !kn !
を利用して先の Pr[X1 = k1 ] の式の一番内側の和を項にまとめると,
Pr[X1 = k1 ]
=
m−k
1
k2 =0
=
=
m−···−kn−3
kn−2 =0
m!
kn−2
pk1 · · · pn−2
(1 − · · · − pn−2 )m−···−kn−2
k1 ! · · · kn−2 !(m − · · · − kn−2 )! 1
(これを繰り返して和を項にまとめていくと)
m−k
1
k2 =0
=
···
m!
pk11 pk22 (1 − p1 − p2 )m−k1 −k2
k1 !k2 !(m − k1 − k2 )!
m!
pk1 (1 − p1 )m−k1
k1 !(m − k1 )! 1
確率変数間の「独立」
確率ベクトル (X1 , X2 , . . . , Xn ) が「独立」(あるいは確率変数 X1 , X2 , . . . , Xn
が「互いに独立」)とは,実数上の n 個の任意の集合 B1 , B2 , . . . , Bn に対して,
• Pr[X1 ∈ B1 , · · · , Xn ∈ Bn ] =
n
j=1
Pr[Xj ∈ Bj ]
よって,FX (x1 , . . . , xn ):結合分布,FXi (x):各々の分布(周辺分布),として,
• FX (x1 , . . . , xn ) =
n
i=1
FXi (xi ) (結合分布=周辺分布の積)と等価で,
• 結合確率関数=周辺確率関数の積,結合密度関数=周辺密度関数の積.
例:2確率変数の場合,
「X, Y が独立」ならば,
– 結合確率関数:p(x, y) = Pr[X = x] Pr[Y = y]
– 結合密度関数:f (x, y) = fX (x)fY (y)
8
条件付分布・条件付結合分布(確率関数,密度関数)
確率変数 X1 , X2 , . . . , Xn を考え,それらのうちの,(X1 , X2 , . . . , Xm ) が観測さ
れている(値がわかっている:Xj = xj (j = 1, . . . , m))状態での,残りの未観測
なもの,(Xm+1 , Xm+2 , . . . , Xn ) の結合分布を,
「(X1 , . . . , Xm ) = (x1 , . . . , xm ) の時
の,(Xm+1 , Xm+2 , . . . , Xn ) の条件付結合分布」と呼び,以下のように書くことに
する.なお,m = n − 1 なら,
「条件付分布」である.
FXm+1 ,...,Xn |X1 ,...,Xm (xm+1 , . . . , xn |x1 , . . . , xm )
def
= Pr[Xm+1 ≤ xm+1 , . . . , Xn ≤ xn |X1 = x1 , . . . , Xm = xm ]
なお,連続型分布の場合は,右辺の条件付確率に対して以前の定義が適用でき
ない(Pr[X1 = x1 , . . . , Xm = xm ] = 0 なので).そこで以下では,条件付結合密度
関数(m = n − 1 なら条件付密度関数)の存在を仮定する.厳密(一般的)な条件
付結合分布は,
「条件付期待値」というものを使って定義されるが,講義の範囲を
超えた解析数学を必要とするので省略する.
• 条件付結合確率関数:pXm+1 ,...,Xn |X1 ,...,Xm (xm+1 , . . . , xn |x1 , . . . , xm )
=
Pr[X1 = x1 , . . . , Xm = xm , Xm+1 = xm+1 , . . . , Xn = xn ]
Pr[X1 = x1 , . . . , Xm = xm ]
ただし,0 < Pr[X1 = x1 , . . . , Xm = xm ] なる (x1 , . . . , xm ) で.
• 条件付結合密度関数:fXm+1 ,...,Xn |X1 ,...,Xm (xm+1 , . . . , xn |x1 , . . . , xm )
=
f (x1 , . . . , xm , xm+1 , . . . , xn )
fX1 ,...,Xm (x1 , . . . , xm )
ただし,0 < fX1 ,...,Xm (x1 , . . . , xm ) なる (x1 , . . . , xm ) で.なお,
– f (x1 , . . . , xm , xm+1 , . . . , xn ) は,結合密度関数.
– fX1 ,...,X
(x , . . . , x ) は,X1 , . . . , Xm に関する周辺密度関数:
∞m 1 ∞ m
def
=
···
f (x1 , . . . , xm , xm+1 , . . . , xn )dxm+1 · · · dxn
−∞
−∞
以下,連続型分布の場合に関して,
(簡単のために)2次元 (X, Y ) で補足説明す
る.そのため,条件付結合分布関数・密度関数ではなく,条件付分布関数・密度関
数になっている.(X, Y ) の結合密度関数を f (x, y) として,X = x の時の Y の条
件付密度関数や条件付分布は,
f (x, y)
• fY |X (y|x) =
fX (x)
def
∀x (fX (x) > 0), Pr[Y ≤ t|X = x] =
9
t
−∞
fY |X (y|x)dy
と書ける.ただし,fX (x) =
∞
−∞
f (x, t)dt は X の周辺密度関数.よって,Y の周
辺密度関数や Y の(周辺)分布は,
fY (y) =
Pr[Y ≤ t] =
=
=
∞
−∞
t
f (t, y)dt =
∞
−∞
−∞
−∞
−∞
∞ t
∞
−∞
∞
−∞
fY |X (y|t)fX (t)dt
fY |X (y|x)fX (x)dx dy
fY |X (y|x)dy fX (x)dx
Pr[Y ≤ t|X = x]fX (x)dx
よって,ベイズの公式の連続型分布用は以下のように書ける:
fX|Y (x|y) =
fY |X (y|x)fX (x)
f (x, y)
= ∞
fY (y)
−∞ fY |X (y|t)fX (t)dt
また,X, Y が独立ならば,条件付密度関数=周辺密度関数となる.
• fX|Y (x|y) = fX (x) .ただし,fY (y) > 0 の時.
練習 1> 3 個のサイコロを同時に投げて,i の目が出ているサイコロの個数を Xi とす
ると,(X1 , X2 , . . . , X6 ) は,パラメタ 3, 1/6, 1/6, . . . , 1/6 の 6-項分布に従う.
この時,1 の目がちょうど 1 個出ていることが判った場合の 2 の目の個数の
条件付確率関数 Pr[X2 = x|X1 = 1] を求めよ(x = 0, 1, 2).
2> 18 時ちょうどに坂ノ下バス停を出発する天神行き高速バスが九工大入口バス
停に着くまでに掛かる時間(分)は,実数区間 [15, 25] 上の一様分布に従う
とする.バスは時間調整をせず,バス停に人が居れば瞬時に乗せて出発する.
一方,今 18 時 10 分で,このバスに乗るために大学を出た A 君が九工大入口
バス停に着くまでに掛かる時間(分)は(途中で信号や友人の妨害が入るの
で),実数区間 [3, 8] 上の一様分布に従うとする.A君がバスに乗れる確率を
計算せよ.
10