第09回

専攻科 応用数学 II
第 9 回 講義資料 多次元の確率変数2
平均
1
離散型確率変数 X, Y の取り得る値をそれぞれ {x1 , x2 , · · · }, {y1 , y2 , · · · , } とするとき, g : R2 → R
を用いて Z(ω) = g(X(ω), Y (ω)) で定義される確率変数の平均は
∑
∑
E(g(X, Y )) =
g(xi , yj )P (X = xi , Y = yj ) =
g(xi , yj )pX,Y (xi , yj )
i,j
i,j
で定義された. ただし, pX,Y は結合確率質量関数である.
次に, 確率空間 (Ω, F, P ) 上で定義された (一般の) 確率変数 X, Y について考えよう. この場合,
g : R2 → R に対して Z(ω) = g(X(ω), Y (ω)) が再び確率変数となるためには g がある条件 (ボレル可
側性) を満たさなければならないが, その条件を満たすようなものとする. このとき, Z = g(X, Y ) の平
均の定義は第 7 回の講義で学んだように, 一般にルベーグ式の積分の定義によらなければならない. し
かし, 第 7 回で確率密度関数が存在するような分布に従う確率変数の平均は比較的容易な計算で求まる
ことも学んだ. 2 次元の確率変数 (ベクトル) の場合も確率密度関数が存在する場合に限り紹介しよう.
X = (X, Y ) が絶対連続な分布に従う, つまり同時分布関数 FX,Y (x, y) が同時確率密度関数 fX,Y (x, y)
を用いて
∫ y ∫ x
FX,Y (x, y) =
fX,Y (u, v)dudv
−∞ −∞
と書き表されるとする. Z(ω) = g(X(ω), Y (ω)) が再び確率変数であれば, Z = g(X, Y ) の平均は
公式
∫
E(g(X, Y )) =
R2
g(x, y)fX,Y (x, y)dxdy
ただし, |g(x, y)fX,Y (x, y)| の R 上の積分が収束するときに限る. 特に, 実数 a, b に対し, g(x, y) =
ax + by のとき
∫∫
E(aX + bY ) =
(ax + by)fX,Y (x, y)dxdy
2
R
∫∫
∫∫
=a
xfX,Y (x, y)dxdy + b
yfX,Y (x, y)dxdy
R2
R2
)
)
∫ ∞ (∫ ∞
∫ ∞ (∫ ∞
=a
x
fX,Y (x, y)dy dx + b
y
fX,Y (x, y)dx dy
−∞
−∞
−∞
−∞
∫ ∞
∫ ∞
=a
xfX (x)dx +
yfY (y)dy = aE(X) + bE(Y )
2
−∞
−∞
が成り立つ. ここで,
∫
fX (x) =
∫
∞
−∞
fX,Y (x, y)dy, fY (y) =
∞
−∞
fX,Y (x, y)dx
と, あと R2 上の重積分の値が積分順序によらない Fubini の定理を用いた. まとめておこう
1
公式
E(aX + bY ) = aE(X) + bE(Y )
この公式は X, Y の独立性に関わらず成り立つことに注意する.
X と Y が独立であるとき, fX,Y (x, y) = fX (x)fY (y) より
∫∫
∫ ∞∫ ∞
E(XY ) =
xyfX,Y (x, y)dxdy =
xyfX (x)fY (y)dxdy
R2
−∞ −∞
(∫ ∞
) (∫ ∞
)
=
xfX (x)dx
yfY (y)dy
−∞
−∞
= E(X)E(Y )
が成り立つ (積分の順序交換に関する Fubini の定理を用いた).
公式 X, Y が独立であれば
E(XY ) = E(X)E(Y )
さらに, X, Y が独立であれば任意の (ボレル可側) 関数 g, h : R → R に対し
E(g(X)h(Y )) = E(g(X))E(h(Y ))
が成り立つ.
共分散 · 相関係数
2
まず証明なしで, 次の事実を紹介しよう.
命題 E(X 2 ) = 0 ならば P (X = 0) = 1
事象 A の確率が 1 であるとき, 事象 A はほとんど確実に起こる (almost surely) といわれ, A a.s
などと書かれる. つまり E(X 2 ) = 0 ならば X = 0 a.s. ということである.
確率変数 X の分布と Y の分布の間の関連性を示す指標として共分散や相関係数が用いられる.
定義 (共分散と相関係数) 確率変数 X, Y の共分散 Cov(X, Y ) は
Cov(X, Y ) = E((X − E(X))(Y − E(Y )))
で定義される. また, X, Y の分散 Var(X), Var(Y ) がともに 0 でないとき, X と Y の相関係数
ρ(X, Y ) は
Cov(X, Y )
√
ρ(X, Y ) = √
Var(X) Var(Y )
て定義される.
共分散について次の公式が得られる.
2
命題 Cov(X, Y ) = E(XY ) − E(X)E(Y )
証明 µX = E(X), µY = E(Y ) とおくとき
Cov(X, Y ) = E((X − µX )(Y − µY )) = E(XY − µY X − µX Y + µX µY )
= E(XY ) − µY E(X) − µX E(Y ) + µX µY = E(XY ) − E(X)E(Y )
となり証明が終わる. 2
問 X と Y が独立ならば Var(X + Y ) = Var(X) + Var(Y ) であることを示せ (Hint: µX = E(X),
µY = E(Y ) のするとき, Var(X + Y ) = E({(X + Y ) − (µX + µY )}2 ) = E({(X − µX ) + (Y − µY )}2 )
これを展開して整理する. X − µX , Y − µY はかたまりで残しておく. その途中で Cov(X, Y ) = 0 を
使う).
X と Y が独立であるとき, E(XY ) = E(X)E(Y ) であるので, ただちに次を得る.
命題 確率変数 X, Y が独立であれば Cov(X, Y ) = 0.
上の命題の逆は一般に成り立たない. つまり E(XY ) = E(X)E(Y ) が X と Y の独立性の必要十分
条件ではない. しかし, 正規分布に従う確率変数の場合は必要十分条件となる.
問 X = (X, Y ) が次の確率密度関数をもつ 2 次元正規分布に従うとする.
fX,Y (x, y) =
1√
2πσX σY 1 − ρ2
[
{
}]
(x − µX )2
(y − µY )2
(x − µX )(y − µY )
1
exp −
+
− 2ρ
2
σX σY
2(1 − ρ2 )
σX
σY2
このとき, 第 8 回講義資料の問で,
2
• fX,Y に対して, X の周辺確率密度関数はパラメータ µX , σX
の正規分布の確率密度関数 fX (x) =
(
)
√ 1
exp − 12 (x − µX )2 , Y の周辺確率密度関数はパラメータ µY , σY2 の正規分布の確
2
2σX
2πσX
(
)
1
1
2
exp − 2 (x − µY ) であることを述べた.
率密度関数 fY (x) = √
2σY
2πσY2
X と Y が独立であるための必要十分条件は fX,Y (x, y) = fX (x)fY (y) と書けることに注意して, 以下
の問に答えよ.
(1) Cov(X, Y ) は ρσX σY であることを次の手順で示せ.
(a) 定義は E((X − µX )(Y − µY )) であるから計算すべき積分は
∫ ∞∫ ∞
(x − µX )(y − µY )fX,Y (x, y)dxdy
−∞ −∞
(
x − µX y − µY
である. まず 変数変換 (z, w) =
,
σX
σY
で積分の変数変換を行え (ヤコビアンを忘れずに).
3
)
つまり (x, y) = (µX + σX z, µY + σY w)
(
(b) 上の積分をさらに (u, v) =
z − ρw
√
,w
1 − ρ2
)
つまり (z, w) = (
√
1 − ρ2 u + ρv, v) で変数変換を
行え.
(2) Cov(X, Y ) = 0 なら fX (x)fY (y) = fX,Y (x, y) となり, X, Y は独立となることを示せ.
日本全国の成人男性を無作為に 1 人選び身長を X , 体重を Y としたとき, X と Y の共分散 Cov(X, Y )
は X と Y の単位によって大きく変わる. それに対し, 相関係数 ρ(X, Y ) は単位のとり方に関して不
変である. それを示そう.
命題 確率変数 X, Y に対し,
˜ = X√− E(X) , Y˜ = Y√− E(Y )
X
V (X)
V (Y )
とおくとき
˜ Y˜ )
ρ(X, Y ) = ρ(X,
が成り立つ.
確率変数 X, Y の正規化という.
˜ = 0, Var(X)
˜ = 1, E(Y˜ ) = 0, Var(Y˜ ) = 1 となったことに注意する (各
証明 上の正規化により, E(X)
自確かめよ). よって
˜ Y˜ )
˜ Y˜ ) = √ Cov(X,
˜ Y˜ )
√
ρ(X,
= Cov(X,
˜
˜
Var(X) Var(Y )
これより
(
)
(
)
X
−
E(X)
Y
−
E(Y
)
X
−
E(X)
Y
−
E(Y
)
˜ Y˜ ) = Cov √
√
Cov(X,
, √
=E √
Var(X)
Var(Y )
Var(X)
Var(Y )
1√
= √
E((X − E(X))(Y − E(Y ))) = ρ(X, Y )
Var(X) Var(Y )
となり示された.
問 X, Y を確率変数とするとき, 次の問に答えよ.
(1) 実数 a に対し, Var(aX + b) = a2 Var(X) であることを示せ.
\ 0) に対し
(2) 実数 a, b, c, d (ac =
{
ρ(aX + b, cX + d) =
ρ(X, Y )
ac > 0
−ρ(X, Y ) ac < 0
であることを示せ (Hint:正規化して考えよ).
命題 (Cauchy-Schwarz の不等式) U , V を確率変数とする. E(U 2 ), E(V 2 ), E(U V ) が存在す
れば
E(U V )2 ≤ E(U 2 )E(V 2 )
が成り立つ.
4
証明 実数 t に対して確率変数 W = tU + V を考えると
0 ≤ E(W 2 ) = E((tU + V )2 ) = E(t2 U 2 + 2tU V + V 2 )
= t2 E(U 2 ) + 2tE(U V ) + E(V 2 ) = t2 A + 2tB + C 2
を得る. ここで, A = E(U 2 ), B = E(U V ), C = E(V 2 ) とおいた. 上の不等式が任意の実数 t に対して
成り立つのだから, 2 次方程式 At2 + 2Bt + C 2 = 0 の判別式は 0 以下でなければならない. その判別
式は B 2 − AC であり, B 2 − AC ≤ 0 である. これは求める不等式である. 2.
命題 −1 ≤ ρ(X, Y ) ≤ 1 が成り立つ.
証明 U = X − E(X), V = Y − E(Y ) に対して Cauchy-Schwartz の不等式を用いると
E((X − E(X))(Y − E(Y )))2 ≤ E((X − E(X)))2 E((Y − E(Y ))2 )
つまり
Cov(X, Y )2 ≤ Var(X)Var(Y )
が成り立つ. よって
√
√
√
√
− V (X) V (Y ) ≤ Cov(X, Y ) ≤ Var(X) Var(Y )
√
√
辺々を Var(X) Var(Y ) で割ればよい. 2
上の等号成立条件を見てみよう.
命題 X, Y は正規化されているとする. つまり E(X) = 0, Var(X) = 1, E(Y ) = 0, Var(Y ) = 1
とする. このとき ρ(X, Y ) = 1 ならばほとんど確実に X = Y . また, ρ(X, Y ) = −1 ならばほと
んど確実に X = −Y である.
証明 前半のみ示す. 正規化されているので Cov(X, Y ) = 1 である. このとき E((X − Y )2 ) = 0 を示
せばよい. 左辺を展開すると
E((X − Y )2 ) = E(X 2 − 2XY + Y 2 ) = E(X 2 ) − 2E(XY ) + E(Y 2 )
= E(X 2 ) − 2(E(X)E(Y ) + Cov(X, Y )) + E(Y 2 )
= E(X 2 ) − 2E(X)E(Y ) + E(Y 2 ) − 2Cov(X, Y )
=1+1−2=0
ここで, E(X) = 0, E(Y ) = 0, Var(X) = 1, Var(Y ) = 1 より E(X 2 ) = Var(X) = 1, E(Y 2 ) =
Var(Y ) = 1 であることを用いた. 2.
3
条件付分布 · 条件付期待値
この節は興味のある読者だけでよい.
確率変数 X, Y に対して, X = x という条件の下で Y ≤ y となる確率 P (Y ≤ y|X = x) は
P (X = x) = 0 となるような連続分布では直接定義できないので, 次の式で定義される.
P (Y ≤ y|X = x) = lim P (Y ≤ y|x < X ≤ x + h)
h→+0
5
これを X = x が与えられたときの Y の条件付分布の分布関数といい FY |X (y|x) と書く:
FY |X (y|x) = P (Y ≤ y|X = x)
特に X, Y が結合確率密度関数 fX,Y (x, y) をもち, X の周辺確率密度関数 fX (x) が fX (x) > 0 であれ
ば次のようになる.
右辺は密度関数を用いると
∫ x+h∫ y
fX,Y (u, v)dudv
P (Y ≤ y, x < X ≤ x + h)
x
−∞
lim
= lim
∫ x+h
h→+0
h→+0
P (x < X ≤ x + h)
fX (u)du
x
∫ x+h∫ y
1
fX,Y (u, v)dudv
h x
−∞
= lim
∫ x+h
h→+0
1
fX (u)du
h x
∫ y
fX,Y (x, v)dv
∫ y
fX,Y (x, v)
−∞
=
=
dv
fX (x)
fX (x)
−∞
ここで, 右辺の積分に現れる関数を条件付分布 FY |X (y|x) の条件付密度関数といい fY |X (y|x) と書く:
fY |X (y|x) =
fX,Y (x, y)
fX (x)
これを用いると, X = x が与えられたときの条件付期待値 E(Y |X = x) は次のように計算される:
∫ ∞
∫ ∞
1
E(Y |X = x) =
yfY |X (y|x)dy =
yf (x, y)dy
fX (x) −∞ X,Y
−∞
X は確率空間 (Ω, F, P ) 上で定義されていることを思い起こし, ω ∈ Ω に対し, ω 7→ X(ω) = x 7→
E(Y |X = x) により定義される確率変数を E(Y |X) と書き, 確率変数 X が与えられたときの条件付
期待値 E(Y |X) という. あくまで確率変数である. また,
∫ ∞
∫ ∞
∫ ∞
1
yf (x, y)dy
E(E(Y |X)) =
fX (x)E(Y |X = x)dx =
fX (x)
fX (x) −∞ X,Y
−∞
−∞
∫ ∞∫ ∞
=
yfX,Y (x, y)dxdy = E(Y )
−∞ −∞
となる.
問 X と Y が独立であれば fY |X (y|x) = fY (y) であることを示せ.
問 (X, Y ) が
fX,Y (x, y) =
1√
2πσX σY 1 − ρ2
[
{
}]
(x − µX )2
(x − µX )(y − µY )
(y − µY )2
1
exp −
− 2ρ
+
2
σX σY
2(1 − ρ2 )
σX
σY2
を同時確率密度関数にもつ確率ベクトルであるとき, fY |X (y|x) を求めよ.
6