独立性と共分散 1 独立性

独立性と共分散
確率論における最も重要な概念に独立性の概念がある。直観的には独立性とは「2 つの事象が無関
係であること」あるいは「2 つの確率変数が無関係であること」を表わす概念であるが、数学的に
はそれは確率測度 P に対する概念として理解すべきであって、事象や確率変数に対する概念では
ない。
1
独立性
離散的な値 {a1 , a2 , . . .} を取る確率変数 X, Y : Ω → {a1 , a2 , . . .} を考える。
定義 1. 確率変数 X と Y が(互いに)独立であるとは
P (X = ai , Y = aj ) = P (X = ai )P (Y = aj )
がすべての ai , aj について成り立つことをいう。但し
P (X = ai , Y = aj ) = P ({ω ∈ Ω; X(ω) = ai } ∩ {ω ∈ Ω; Y (ω) = aj })
より一般に
X1 , X2 , . . . , Xn : Ω → {a1 , a2 , . . .}
が独立であるとは
P (X1 = aj1 , X2 = aj2 , . . . , Xn = ajn ) = P (X1 = aj1 )P (X2 = aj2 ) . . . P (Xn = ajn )
が成り立つことをいう。
さらに、X1 , X2 , . . . が独立とは、そこから任意に取り出した有限個の組が独立であることをいう。
注意 1. 今の定義で、X と Y の値域は異なっていてもよい。一般的に P (X = x, Y = y) = P (X =
x)P (Y = y) が成り立てば独立という。
独立性を特徴付けるために、条件付確率の概念を導入しておく。
定義 2. A, B を事象(Ω の部分集合で F の元)とするとき、B のもとにおける A の(条件付)確
P (A ∩ B)
で定義し、P (A | B) または PB (A) と表わす。ただし P (B) = 0 のときには(今
率を
P (B)
は)定義しない。
以下では P (X = x) のように書いたとき、暗黙の内に P (X = x) > 0 であることを仮定する。
もし P (X = x) = 0 であれば、そのような元 x は X の値域から除外しても今の我々の考察に影響
を与えないからである。但し、X が離散的な値を取らない場合には普通 P (X = x) はすべて 0 と
なってしまうから非常に繊細な注意が必要である。
条件付確率で最も重要な概念は、確率変数の値で条件をつけた確率である。
定義 3. P を確率とし、X : Ω → {a1 , a2 , . . .} を確率変数とする。このとき、
P (A∩{X=ai })
P (X=ai )
を
P (A | X = ai ) または PX=aj (A) と書く。
従って、もし A ⊂ Ω を固定しておくと P (A | X = ai ) は {a1 , a2 , . . .} 上の関数である。そこで
この ai を X で置き換えたもの PX=aj (A)|aj =X(ω) を P (A | X) または PX (A) と表わす。
1
注意 2. 【重要】P (A | X) や PX (A) は X(ω) の値が決まると、初めて値 P (A | X = X(ω)) が決
まる。つまり、f (X(ω)) のような形の関数である。言い換えれば P (A | X) は確率変数である。そ
れを明記するために P (A | X)(ω) と書くことがある。
定義 4. X が確率変数で、Y : Ω → {b1 , b2 , . . .} が確率変数であるとき Y の X に対する条件付期
待値を
E[Y | X] :=
∞
bj P (Y = bj | X)(ω)
j=1
と定める。特に E[Y | X] は X の値によって値の決まる確率変数である。
補題 1. 確率変数 X と Y が独立であれば
PX=x (Y = y) = P (Y = y),
PY =y (X = x) = P (X = x)
が成り立つ。またこのどちらか一方が成立すれば X と Y は独立である。
P (X = x)P (Y = y)
P (X = x, Y = y)
=
= P (Y = y) だからである。
P (X = x)
P (X = x)
証明 PX=x (Y = y) =
P (X = x, Y = y)
= P (Y = y) ならば P (X = x, Y = y) = P (X = x)P (Y = y) だから明ら
P (X = x)
かである。
逆は
注意 3. いまの補題が「独立 ⇐⇒ 無関係」の直観を正当化するものである。
命題 1. X1 , X2 , . . . , Xn が独立であれば
E[X1 X2 . . . Xn ] = E[X1 ]E[X2 ] . . . E[Xn ]
が成り立つ。
証明 帰納法による。n = 1 のときは明らか。n = 2 のときには
E[X1 X2 ] =
x1 x2 P ((X1 , X2 ) = (x1 , x2 ))
x1 ,x2
であるが、いま X1 と X2 は独立だから P ((X1 , X2 ) = (x1 , x2 )) = P (X1 = x1 )P (X2 = x2 ) であ
る。従って
x1 x2 P ((X1 , X2 ) = (x1 , x2 )) =
x1 ,x2
x1 ,x2
=
x1 x2 P (X1 = x1 )P (X2 = x2 )
x1 P (X1 = x1 )
x1
x2 P (X2 = x2 ) = E[X1 ]E[X2 ]
x2
そこで一般に n 個のときには n = 2 の場合の結果を用いて
E[X1 X2 . . . Xn ] =
x1 x2 . . . xn P ((X1 , . . . , Xn ) = (x1 , . . . , xn ))
x1 ,x2 ,...,xn
=
x1 x2 . . . xn P ((X1 , . . . , Xn−1 ) = (x1 , . . . , xn−1 ), Xn = xn )
x1 ,x2 ,...,xn
=
x1 x2 . . . xn P ((X1 , . . . , Xn−1 ) = (x1 , . . . , xn−1 ))P (Xn = xn )
x1 ,x2 ,...,xn
= E[X1 . . . Xn−1 ]E[Xn ]
がわかる。従って n − 1 のときに成立しているのであれば、n のときも正しい。
2
命題 2. X1 , X2 , . . . Xn が互いに独立(任意の 2 つ Xi と Xj が独立)であれば
V (X1 + X2 + · · · + Xn ) = V (X1 ) + V (X2 ) + · · · + V (Xn )
が成立する。
証明 Yj = Xj − E[Xj ] とおくと E[Yj ] = 0 かつ V (Xj ) = E[(Xj − E[Xj ])2 ] = E[Yj2 ] = V (Yj ) で
あり、
V (X1 + X2 + · · · + Xn ) = E[(Y1 + Y2 + · · · + Yn )2 ]
が成り立つ。さらに Yi と Yj は独立だから E[Yi Yj ] = E[Yi ]E[Yj ] = 0 である。従って
V (X1 + X2 + · · · + Xn ) = E[(Y1 + Y2 + · · · + Yn )2 ]
⎡
n
= E⎣
Yi2 +
i=1
⎤
Yi Yj ⎦
i<j,i,j=1,...,n
=E
n
Yi2
= V (X1 ) + V (X2 ) + · · · + V (Xn )
i=1
注意 4. 期待値の場合と異なり、V (X + Y ) = V (X) + V (Y ) は独立性の条件がなければ成り立た
ない。特にすぐに分かるように、V (X + X) = 4V (X) である。なお、標準偏差 σ(X) = V (X)
については独立でも加法性が成り立たない。
2
共分散
分散の定義 V (X) = E[(X − E[X])2 ] = E[(X − E[X])(X − E[X])] において、右辺の X の一つ
を他の確率変数に置き換えたものを共分散(covariance)という。分散は非負であるが、共分散は
負にもなりうる。
定義 5. 2 つの確率変数 X, Y に対する共分散 V (X, Y ) または Cov(X, Y ) とは
V (X, Y ) ≡ Cov(X, Y ) := E[(X − E[X])(Y − E[Y ])]
のことをいう。
命題 3. X, Y を確率変数とするとき、V (X), V (Y ), Cov(X, Y ) の間に次の関係が成り立つ。
(1) V (aX + b) = a2 V (X)
(2) Cov(aX + b, cY + d) = ac Cov(X, Y )
(3) V (aX + bY ) = a2 V (X) + 2ab Cov(X, Y ) + b2 V (Y )
(4) V (X) = E[X 2 ] − E[X]2
(5) Cov(X, Y ) = E[XY ] − E[X]E[Y ]
(6) | Cov(X, Y )| ≤ V (X)V (Y )
3
証明 (1) から (5) までは易しいので省略する(演習)。(6) については
0 ≤ V (tX + Y ) = t2 V (X) + 2t Cov(X, Y ) + V (Y )
に注意すると右辺は常に非負だから t の 2 次式に関する判別式として Cov(X, Y )2 − V (X)V (Y ) ≤ 0
を得る。
分散は確率変数 X の値の期待値の周りでの 2 乗和だから、その平方根は確率変数が期待値の周
りでどの程度乱雑であるかを表わす重要な指標である。
定義 6. σ(X) = V (X) を標準偏差(standard deviation)という。
この概念を共分散に拡張したいが、共分散は負にもなるので注意がいる。そこで、σ(X) =
V (X)
σ(X)
であることに注目して拡張する。
定義 7. X と Y の相関係数(correlation coefficient)R(X, Y ) を
R(X, Y ) :=
Cov(X, Y )
σ(X)σ(Y )
で定める。単に相関(correlation)ということもある。
命題 4. 相関係数について次が成り立つ。
(1) X と Y が独立であれば Cov(X, Y ) = R(X, Y ) = 0 である。
(2) −1 ≤ R(X, Y ) ≤ 1 である。
(3) R(X, Y ) = ±1 であれば
Y − E[Y ] = ±
σ(Y )
(X − E[X])
σ(X)
が成り立つ。
証明 (1) と (2) は易しい。(3) を示すには k = σ(Y )/σ(X) とおいて、
V (Y − kX) = V (Y ) − 2kσ(X)σ(Y )R(X, Y ) + k 2 V (X) = 2V (Y )(1 − R(X, Y ))
に注意する。但し k 2 V (X) = V (Y ) であることを用いた。だから R(X, Y ) = 1 であれば V (Y −
kX) = 0 である。つまり Y − kX = E[Y ] − kE[X] でなければならない。R(X, Y ) = −1 も同
様。
つまり R(X, Y ) = ±1 のときには、X と Y は(期待値を引いて)比例の関係にある。言い方を
変えれば、X と Y ははかり方の尺度(および正負の方向)が異なるだけで、本質的に同じもので
ある。一方、X と Y が独立であれば R(X, Y ) = 0 である。つまり、
• X と Y が同じ ⇒ |R(X, Y )| = 1
• X と Y が無関係 ⇒ R(X, Y ) = 0
が成立している。これが R(X, Y ) を X と Y の相関と呼ぶ所以である。
但し、R(X, Y ) = 0 であっても X と Y が独立とは限らない。もちろん R(X, Y ) = 0 であれば
X と Y は独立ではない。但し、X, Y が正規分布のときに限っては、独立性と R(X, Y ) = 0 は同
値である。
4