1 1 変数確率変数

確率を伴う変数を確率変数 (random variable) という. 確率変数にはトビトビの値を取りうる離散確率変数
と, 連続値を連続確率変数がある. ここでは離散変数のみをあつかう.
1 1 変数確率変数
一変数の離散確率変数 X を考える. 離散確率変数の取りうる n 個の実現値 xi (i = 1, . . . , n) と対応する確
率を pi = p(xi ) とする. これらをまとめたもの
xi
x1
···
xn
pi
pi
···
pn
を確率分布表という. このとき,
n
∑
0 ≤ pi ≤ 1,
pi = 1
i=1
が成り立たなければならない. また n が加算無限個の場合も考えている.
例えば, 正確なサイコロを 1 回降った時に出る目の確率分布表は以下である.
xi
1
2
3
4
5
6
pi
1/6
1/6
1/6
1/6
1/6
1/6
また 1 を取る確率が p で 0 を取る確率が 1 − p とするときの確率分布表は以下である.
xi
0
1
pi
1−p
p
このような分布表を持つ確率変数はベルヌーイ分布にしたがうという.
確率変数 X の (数学的) 期待値は
E[X] =
n
∑
xi pi
i=1
と定義され, 平均ともよばれる. サイコロの出る目の期待値は 7/2 で, ベルヌーイ分布にしたがう確率変数の
期待値は p である.
n が加算無限個の場合も考えているので, 期待値が存在しないこともありうる. たとえば, コインを投げて,
表が出たら 1 円もらい終了, そうでなければもう一度コインをなげて表がでたらその倍の 2 円もらい終了, そ
うでなければさらに賞金が倍になるコイン投げをおこなう. こうした行為を一連に繰り返すとき, n 回目では
じめ表がでる確率は 1/2n であり, その賞金は 2n−1 である. 表が出てゲームが終了したときに得る賞金 X と
する. 確率関数 P r[X = 2n−1 ] = 1/2n ≥ 0 で,
期待値は
∑∞
n=1 (1/2
n
) = 1 となるので X は離散確率変数である. その
∞
∞
∑
∑
1
1
n−1
×
2
=
=∞
n
2
2
n=1
n=1
となり, 存在しない. 期待値が無限大になるのに, 全財産を賭ける人は誰も居ないだろうとペテルスブルクの学
会でベルヌーイが発表した. そのため, ペテルスブルクの逆説と呼ばれている.
1
確率変数の一次変換 Y = a + bX を考える. このとき Y は確率変数で, 取りうる値は a + bxi (i = 1, . . . , n)
で, その期待値は
n
n
n
∑
∑
∑
(a + bxi )pi =
api +
bxi pi
E[a + bX] =
i=1
n
∑
=a
i=1
pi + b
i=1
n
∑
i=1
xi pi
i=1
= a + bE[X]
である. つまり一次変換の期待値は期待値の一次変換である.
一般に関数 g(x) を考える. g(X) は確率変数であり, 取りうる値は g(xi ) (i = 1, . . . , n) でその期待値は
E[g(X)] =
n
∑
g(xi )pi
i=1
である.
とくに g(x) = (x − E[X])2 とおいたとき, 分散といい
V [X] = E[(X − E[X])2 ] =
n
∑
(xi − E[X])2 pi
i=1
と定義される. X と E[X] の差を偏差といい, 偏差の自乗の期待値を分散という. 分散の平方根を標準偏差と
いう.
分散は V [X] ≥ 0 であり, V [X] = 0 となるのは一定の値の時のみである. また
V [X] =
n
∑
(x2i − 2E[X]xi + E[X]2 )pi
i=1
=
n
∑
x2i pi − 2E[X]
i=1
n
∑
xi pi + E[X]2
i=1
2
n
∑
pi
i=1
= E[X 2 ] − 2{E[X]} + {E[X]}2
= E[X 2 ] − {E[X]}2
である. これを分散公式という. ベルヌーイ分布にしたがう確率変数の分散は p(1 − p) である.
分散が存在するためには E[X 2 ] が存在すれば十分である. なぜなら E[X 2 ] ≥ (E[X])2 であり, E[X 2 ] が存
在すれば E[X] が存在するから分散公式より分散が存在する.*1
確率変数の一次変換 Y = a + bX の分散は
V [a + bX] = E[(a + bX − E[a + bX])2 ]
= b2 E[(X − E[X])2 ] = b2 V [X]
である.
*1
E[X 2 ] ≥ (E[X])2 の証明は以下の通りである. ある x0 を固定すると, ある関数 a + bx が存在して, x20 = a + bx0 が成り立ち,
任意の実数 x について, x2 ≥ a + bx となる. よって, x0 = E[X] とすると,
E[X 2 ] ≥ E[a + bX] = a + bE[X] = (E[X])2
となる. 実は, g(x) が凸関数について E[g(X)] > g(E[X]) が成り立ち, これをジェンセンの不等式という.
2
とくに, a = −E[X]/
√
√
V [X], b = 1/ V [X] とした一次変換
X − E[X]
Z= √
V [X]
を標準化という. このとき E[Z] = 0 および V [Z] = 1 である.
X r は確率変数であり, その期待値
E[X r ] =
n
∑
xri pi
i=1
を r 次モーメントという. 期待値は 1 次のモーメントであり, 分散は平均周りの 2 次のモーメントである. 先
ほどの E[X 2 ] は二次のモーメントであり, これが存在すれば平均と分散が定義できる. ジェンセンの不等式の
拡張で, r 次のモーメントが存在すれば r 未満のモーメントも存在する.
標準化した確率変数の 3 次のモーメントを歪度といい,
E[(X − E[X])3 ]
{V [X]}3/2
となる. 歪度は 0 をとるとき左右対称であるが, 正のとき右に偏りがあり, 負のとき左に偏りがあることを意
味している.
また 4 次のモーメントを尖度といい,
E[(X − E[X])4 ]
{V [X]}2
となる. 尖度は正の値をとり, 3 をこえると尖っているという. なぜ 3 かというと後述する正規分布の尖度が 3
だからである.
2 2 変数確率変数
二変数の離散確率変数 X,Y を考える. それぞれ n 個の実現値 xi (i = 1, . . . , n) と m 個の実現値 yj
(j = 1, . . . , m) を取りうるとする. このとき, X = xi かつ Y = yj をとる確率を pij = p(xi , yj ) とし, 同時
∑m
確率関数 (joint probability function) という. また X = xi を取る確率は pi· =
j=1 pij となり周辺確率
∑n
(marginal probability) とよばれる. 同様に Y = yj となる確率は p·j = i=1 pij である. これらをまとめ
たもの
x\y
y1
···
ym
pi·
x1
..
.
p11
..
.
···
p1m
..
.
p1·
..
.
xn
pn1
···
pnm
pn·
p·j
p·1
···
p·m
1
を同時確率分布表という.
例えばつぎの同時確率分布表を考える.
3
x\y
Y =0
Y =1
pi·
X = −1
0.1
0.2
0.3
X=0
0.3
0.1
0.4
X=1
0.2
0.1
0.3
p·j
0.6
0.4
1
X の 周 辺 確 率 は P [X = −1] = 0.3, P [X = 0] = 0.4, P [X = 1] = 0.3 で あ り, Y の 周 辺 確 率 は
P [Y = 0] = 0.6 で, P [Y = 1] = 0.4 である.
同時確率関数と周辺確率関数の間に
P [X = xi , Y = yj ] = pij = pi· p·j = P [X = xi ] × P [Y = yj ]
の関係が成り立っているとき, 独立という.
任意の関数 g1 (x) と g2 (y) を考える. g1 (X) は確率変数で取りうる値は g(xi ) (i = 1, . . . , n) であり, g2 (Y )
は確率変数で取りうる値は g2 (yi ) (j = 1, . . . , m) である. もし X と Y も独立なら,
P [g1 (X) = g1 (xi ), g2 (Y ) = g2 (yi )] = P [X = xi , Y = yj ] = P [X = xi ] × P [Y = yj ]
= P [g1 (X) = g1 (xi )] × P [g2 (Y ) = g2 (yj )]
となり g1 (X) と g2 (Y ) も独立である. たとえば X と Y も独立なら X 2 と Y 2 も独立である.
それぞれの期待値は
E[X] =
E[Y ] =
n ∑
m
∑
i=1 j=1
n ∑
m
∑
xi pij =
yj pij =
i=1 j=1
n
∑
i=1
m
∑
xi pi·
yj p·j
j=1
であり, 分散は
V [X] =
n ∑
m
∑
(xi − E[X])2 pij =
i=1 j=1
V [Y ] =
n ∑
m
∑
n
∑
(xi − E[X])2 pi·
i=1
m
∑
(yj − E[Y ])2 pij =
(yj − E[Y ])2 p·j
i=1 j=1
j=1
である.
たとえば, それぞれ 0 と 1 をとる二つの確率変数を考える. そのときの同確率時分布を以下とする.
P r[X, Y ]
Y =0
Y =1
X=0
p11
p12
X=1
p21
p22
p11 + p12 + p21 + p22 = 1 が成り立たなければならないので, 自由になる変数は 3 つである. ここで p = p22 ,
q = p21 + p, r = p12 + p と置き直すと周辺分布含めた同時確率分布は以下となる.
4
P r[X, Y ]
Y =0
Y =1
P r[X]
X=0
1+p−q−r
r−p
1−q
X=1
q−p
p
q
P r[Y ]
1−r
r
1
このとき, E[X] = q, E[Y ] = r であり, V [X] = q(1 − q), V [Y ] = r(1 − r) である.
共分散を
Cov[X, Y ] =
n ∑
m
∑
(xi − E[X])(yj − E[Y ])pij
i=1 j=1
で定義する. 共分散がゼロのとき無相関という.
共分散について
Cov[X, Y ] =
n ∑
m
∑
(xi yj − E[Y ]xi − E[X]yj − E[X]E[Y ])pij
i=1 j=1
=
m
n ∑
∑
xi yj pij − E[Y ]
i=1 j=1
m
n ∑
∑
xi pij − E[X]
i=1 j=1
m
n ∑
∑
yj pij − E[X]E[Y ]
i=1 j=1
m
n ∑
∑
pij
i=1 j=1
= E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ]
= E[XY ] − E[X]E[Y ]
が成立する. これを共分散公式という. さきの例だと, 共分散は
E[XY ] = 1 × 1 × P r[X = 1, Y = 1] = p
なので, Cov[X, Y ] = E[XY ] − E[X]E[Y ] = p − qr である.
確率変数 X と Y が独立のとき無相関である. 実際
E[XY ] =
=
n ∑
m
∑
xi yj pij =
i=1 j=1
n
∑
m
∑
i=1
j=1
xi pi·
n ∑
m
∑
xi yj pi· p·j
i=1 j=1
yj p·j = E[X]E[Y ]
である.
しかしながら無相関だからといって, 互いに独立とは限らない. たとえば次の同時確率関数および周辺確率
関数を考える.
P r[X, Y ]
Y = −1
Y =0
Y =1
P r[X]
X = −1
0.1
0.1
0.1
0.3
X=0
0.1
0.2
0.1
0.4
X=1
0.1
0.1
0.1
0.3
P r[Y ]
0.3
0.4
0.3
1
このとき, E[X] = E[Y ] = E[XY ] = 0 であるので無相関である. しかしながら独立でない. 例えば,
P r[X = 1, Y = 1] ̸= P r[X = 1] · P r[Y = 1] である.
5
なお, 二変数がベルヌーイ分布に従うなら, 互いに独立である. 共分散がゼロのための条件は p = qr である.
よって, P [X = 1, Y = 1] = P r[X = 1] · P r[Y = 1] である. 2 × 2 なので, ここが決まれば, 他も成り立つの
で, 独立である.
任意の関数 g1 (x) と g2 (y) を考える. 確率変数 X と Y が独立のとき g1 (X) と g2 (Y ) も独立であり,
E[g1 (X)g2 (Y )] = E[g1 (X)]E[g2 (Y )]
である. たとえば X と Y も独立なら X 2 と Y 2 も独立であり, E[X 2 Y 2 ] = E[X 2 ]E[Y 2 ] である.
いっぽう, X と Y が無相関のとき, g1 と g2 が一次変換のとき E[g1 (X)g2 (Y )] = E[g1 (X)]E[g2 (Y )] が成
り立つが, それ以外の関数で成立しない. g1 と g2 が一次変換のとき成り立つことは, a + bX と c + dY の共
分散が以下になることにより, 明らかである.
Cov[a + bX, c + dY ] = E[(a + bX − E[a + bX])(c + dY − E[c + dY ])]
= E[(bX − bE[X])(dY − dE[Y ])]
= bdCov[X, Y ]
いま 2 つの確率変数 X と Y の和 Z = X + Y を考える. このときの期待値は
E[X + Y ] =
n ∑
m
∑
(xi + yj )pij
i=1 j=1
=
n ∑
m
∑
xi pij +
i=1 j=1
n ∑
m
∑
yj pij = E[X] + E[Y ]
i=1 j=1
である. 分散は
V [X + Y ] = E[(X + Y − E[X] − E[Y ])2 ]
= E[(X − E[X])2 + (Y − E[Y ])2 + 2(X − E[X])(Y − E[Y ])]
= E[(X − E[X])2 ] + E[(Y − E[Y ])2 ] + 2E[(X − E[X])(Y − E[Y ])]
= V [X] + V [Y ] + 2Cov[X, Y ]
である. とくに, X と Y が無相関なら V [X + Y ] = V [X] + V [Y ] である. つまり, 和の期待値は期待値の和と
なるが, 和の分散が分散の和になるためには, 無相関でなければならない.
同様に Z = aX + bY については
E[Z] = aE[X] + bE[Y ]
V [Z] = a2 V [X] + b2 V [Y ] + 2abCov[X, Y ]
である.
確率変数 X と Y を標準化しその共分散を相関係数という. 相関係数は
[
]
X − E[X] Y − E[Y ]
Cov[X, Y ]
√
Corr[X, Y ] = Cov √
, √
=√
V [X]
V [Y ]
V [X] V [Y ]
である. 一次変換同士の相関係数は以下である.
bd
Cov[X, Y ]
Cov[a + bX, c + dY ]
√
√
√
=
Corr[a + bX, c + dY ] = √
|b||d| V [X] V [Y ]
V [a + bX] V [c + dY ]
6
である. 絶対値の意味で相関係数が同じである. ただ bd < 0 のとき, 符号が逆転する.
√
√
V [X] と v = (Y − E[Y ])/ V [Y ] として,
相関係数は −1 以上 1 以下である. 実際 u = (X − E[X])/
E[u ± v] = 0 なので
V [u + v] = E[(u + v)2 ] = E[u2 + 2uv + v 2 ]
= E[u2 ] + 2E[uv] + E[v 2 ] = 2 + 2Corr[X, Y ]
であり, V [u + v] ≥ 0 なので, Corr[X, Y ] ≥ −1 であり, 等号が成り立つのは完全な線形関係のときのみであ
る. 同様に
V [u − v] = E[(u − v)2 ] = E[u2 − 2uv + v 2 ]
= E[u2 ] − 2E[uv] + E[v 2 ] = 2 − 2Corr[X, Y ]
であり, V [u − v] ≥ 0 なので, Corr[X, Y ] ≤ 1 であり, 等号が成り立つのは完全な線形関係のときのみである.
よって −1 ≤ Corr[X, Y ] ≤ 1 である.
相関係数の自乗は Corr[X, Y ]2 ≤ 1 なので, 分散が存在すれば
Cov[X, Y ]2 ≤ V [X]V [Y ]
となり, 共分散が存在する. よって 2 次のモーメントが存在すれば, 平均と分散と共分散が存在する. とくに言
及しない限り, 確率変数は 2 次のモーメントが存在すると仮定している.
3
多変量確率変数
n 変数の確率変数 {Xi }ni=1 を考える. n 個の定数 ci を加重とした加重和の平均は
E[
n
∑
ci Xi ] =
i=1
n
∑
ci E[Xi ]
i=1
であり, 分散は Cov[Xi , Xi ] = V [Xi ] として
V[
n
∑
(
ci Xi ] = E 
i=1
(
=E
n
∑
ci Xi − E
i=1
n
∑
[ n
∑
i=1
])2 
ci Xi

)2 
ci (Xi − E [Xi ])

i=1


n ∑
n
∑
=E
ci (Xi − E [Xi ])cj (Xj − E [Xj ])
i=1 j=1
=
=
n ∑
n
∑
i=1 j=1
n ∑
n
∑
ci cj E [(Xi − E [Xi ])(Xj − E [Xj ])]
ci cj Cov[Xi , Xj ]
i=1 j=1
∑n
となる. 2 行目から 3 行目は (
i=1
ai ) 2 =
∑n
∑n
V [ i=1 ci Xi ] = i=1 c2i V [Xi ] である.
∑n
i=1
∑n
j=1
7
ai aj を用いる. Cov[Xi , Xj ] = 0 (i ̸= j) のとき,
n 変数の確率変数 {Xi }ni=1 が互いに独立で同一分布にしたがうとき iid という. iid のとき E[Xi ] = µ,
V [Xi ] = σ 2 と表記すれば
E[
V[
n
∑
i=1
n
∑
ci Xi ] =
i=1
n
∑
ci
i=1
n
∑
σ2
c2i
i=1
ci Xi ] = µ
である.
n 変数の確率変数 {Xi }ni=1 が互いに独立で, ベルヌーイ分布にしたがう確率変数, つまり確率 p で 1 をとり,
∑n
確率 1 − p で 0 をとる確率変数とする. このときその和 Y = i=1 Xi は平均 np で分散 np(1 − p) である. こ
の確率変数 Y の分布は二項分布と呼ばれ, 確率関数は
P r[Y = k] =n Ck pk (1 − p)n−k
であることが知られている.
8