1 確率空間と確率変数

数理統計学第2回 講義ノート
勝島 義史
2015/4/28
1 確率空間と確率変数
1.1 確率空間
考える確率モデルの、それ以上分割することのできない、起こりうること一つ一つのこ
とを根元事象 (または標本) といい、ω(オメガ、omega) で表す。ω を適当に集めて作られ
る集合 A のことを、事象という。ω の全てを集めてできた集合 Ω(オメガ、Omega) を、
標本空間という。
ω∈A⊂Ω
(1)
確率空間とは、この標本空間 Ω と、事象に実数を与えるルール P (A) の組 (Ω, P ) のこと
を指す。
P のルールについて。P は以下の条件を満たすものとする:
1. P は、標本空間 Ω に対して 1 を与える:
P (Ω) = 1.
(2)
2. どのような事象 A に対しても、P は
0 ≤ P (A) ≤ 1
(3)
を満たす。また、A の補集合 Ac := {ω ∈ Ω|ω ∈
/ A} に対して、P (Ac ) = 1 − P (A)
を与える。
3. 素集合系 {An } を考える。すなわち、i ̸= j に対して Ai ∩ Aj = ϕ を満たす集合の
列を考える。このとき、{An } の和集合 ∪n An に対して P は
P(
∪
An ) =
n
∑
P (An )
n
を与える。
このような条件を満たす、事象の集まりから実数への写像 P のことを、確率と呼ぶ。
1
(4)
例 1 自然数 N 、実数 0 < p < 1 を固定する。標本空間 Ω として、以下のような集合を
考える。
Ω = {ω = (x1 , x2 , . . . , xN ) | xj ∈ {0, 1}, j = 1, 2, . . . , N }
(5)
集合 A ⊂ Ω に対して、以下を与える:
P (A) =
∑
∑N
p
n=1
xn
(1 − q)N −
∑N
n=1
xn
.
(6)
ω∈A
このとき、(Ω, P ) は確率空間になる。
事実 1.1 関数の積分は、以下のような性質を持つ。区間の集合 {[an , bn ]}n は、交わりを
持たないとする。このとき、区間の和集合 I =
∫
f (x)dx =
I
∪
∑∫
n [an , bn ]
上での積分は
bn
f (x)dx
(7)
an
n
を満たす。
例 2 標本空間 Ω として、実数の区間 [0, 1] を考える。集合 A に対して、P (A) を
∫
P (A) =
1dx
(8)
A
と定義する。このとき、([0, 1], P ) は確率空間になる。
注 1.1 積分は、実は区間の無限和やそれらの共通部分などにしか定義されない。そのよ
うな素直な集合しか、確率論では相手にしない。ちなみに、閉区間でしか積分を定義しな
かったが、開区間は閉区間の無限和として書ける。閉区間は
[a, b] = {x ∈ R|a ≤ x ≤ b}
(9)
(a, b) = {x ∈ R|a < x < b}
(10)
開区間は
区間の列 {[an , bn ]}n=1,2,... を、
b−a
2n + 1
b−a
bn = b −
2n + 1
an = a +
2
と定める。limn→∞ an = a, limn→∞ bn = b で、
∞
∪
[an , bn ] = {x ∈ R|∃n s.t. x ∈ [an , bn ]}
n
= (a, b)
である。
細かいことを言いすぎた。要は、離散的な集合だけじゃなくて、連続的な集合に対しても
確率論を考えよう、その確率は適当に積分を用いて与えよう、という考えである。ちなみ
に、積分論を用いて確率の定式化を厳密にしたのはソ連のコルモゴロフという人である。
1.2 確率変数と期待値、分散
最も一般的に確率変数は、確率空間から集合への写像のことである。ほとんど何も条件
はない。ここでは、実数の空間 R への写像 (1 次元確率空間) に限る。
定義 1.1 確率空間を (Ω, P ) とする。X が1次元確率変数であるとは、X が標本空間か
ら実数空間への写像
→
R
ω
7→
X(ω)
∈
: Ω
∈
X
であることを指す。
細かく言うと、R の閉区間 I の逆像 X −1 (I) が、Ω 内で、閉集合の和集合などで表される
こと(可測性)が必要だが、この講義では全く気にしなくてよい。特に、Ω が実数の空間
R や、R で作られるベクトル空間 Rn の場合、X は連続微分可能であることを要求する
ことが多い。ちなみに関数が連続であるとは、全ての開集合の逆像が開集合になることを
指す。
例 3 例 1 の確率空間 (Ω, P ) を持ってくる。確率変数 X として、ω = (x1 , x2 , . . . , xN )
に対して X(ω) を
X((x1 , x2 , . . . , xN )) =
N
∑
xn
n=1
と定めるものとする。すなわち、X は Ω から {0, 1, 2, . . . , N } ⊂ R への写像である。
3
例 4 例 2 の確率空間 ([0, 1], P ) を考える。区間 [0, 1] 上の関数 id(ω) = ω をとると、id
は確率空間 ([0, 1], P ) から R への写像なので、確率変数である。
このように、要は関数であれば大体のものは確率変数とみなすことができる。以下では、
よく使われる確率変数の、便宜上の名称を与える。
定義 1.2 確率空間 (Ω, P ) と確率変数 X を考える。
1.
X の値域
X(Ω) = {x ∈ R | ∃ω ∈ Ω s.t. X(ω) = x}
が加算個 (有限個、もしくは数え上げられる無限個) の元からなる集合である場合、
確率変数 X を、離散確率変数と呼ぶ。
2.
X の値域が R の区間である場合、X を連続確率変数と呼ぶ。
例 3 の確率変数は、値域 X(Ω) = {0, 1, . . . , N } が有限個の元からなるので離散確率変数
であり、例 4 の確率変数 id は、値域が区間 [0, 1] であるので連続確率変数である。確率変
数には、離散でも連続でもないものが当然あるが、この講義では扱わない。とても解析が
大変である。
確率分布を定義する。確率分布とは、確率変数 X がある値 x になる確率を指す。すな
わち
定義 1.3 確率変数 X は離散確率変数とする。X の値域 X(Ω) は、定義より数え上げら
れる。X(Ω) を X(Ω) = {x1 , x2 , . . . , xn , . . . } と書き表すとき、それぞれの元 xn に対し
て確率 fn = P ({ω | X(ω) = xn }) が定まる。{fn } のことを、確率分布という。また、X
のことを確率分布 {fn } に従う確率変数という。
連続確率変数に対してもこのようなものを定義したいが、値域の各元に対して確率を定め
るのはいささか難儀である。何となれば、一点の上の積分は、被積分関数が連続関数であ
れば必ず 0 となるからである。そこで、以下のように累積分布関数を定め、その微分とし
て確率密度関数を定める。
定義 1.4 連続確率変数 X に対して、累積分布関数 F (x) を
F (x) = P ({ω ∈ Ω | X(ω) ≤ x}), x ∈ R
と定める。また、F (x) が微分可能であるとき、その微分
度関数と呼ぶ。
4
dF
dx (x)
= f (x) を、X の確率密
注 1.2 累積分布関数自体は、確率変数が離散でも連続でも定義される。累積分布関数さ
え定義すれば、実は確率分布を定義することも可能であるが、テクニカルになる。
累積分布関数 F (x) は、x に関する広義単調増加関数(つまり、任意の x1 , x2 ∈ R に対
して x1 < x2 ならば F (x1 ) ≤ F (x2 ) が成立する)であるので、微分が存在するならば
f (x) ≥ 0 である。このことを確かめる。
[証明] F (x) が広義単調増加なること:x1 < x2 に対して、集合についての包含関係
A1 := {ω ∈ Ω | X(ω) ≤ x1 } ⊂ {ω ∈ Ω | X(ω) ≤ x2 } =: A2
が成立する。ここで、A3 = A2 \ A1 = {ω | ω ∈ A2 , ω ∈
/ A1 } と置くと、A2 = A1 ∪ A3
であり、A1 ∩ A3 = ϕ なので、確率の定義から
P (A2 ) = P (A1 ) + P (A3 )
が成立し、一方で P (A3 ) ≥ 0 なので、P (A2 ) ≥ P (A1 ) が成り立つ。ゆえに F (x) は広義
単調増加。微分の定義を考える。適当な x0 ∈ R について
F (x) − F (x0 )
x − x0
の分母分子は同符号か、もしくは分母=0 である。このとき、
F (x)−F (x0 )
x−x0
≥ 0 が任意の
実数 x, x ̸= x0 について成立する。この式の極限を取っても不等号は変わらないので、
f (x0 ) ≥ 0 が成立する。(証明終わり)
確率密度関数と累積分布関数は、微分と積分の関係にある。すなわち、
∫
x
F (x) =
f (x)dx
−∞
が成立する。特に、
∫
∞
f (x)dx = 1
−∞
が成立する。
確率変数に対して、期待値と分散を定義しよう。期待値と分散は、今後の講義で最重要
になる概念であるので、定義だけでも抑えていただきたい。
定義 1.5
1.
離散確率変数 X に対して、X の期待値 E(X) を以下で定義する。
E(X) =
∑
xn P ({ω | X(ω) = xn }) =
∑
n
n
5
xn fn
ここで、xn は X の値域 X(Ω) 全体を動く(X は離散なので、xn は数え上げるこ
とができる)。
2.
連続確率変数 X に対して、X の期待値 E(X) を以下で定義する。
∫
∞
E(X) =
xf (x)dx.
−∞
ただし、f (x) は確率変数 X の確率密度関数を指す。
要は確率変数の値に、その値の出る確率を掛けて足し合わせたもののことを期待値と呼
ぶ。分散は以下のように定義される。
定義 1.6
1.
X が離散確率変数であるとき、X の分散 V (X) を
V (X) =
∑
(xn − E(X))2 fn
n
と定義する。
2.
X が連続確率変数であるとき、X の分散を
∫ ∞
V (X) =
(x − E(X))2 f (x)dx
−∞
と定義する。分散はいつでも正である。分散のルート
√
V (X) を標準偏差と呼び、
σ(X) と表す。
期待値と分散の定義はこの程度にして、例を見てみよう。
例 5 例 3 の確率変数 X に対して期待値を計算しよう。確率変数 X が n という値を取
!
る確率は、 n!(NN−n)!
pn (1 − p)N −n になるので、期待値 E(X) は以下のようになる。
E(X) =
N
∑
n
n=0
=
N
∑
N!
pn (1 − p)N −n
n!(N − n)!
Np
n=0
(N − 1)!
pn−1 (1 − p)(N −1)−(n−1)
(n − 1)!((N − 1) − (n − 1))!
= N p.
∑N −1
(N −1)!
n−1
(1
n−1=0 (n−1)!((N −1)−(n−1))! p
− p)(N −1)−(n−1) = 1 を 用 い た 。分
∑N −2
(N −2)!
散 に つ い て も 同 様 の テ ク ニ ッ ク を 用 い る 。 n−2=0 (n−2)!((N −2)−(n−2))! pn−2 (1 −
ここで、
6
p)(N −2)−(n−2) = 1 に注意。
V (X) =
N
∑
(n − N p)2
n=0
=
N
∑
N!
pn (1 − p)N −n
n!(N − n)!
(n(n − 1) − (2N p − 1)n + N 2 p2 )
n=0
N!
pn (1 − p)N −n
n!(N − n)!
= −(2N p − 1)N p + N 2 p2 + N (N − 1)p2
= N p(1 − p).
つまり、確率変数 X の期待値は E(X) = N p、分散は V (X) = N p(1 − p) である。標準
偏差は σ =
√
N p(1 − p) である。
例 6 例 4 の確率変数 X(ω) = id(ω) = ω について、期待値と分散を求める。まず、累積
分布関数 F (x) を求めよう。

 0, x < 0
x, 0 ≤ x ≤ 1
F (x) = P ({ω | ω ≤ x}) =

1, x ≥ 1
が成立する。ゆえに確率密度関数 f (x) は
{
f (x) =
1, 0 < x < 1
0, others.
となる。期待値 E(X) は
∫
∫
∞
E(X) =
1
xf (x)dx =
xdx =
−∞
0
1
2
であり、分散は
∫
∞
1
V (X) =
(x − )2 f (x) =
2
−∞
となる。標準偏差は σ =
1
√
2 3
∫
1
0
1
1
(x − )2 dx =
2
12
である。
期待値や分散の、ある意味で親玉のような「モーメント母関数」を紹介する。
定義 1.7 確率変数 X に対してモーメント母関数 MX (t) を、以下のように定義する。
1.
X が離散確率変数のとき、値域を {xn }、確率分布を {fn } として
∑
etxn fn
MX (t) =
n
7
と定める。
2.
X が連続確率変数のとき、確率密度関数を f (x) として
∫
MX (t) =
∞
etx f (x)dx
−∞
と定める。
モーメント母関数は、確率変数の情報をほとんどすべて持っていると言える。証明はしな
いが、モーメント母関数から確率分布や確率密度関数を再現することができる。以下で、
期待値や分散をモーメント母関数から求める方法を紹介する。
命題 1.2 確率変数 X は、t = 0 のまわりで 2 回連続微分可能なモーメント母関数
MX (t) を持つと仮定する。このとき、期待値 E(X) =
2
d
dt2 Mx (t)|t=0
d
dt MX (t)|t=0 、分散
V (X) =
d
− ( dt
MX (t)|t=0 )2 が成立する。
命題に現れる記号 f (t)|t=0 は、関数 f (t) を t = 0 に制限した値、を指す。つまり、上の
d
dt MX (t)|t=0
d
dt MX (t)
は、モーメント母関数の導関数
へ t = 0 を代入すると思って良い。
[証明] 証明はほぼ同じなので連続確率変数の場合に示す。モーメント母関数 MX (t) の
微分を計算すると
∫
d
d ∞ tx
MX (t) =
e f (x)dx
dt
dt −∞
)
∫ ∞(
d tx
=
e
f (x)dx
dt
−∞
∫ ∞
=
xetx f (x)dx
−∞
この式で t = 0 を代入すると
d
MX (0) =
dt
∫
∞
xf (x)dx = E(X)
−∞
となり、モーメント母関数の微分が期待値と一致した。同様に分散について考える。ま
ず、分散の式を簡単にする。
∫
∞
V (X) =
∫
−∞
∞
=
−∞
(x − E(x))2 f (x)dx
(x2 − 2xE(X) + E(X)2 )f (x)dx
8
ここで E(X) =
∫∞
xf (x)dx であること、
−∞
∫∞
−∞
f (x)dx = 1 であることを用いると、上
の式は
∫
∞
V (X) =
−∞
x2 f (x)dx − E(X)2
と計算できる。さて、モーメント母関数の二回微分を計算すると
d2
MX (t) =
dt2
∫
∞
x2 etx f (x)dx
−∞
で、t = 0 を代入すると
d2
MX (0) =
dt2
∫
∞
x2 f (x)dx
−∞
となる。よって V (X) の表式として
d2
V (X) = 2 MX (t)|t=0 −
dt
を得る。(証明終わり)
9
(
d
MX (t)|t=0
dt
)2