確率を伴う変数を確率変数 (random variable) という. 確率変数にはトビトビの値を取りうる離散確率変数 と, 連続値を連続確率変数がある. ここでは離散変数のみをあつかう. 1 1 変数確率変数 一変数の離散確率変数 X を考える. 離散確率変数の取りうる n 個の実現値 xi (i = 1, . . . , n) と対応する確 率を pi = p(xi ) とする. これらをまとめたもの xi x1 ··· xn pi pi ··· pn を確率分布表という. このとき, n ∑ 0 ≤ pi ≤ 1, pi = 1 i=1 が成り立たなければならない. また n が加算無限個の場合も考えている. 例えば, 正確なサイコロを 1 回降った時に出る目の確率分布表は以下である. xi 1 2 3 4 5 6 pi 1/6 1/6 1/6 1/6 1/6 1/6 また 1 を取る確率が p で 0 を取る確率が 1 − p とするときの確率分布表は以下である. xi 0 1 pi 1−p p このような分布表を持つ確率変数はベルヌーイ分布にしたがうという. 確率変数 X の (数学的) 期待値は E[X] = n ∑ xi pi i=1 と定義され, 平均ともよばれる. サイコロの出る目の期待値は 7/2 で, ベルヌーイ分布にしたがう確率変数の 期待値は p である. n が加算無限個の場合も考えているので, 期待値が存在しないこともありうる. たとえば, コインを投げて, 表が出たら 1 円もらい終了, そうでなければもう一度コインをなげて表がでたらその倍の 2 円もらい終了, そ うでなければさらに賞金が倍になるコイン投げをおこなう. こうした行為を一連に繰り返すとき, n 回目では じめ表がでる確率は 1/2n であり, その賞金は 2n−1 である. 表が出てゲームが終了したときに得る賞金 X と する. 確率関数 P r[X = 2n−1 ] = 1/2n ≥ 0 で, 期待値は ∑∞ n=1 (1/2 n ) = 1 となるので X は離散確率変数である. その ∞ ∞ ∑ ∑ 1 1 n−1 × 2 = =∞ n 2 2 n=1 n=1 となり, 存在しない. 期待値が無限大になるのに, 全財産を賭ける人は誰も居ないだろうとペテルスブルクの学 会でベルヌーイが発表した. そのため, ペテルスブルクの逆説と呼ばれている. 1 確率変数の一次変換 Y = a + bX を考える. このとき Y は確率変数で, 取りうる値は a + bxi (i = 1, . . . , n) で, その期待値は n n n ∑ ∑ ∑ (a + bxi )pi = api + bxi pi E[a + bX] = i=1 n ∑ =a i=1 pi + b i=1 n ∑ i=1 xi pi i=1 = a + bE[X] である. つまり一次変換の期待値は期待値の一次変換である. 一般に関数 g(x) を考える. g(X) は確率変数であり, 取りうる値は g(xi ) (i = 1, . . . , n) でその期待値は E[g(X)] = n ∑ g(xi )pi i=1 である. とくに g(x) = (x − E[X])2 とおいたとき, 分散といい V [X] = E[(X − E[X])2 ] = n ∑ (xi − E[X])2 pi i=1 と定義される. X と E[X] の差を偏差といい, 偏差の自乗の期待値を分散という. 分散の平方根を標準偏差と いう. 分散は V [X] ≥ 0 であり, V [X] = 0 となるのは一定の値の時のみである. また V [X] = n ∑ (x2i − 2E[X]xi + E[X]2 )pi i=1 = n ∑ x2i pi − 2E[X] i=1 n ∑ xi pi + E[X]2 i=1 2 n ∑ pi i=1 = E[X 2 ] − 2{E[X]} + {E[X]}2 = E[X 2 ] − {E[X]}2 である. これを分散公式という. ベルヌーイ分布にしたがう確率変数の分散は p(1 − p) である. 分散が存在するためには E[X 2 ] が存在すれば十分である. なぜなら E[X 2 ] ≥ (E[X])2 であり, E[X 2 ] が存 在すれば E[X] が存在するから分散公式より分散が存在する.*1 確率変数の一次変換 Y = a + bX の分散は V [a + bX] = E[(a + bX − E[a + bX])2 ] = b2 E[(X − E[X])2 ] = b2 V [X] である. *1 E[X 2 ] ≥ (E[X])2 の証明は以下の通りである. ある x0 を固定すると, ある関数 a + bx が存在して, x20 = a + bx0 が成り立ち, 任意の実数 x について, x2 ≥ a + bx となる. よって, x0 = E[X] とすると, E[X 2 ] ≥ E[a + bX] = a + bE[X] = (E[X])2 となる. 実は, g(x) が凸関数について E[g(X)] > g(E[X]) が成り立ち, これをジェンセンの不等式という. 2 とくに, a = −E[X]/ √ √ V [X], b = 1/ V [X] とした一次変換 X − E[X] Z= √ V [X] を標準化という. このとき E[Z] = 0 および V [Z] = 1 である. X r は確率変数であり, その期待値 E[X r ] = n ∑ xri pi i=1 を r 次モーメントという. 期待値は 1 次のモーメントであり, 分散は平均周りの 2 次のモーメントである. 先 ほどの E[X 2 ] は二次のモーメントであり, これが存在すれば平均と分散が定義できる. ジェンセンの不等式の 拡張で, r 次のモーメントが存在すれば r 未満のモーメントも存在する. 標準化した確率変数の 3 次のモーメントを歪度といい, E[(X − E[X])3 ] {V [X]}3/2 となる. 歪度は 0 をとるとき左右対称であるが, 正のとき右に偏りがあり, 負のとき左に偏りがあることを意 味している. また 4 次のモーメントを尖度といい, E[(X − E[X])4 ] {V [X]}2 となる. 尖度は正の値をとり, 3 をこえると尖っているという. なぜ 3 かというと後述する正規分布の尖度が 3 だからである. 2 2 変数確率変数 二変数の離散確率変数 X,Y を考える. それぞれ n 個の実現値 xi (i = 1, . . . , n) と m 個の実現値 yj (j = 1, . . . , m) を取りうるとする. このとき, X = xi かつ Y = yj をとる確率を pij = p(xi , yj ) とし, 同時 ∑m 確率関数 (joint probability function) という. また X = xi を取る確率は pi· = j=1 pij となり周辺確率 ∑n (marginal probability) とよばれる. 同様に Y = yj となる確率は p·j = i=1 pij である. これらをまとめ たもの x\y y1 ··· ym pi· x1 .. . p11 .. . ··· p1m .. . p1· .. . xn pn1 ··· pnm pn· p·j p·1 ··· p·m 1 を同時確率分布表という. 例えばつぎの同時確率分布表を考える. 3 x\y Y =0 Y =1 pi· X = −1 0.1 0.2 0.3 X=0 0.3 0.1 0.4 X=1 0.2 0.1 0.3 p·j 0.6 0.4 1 X の 周 辺 確 率 は P [X = −1] = 0.3, P [X = 0] = 0.4, P [X = 1] = 0.3 で あ り, Y の 周 辺 確 率 は P [Y = 0] = 0.6 で, P [Y = 1] = 0.4 である. 同時確率関数と周辺確率関数の間に P [X = xi , Y = yj ] = pij = pi· p·j = P [X = xi ] × P [Y = yj ] の関係が成り立っているとき, 独立という. 任意の関数 g1 (x) と g2 (y) を考える. g1 (X) は確率変数で取りうる値は g(xi ) (i = 1, . . . , n) であり, g2 (Y ) は確率変数で取りうる値は g2 (yi ) (j = 1, . . . , m) である. もし X と Y も独立なら, P [g1 (X) = g1 (xi ), g2 (Y ) = g2 (yi )] = P [X = xi , Y = yj ] = P [X = xi ] × P [Y = yj ] = P [g1 (X) = g1 (xi )] × P [g2 (Y ) = g2 (yj )] となり g1 (X) と g2 (Y ) も独立である. たとえば X と Y も独立なら X 2 と Y 2 も独立である. それぞれの期待値は E[X] = E[Y ] = n ∑ m ∑ i=1 j=1 n ∑ m ∑ xi pij = yj pij = i=1 j=1 n ∑ i=1 m ∑ xi pi· yj p·j j=1 であり, 分散は V [X] = n ∑ m ∑ (xi − E[X])2 pij = i=1 j=1 V [Y ] = n ∑ m ∑ n ∑ (xi − E[X])2 pi· i=1 m ∑ (yj − E[Y ])2 pij = (yj − E[Y ])2 p·j i=1 j=1 j=1 である. たとえば, それぞれ 0 と 1 をとる二つの確率変数を考える. そのときの同確率時分布を以下とする. P r[X, Y ] Y =0 Y =1 X=0 p11 p12 X=1 p21 p22 p11 + p12 + p21 + p22 = 1 が成り立たなければならないので, 自由になる変数は 3 つである. ここで p = p22 , q = p21 + p, r = p12 + p と置き直すと周辺分布含めた同時確率分布は以下となる. 4 P r[X, Y ] Y =0 Y =1 P r[X] X=0 1+p−q−r r−p 1−q X=1 q−p p q P r[Y ] 1−r r 1 このとき, E[X] = q, E[Y ] = r であり, V [X] = q(1 − q), V [Y ] = r(1 − r) である. 共分散を Cov[X, Y ] = n ∑ m ∑ (xi − E[X])(yj − E[Y ])pij i=1 j=1 で定義する. 共分散がゼロのとき無相関という. 共分散について Cov[X, Y ] = n ∑ m ∑ (xi yj − E[Y ]xi − E[X]yj − E[X]E[Y ])pij i=1 j=1 = m n ∑ ∑ xi yj pij − E[Y ] i=1 j=1 m n ∑ ∑ xi pij − E[X] i=1 j=1 m n ∑ ∑ yj pij − E[X]E[Y ] i=1 j=1 m n ∑ ∑ pij i=1 j=1 = E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ] = E[XY ] − E[X]E[Y ] が成立する. これを共分散公式という. さきの例だと, 共分散は E[XY ] = 1 × 1 × P r[X = 1, Y = 1] = p なので, Cov[X, Y ] = E[XY ] − E[X]E[Y ] = p − qr である. 確率変数 X と Y が独立のとき無相関である. 実際 E[XY ] = = n ∑ m ∑ xi yj pij = i=1 j=1 n ∑ m ∑ i=1 j=1 xi pi· n ∑ m ∑ xi yj pi· p·j i=1 j=1 yj p·j = E[X]E[Y ] である. しかしながら無相関だからといって, 互いに独立とは限らない. たとえば次の同時確率関数および周辺確率 関数を考える. P r[X, Y ] Y = −1 Y =0 Y =1 P r[X] X = −1 0.1 0.1 0.1 0.3 X=0 0.1 0.2 0.1 0.4 X=1 0.1 0.1 0.1 0.3 P r[Y ] 0.3 0.4 0.3 1 このとき, E[X] = E[Y ] = E[XY ] = 0 であるので無相関である. しかしながら独立でない. 例えば, P r[X = 1, Y = 1] ̸= P r[X = 1] · P r[Y = 1] である. 5 なお, 二変数がベルヌーイ分布に従うなら, 互いに独立である. 共分散がゼロのための条件は p = qr である. よって, P [X = 1, Y = 1] = P r[X = 1] · P r[Y = 1] である. 2 × 2 なので, ここが決まれば, 他も成り立つの で, 独立である. 任意の関数 g1 (x) と g2 (y) を考える. 確率変数 X と Y が独立のとき g1 (X) と g2 (Y ) も独立であり, E[g1 (X)g2 (Y )] = E[g1 (X)]E[g2 (Y )] である. たとえば X と Y も独立なら X 2 と Y 2 も独立であり, E[X 2 Y 2 ] = E[X 2 ]E[Y 2 ] である. いっぽう, X と Y が無相関のとき, g1 と g2 が一次変換のとき E[g1 (X)g2 (Y )] = E[g1 (X)]E[g2 (Y )] が成 り立つが, それ以外の関数で成立しない. g1 と g2 が一次変換のとき成り立つことは, a + bX と c + dY の共 分散が以下になることにより, 明らかである. Cov[a + bX, c + dY ] = E[(a + bX − E[a + bX])(c + dY − E[c + dY ])] = E[(bX − bE[X])(dY − dE[Y ])] = bdCov[X, Y ] いま 2 つの確率変数 X と Y の和 Z = X + Y を考える. このときの期待値は E[X + Y ] = n ∑ m ∑ (xi + yj )pij i=1 j=1 = n ∑ m ∑ xi pij + i=1 j=1 n ∑ m ∑ yj pij = E[X] + E[Y ] i=1 j=1 である. 分散は V [X + Y ] = E[(X + Y − E[X] − E[Y ])2 ] = E[(X − E[X])2 + (Y − E[Y ])2 + 2(X − E[X])(Y − E[Y ])] = E[(X − E[X])2 ] + E[(Y − E[Y ])2 ] + 2E[(X − E[X])(Y − E[Y ])] = V [X] + V [Y ] + 2Cov[X, Y ] である. とくに, X と Y が無相関なら V [X + Y ] = V [X] + V [Y ] である. つまり, 和の期待値は期待値の和と なるが, 和の分散が分散の和になるためには, 無相関でなければならない. 同様に Z = aX + bY については E[Z] = aE[X] + bE[Y ] V [Z] = a2 V [X] + b2 V [Y ] + 2abCov[X, Y ] である. 確率変数 X と Y を標準化しその共分散を相関係数という. 相関係数は [ ] X − E[X] Y − E[Y ] Cov[X, Y ] √ Corr[X, Y ] = Cov √ , √ =√ V [X] V [Y ] V [X] V [Y ] である. 一次変換同士の相関係数は以下である. bd Cov[X, Y ] Cov[a + bX, c + dY ] √ √ √ = Corr[a + bX, c + dY ] = √ |b||d| V [X] V [Y ] V [a + bX] V [c + dY ] 6 である. 絶対値の意味で相関係数が同じである. ただ bd < 0 のとき, 符号が逆転する. √ √ V [X] と v = (Y − E[Y ])/ V [Y ] として, 相関係数は −1 以上 1 以下である. 実際 u = (X − E[X])/ E[u ± v] = 0 なので V [u + v] = E[(u + v)2 ] = E[u2 + 2uv + v 2 ] = E[u2 ] + 2E[uv] + E[v 2 ] = 2 + 2Corr[X, Y ] であり, V [u + v] ≥ 0 なので, Corr[X, Y ] ≥ −1 であり, 等号が成り立つのは完全な線形関係のときのみであ る. 同様に V [u − v] = E[(u − v)2 ] = E[u2 − 2uv + v 2 ] = E[u2 ] − 2E[uv] + E[v 2 ] = 2 − 2Corr[X, Y ] であり, V [u − v] ≥ 0 なので, Corr[X, Y ] ≤ 1 であり, 等号が成り立つのは完全な線形関係のときのみである. よって −1 ≤ Corr[X, Y ] ≤ 1 である. 相関係数の自乗は Corr[X, Y ]2 ≤ 1 なので, 分散が存在すれば Cov[X, Y ]2 ≤ V [X]V [Y ] となり, 共分散が存在する. よって 2 次のモーメントが存在すれば, 平均と分散と共分散が存在する. とくに言 及しない限り, 確率変数は 2 次のモーメントが存在すると仮定している. 3 多変量確率変数 n 変数の確率変数 {Xi }ni=1 を考える. n 個の定数 ci を加重とした加重和の平均は E[ n ∑ ci Xi ] = i=1 n ∑ ci E[Xi ] i=1 であり, 分散は Cov[Xi , Xi ] = V [Xi ] として V[ n ∑ ( ci Xi ] = E i=1 ( =E n ∑ ci Xi − E i=1 n ∑ [ n ∑ i=1 ])2 ci Xi )2 ci (Xi − E [Xi ]) i=1 n ∑ n ∑ =E ci (Xi − E [Xi ])cj (Xj − E [Xj ]) i=1 j=1 = = n ∑ n ∑ i=1 j=1 n ∑ n ∑ ci cj E [(Xi − E [Xi ])(Xj − E [Xj ])] ci cj Cov[Xi , Xj ] i=1 j=1 ∑n となる. 2 行目から 3 行目は ( i=1 ai ) 2 = ∑n ∑n V [ i=1 ci Xi ] = i=1 c2i V [Xi ] である. ∑n i=1 ∑n j=1 7 ai aj を用いる. Cov[Xi , Xj ] = 0 (i ̸= j) のとき, n 変数の確率変数 {Xi }ni=1 が互いに独立で同一分布にしたがうとき iid という. iid のとき E[Xi ] = µ, V [Xi ] = σ 2 と表記すれば E[ V[ n ∑ i=1 n ∑ ci Xi ] = i=1 n ∑ ci i=1 n ∑ σ2 c2i i=1 ci Xi ] = µ である. n 変数の確率変数 {Xi }ni=1 が互いに独立で, ベルヌーイ分布にしたがう確率変数, つまり確率 p で 1 をとり, ∑n 確率 1 − p で 0 をとる確率変数とする. このときその和 Y = i=1 Xi は平均 np で分散 np(1 − p) である. こ の確率変数 Y の分布は二項分布と呼ばれ, 確率関数は P r[Y = k] =n Ck pk (1 − p)n−k であることが知られている. 8
© Copyright 2024 ExpyDoc