数理統計学(第四回) 分散の性質と重要な法則

数理統計学(第四回)
分散の性質と重要な法則
浜田知久馬
数理統計学第4回
1
分散についての性質
V[X+Y]=E[(X+Y-μx-μY)2]
=E[(X-μx)2+(Y-μx)2 +2 (X-μY) (Y-μY) ]
= E[(X-μx)2]+ E[(Y-μY)2]
+2E[(X-μx) (Y-μY)]
=V[X]+V[Y]+2・Cov[X,Y]
独立のときは,
V[X+Y]=V[X]+V[Y]
数理統計学第4回
2
分散についての性質
aは定数
V[a+X] = E[(a+X-a-μx)2] =V[X]
V[aX]=E[(aX-aμx)2]
=E[a(X-μx)2]
=a2E[(X-μx)2]
=a2 V[X]
E[a+X]=a+E[X], E[aX]=a・E[X],
数理統計学第4回
3
分散についての性質
Z=a1X1+ a2X2+・・・+ apXp
V[Z]=ΣΣaiajCov[Xi,Xj]
=Σai2 V[Xi]+ΣΣ2aiajCov[Xi, Xj]
i<j
X1, X2, ・・・ ,Xpが互いに独立の場合
V[Z] =Σai2 V[Xi]
=a12V[X1]+a22V[X2]+・・・+ ap2V[Xp]
(分散の加法性)
数理統計学第4回
4
分散についての性質
Z=a1X1+ a2X2
V[Z]= V[a1X1+ a2X2]
= E[(a1X1+ a2X2 - a1μ1- a2μ2)2]
= E[(a1X1- a1μ1 + a2X2 - a1μ2)2]
= E[(a1X1- a1μ1)2 ] + E[(a2X2- a2μ2)2 ]
+2E[(a1X1- a1μ1)(a2X2- a2μ2) ]
= a12V[X1]+a22V[X2] +2a1a2Cov[X1, X2]
数理統計学第4回
5
分散・共分散行列
3変数の場合
V[X1]
Cov[X1, X2] Cov[X1, X3]
V= Cov[X2, X1] V[X2]
Cov[X2, X3]
Cov[X3, X1] Cov[X3, X2] V[X3]
一般にp変数ある場合,
分散・共分散行列はp×pの対称行列になる.
数理統計学第4回
6
行列表現
aT=[a1,a2,・・・, ap] a:p行のベクトル
xT=[X1,X2,・・・,Xp] x:p行のベクトル
V:分散・共分散行列(p×p)
Z=aTx
V[Z]=aT Va
Z=a1X1+ a2X2+ a3X3
の場合について
V[Z]を書き下せ.
数理統計学第4回
7
Z=a1X1+ a2X2+ a3X3の分散
Z=a1X1+ a2X2+ a3X3
V[Z]=aT Va
=a12V[X1]+ a1a2Cov[X1,X2]+ a1a3Cov[X1,X3]
+a2a1Cov[X2,X1]+ a22V[X2]+a2a3Cov[X2,X3]
+a3a1Cov[X3,X1]+ a3a2Cov[X3,X2]+ a32V[X3]
数理統計学第4回
8
共分散の計算
Z1=a1X1+ a2X2+ ・・・+a3X3=aTx
Z2=b1X1+b2X2+ ・・・+b3X3=bTx
のとき
Cov[Z1,Z2]= Cov[aTx,bTx]
=ΣaibjCov[Xi,Xj]
=aT Vb
V[Z1]=Cov[aTx,aTx] =aT Va
数理統計学第4回
9
共分散の計算
Z1=a1X1+ a2X2+ a3X3
Z1=b1X1+ b2X2+ b3X3
Cov[Z1,Z2]=aT Vb
=a1b1V[X1]+ a1b2Cov[X1,X2]+ a1b3Cov[X1,X3]
+a2b1Cov[X2,X1]+ a2b2V[X2]+a2b3Cov[X2,X3]
+a3b1Cov[X3,X1]+ a3b2Cov[X3,X2]+ a3b3V[X3]
数理統計学第4回
10
分散の加法性の応用
平均値の分散は?
X1, X2, ・・・ ,Xnが互いに独立に分散σ2の
分布にしたがうとき
 X1  X 2    X n 
V[X ]  V 

n





n
2
2
n

i 1



2
n2
n
2
2

n 2
2


2
n 数理統計学第4回 n
11
分散の加法性の応用
E[X]=0,V[X]=32=9
E[Y]=0,V[Y]=42=16
でかつXとYが独立のとき
X+Yの期待値と分散は?
X-Yの期待値と分散は?
数理統計学第4回
12
乱数による確認実験
data data;
do i=1 to 1000;
x=3*rannor(5963);
y=4*rannor(5963);
z1=x+y;z2=x-y;output;
end;
proc means mean var std maxdec=2;run;
数理統計学第4回
13
要約統計量
変数 平均値 分散 標準偏差
--------------------------------x
0.05
8.72
2.95
y
-0.05 16.07
4.01
z1
0.01 25.95
5.09
z2
0.10 23.65
4.86
---------------------------------数理統計学第4回
14
演習問題
X1,X2,・・・,X6が確率変数でそれぞれ
独立に正規分布N(μ,σ2)に従っているとき,
1)~7)の期待値と分散を示せ.
0) Xi: 解答例 期待値μ,分散σ2
1) Xi
3
2) X 1  X 2  X 3  X 4  X 5  X 6
3) X 1  X 2  2 X 3
数理統計学第4回
15
演習問題
X1  
X1  
4) 
2
2
X1  
X2  
5) 
2
2
X1  
X2  
6) 
2
2
7)  3 X 1  X 2  X 3  3 X 4
数理統計学第4回
16
中心極限定理
Central Limit Theorem
多くの分布が一山分布になるのはなぜだろうか?
例)センター入試,身長,血圧
中心:分布の中心,平均値は
極限:nを大きくすると
正規分布にしたがう.
「和や平均値の分布は山型の分布にしたがう」
数理統計学第4回
17
平均値の2つの性質とSE
1)平均値の分散(バラツキ)は生
データの1/N,標準偏差に直せ
ば1/√Nになる.
2)Nがある程度大きくなれば,
平均値の分布は正規分布になる.
数理統計学第4回
18
乱数実験
A)0,1の一様分布(0~1の間を等しい確率でと
る)にしたがう乱数を1万個発生さる.
B)一様分布にしたがう乱数を4万個発生させ,
4個づつ組にして平均値を計1万個計算する.
C)一様分布にしたがう乱数を9万個発生させ,
9個づつ組にして1万個の平均値を計算する.
数理統計学第4回
19
生データのヒストグラム A
400
度
数
200
0
0.00
0.30
0.60
0.90
Y1
数理統計学第4回
20
4個の平均のヒストグラム B
1000
度
数
500
0
0.00
0.30
0.60
0.90
Y4
数理統計学第4回
21
9個の平均のヒストグラム C
1500
度
1000
数
500
0
0.00
0.30
0.60
0.90
Y9
数理統計学第4回
22
実験結果のまとめ
平均値 標準偏差 分散
A)生データ
0.499 0.289 0.0838
B)4個の平均 0.499
0.144 0.0206
C)9個の平均 0.500
0.095 0.00906
数理統計学第4回
23
大数の法則(law of large
numbers)
平均値はnを大きくすると,真の値に収束する.
平均値→E(X)=μ (n→∞)
limP(|平均値-μ|≧ε)=0
n→∞
マルコフの不等式(Markov’s inequality)
チェビシェフの不等式(Chebyshev’s inequality)
数理統計学第4回
24
マルコフの不等式
X≧0:非負の確率変数 c>0:正の定数
P(X ≧c)≦E(X)/c
例)交通事故による死亡が10を越える確率は?
Y=0 if X<c
c if X ≧ c
常にY≦Xなので→ E(Y)≦E(X)
E(Y)=0×P(Y=0)+c×P(Y=c)=c×P(X ≧ c)
E(Y)=c×P(X ≧ c) ≦E(X)
P(X ≧c)≦E(X)/c
数理統計学第4回
25
マルコフの不等式
Y=X
Y
c
0
c
X
数理統計学第4回
26
マルコフの不等式の応用
宝くじで1等2億円が当たる確率は?
X:宝くじの賞金金額
P(X ≧ 2億円)
E(X)=150円,c= 2億円
P(X ≧ c)≦E(X)/c
= 150円/ 2億円=1/133万
正確な確率は1/500万
数理統計学第4回
27
チェビシェフの不等式
E(X)=μ,V(X)=σ2
P(|X-μ| ≧c)≦σ2/c2
Y=( X-μ)2とおいてマルコフの不等式を適用
P(Y ≧c2 )≦E(Y)/c2 = σ2 /c2
Y ≧c2 ⇔ |X-μ| ≧c なので
P(Y ≧c2 ) =P(|X-μ| ≧c)
数理統計学第4回
28
チェビシェフの不等式の意味
σ2=1のとき
c チェビシェフの上限
1
1
2
0.25(1/22)
3
0.11(1/32)
4
0.06(1/42)
正規分布
0.32
0.05
0.003
<0.0001
数理統計学第4回
29
日本人身長の例(浜田世代)
男性 平均:170.1 SD:5.6 単位(cm)
平均±SD :164.5~175.7
平均±2SD:158.9~181.3
平均±3SD:153.3~186.9
平均±4SD:147.7~192.5
平均±5SD:142.1~198.1
数理統計学第4回
30
日本人身長の例(浜田世代)
女性 平均:157.3 SD:5.0 単位(cm)
平均±SD :152.3~162.3
平均±2SD:147.3~167.3
平均±3SD:142.3~172.3
平均±4SD:137.3~177.3
平均±5SD:132.3~182.3
数理統計学第4回
31
大数の法則
X にチェビシェフの不等式を適用すると
E[ X ]   , V [ X ] 

2
n

P( X     ) 
2
n
X2
n→∞のとき右辺は0に収束するから
lim P( X     )  0
n 
数理統計学第4回
32