1章 データの整理 - Econom01 Web Site, Sophia

4章 標本分布
(Sampling Distributions)
4.1 無作為抽出と無作為標本
全数調査:国勢調査、事業所センサスなど
標本調査:
母集団(Population) → 標本(Sample)
標本抽出(Sampling)
有意抽出(Purposive Selection):
専門家が代表例を選ぶ
無作為抽出(Random Sampling):
乱数により等確率で
母集団から標本を選ぶ
無限母集団(Infinite Population)
観測値の可能性の集合 工場の不良品率
(想像上の値の集まり)
有限母集団(Finite Population)
現実に存在する集団 世論調査などの対象
非復元抽出(Sampling Without Replacement):
一度標本に取った要素は
母集団に戻さない(重複なし)
復元抽出(Sampling With Replacement):
標本に取った各要素は
母集団に戻してから抽出(重複あり)
【実験】 無作為抽出標本の母集団表現力
(2属性の同時分布)
例: 一方の属性は年齢、
他方の属性は一日あたり携帯電話使用時間など。
母集団(均等)
1.00
標本(n = 200)
1.00
0.75
0.75
0.75
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
1.00
0.75
0.75
0.75
0.50
標本(n = 5000)
1.00
0.75
0.25
標本(n = 2000)
1.00
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
標本(n = 1000)
1.00
標本(n = 500)
1.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
実際の調査で使用される無作為抽出の変型
層別抽出法(Stratified Sampling):
学内調査において各学科毎に抽出人数
を決め、各学科の中から学生を無作為に
サンプル(学科間比較時の精度向上)
多段抽出法(Multi-stage Sampling):
地域調査において地区をサンプル、
その地区内から家をサンプル。
(調査費用減少・調査時間短縮)
その他様々な手法がある
(標本調査法の専門書を参照)
統計量(Statistic)
確率変数 X1, X2, …, Xn の関数 :
s (X1, X2, …, Xn)
(統計量 s も確率変数)
例) 標本平均、標本分散、
最小値、中央値、第1四分位点、…
【実験】無作為抽出値の確率変動
(1観測値 & 標本平均 n = 2 / 4 / 9 / 16)
12%
10%
8%
6%
4%
2%
0%
母集団分布: 上智男子学生 283人の 身長
標本サイズ n=4
実験回数 50000
10%
0%
184
181
178
175
172
169
166
30%
163
160
186
184
182
180
178
176
174
172
170
168
166
164
162
標本抽出分布: 1観測値 の確率変動
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=9
実験回数 50000
実験回数 100000
20%
10%
0%
184
181
178
175
172
169
標本サイズ n=2
実験回数 50000
30%
166
標本抽出分布: 標本平均値 の確率変動
163
160
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
標本抽出分布: 標本平均値 の確率変動
20%
160
12%
10%
8%
6%
4%
2%
0%
30%
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=16
実験回数 50000
20%
10%
0%
184
181
178
175
172
169
166
163
160
184
181
178
175
172
169
166
163
160
(前実験から観察される) 3つの一般的な特性
(実験回数 → ∞) 1観測値の分布
→ 母集団分布 :大数(タイスウ)の法則
(標本サイズ n → ∞) 標本平均値のバラツキ
→ 0 :大数の法則
(標本サイズ n → ∞) 標本平均値の分布
→ 正規分布 :中心極限定理
前回の内容
■共分散 (Covariance)
2変量間の関係の強さの尺度
Cov( X , Y )  E[( X   x )(Y  Y )]
 E[ XY   xY  XY   x Y ]
 E[ XY ]   x Y
μX = E[X ], μY = E[Y ]
n
m
E[ XY ]   xi yi p( xi yi )
i 1 j 1
前回の内容 ■相関 (Correlation)
標準化された2変量間の
関係の強さの尺度(無単位)
相関係数(Correlation Coefficient)
 X   X   Y  Y
Cov[ X , Y ]
 

 E 
V [ X ]V [Y ]
  X    Y
 1 ≦  ≦1
壺の例
ρ = Cov[ X, Y ] / ( σX σY )
= ( – 8 / 45 ) / ( 16 / 45 )
=–1/2



確率変数の和の分布
確率変数 X ~ 平均 E[X]、分散 V[X]
の任意の分布
確率変数 Y ~ 平均 E[Y]、分散 V[Y]
の任意の分布
和 Z = X + Y の分布特性:
E[ X ]  E[Y ]
平均 E[ Z ]  E[ X  Y ]  



3.23より
分散
V[Z ]  V[ X  Y ]
 V [ X ]  V [Y ]  2Cov( X , Y )
V [ Z ]  E[( Z  E[ Z ])2 ]

 E  ( X  E[ X ])  (Y  E[Y ]) 2

 E[( X  E[ X ])2 ]  E[(Y  E[Y ])2 ]
 2 E[( X  E[ X ])(Y  E[Y ])]
 V [ X ]  V [Y ]  2Cov( X , Y )
X, Y が無相関 Cov(X,Y) = 0 な場合
(もしも統計的に独立なら無相関)
分散 V [ Z ]  V [ X ]  V [Y ]
■無作為標本から得た標本平均
定理4.1(有限母集団からの復元抽出、または無
限母集団からの抽出)
観測値 X1, X2, …, Xn が互いに独立に、
同じ平均 E [ Xi ] = μ、分散 V [ Xi ] = σ2
の分布(i = 1,…, n) にしたがう時、
標本平均値の確率分布は
以下の平均、分散を持つ。
平均
E[ X ]  μ
12%
10%
8%
6%
4%
2%
0%
母集団分布: 上智男子学生 283人の 身長
186
184
182
180
標本抽出分布: 1観測値 の確率変動
実験回数 100000
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
178
12%
10%
8%
6%
4%
2%
0%
176
174
172
170
168
166
164
162
160
E[ X ]
1
 E[ ( X 1    X n ) ]
n
1
 E[ X 1    X n ]
n
 1
1 

  E [ X 1 ]    E [ X n ]    n   

n  
n


 

標本抽出分布: 標本平均値 の確率変動
標本サイズ n=2
実験回数 50000
184
181
178
175
172
169
166
163
160
母集団分布: 上智男子学生 283人の 身長
10%
186
184
182
180
178
176
174
172
170
168
166
0%
184
181
178
184
181
178
175
172
169
166
163
標本抽出分布: 標本平均値 の確率変動
10%
0%
184
181
178
175
172
169
166
163
160
標本サイズ n=2
実験回数 50000
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=16
実験回数 50000
20%
30%
184
181
178
175
172
169
166
163
160
10%
0%
184
181
178
175
172
169
166
163
160


n 1 n
1 

 2 V [ X 1 ]    V [ X n ]    2Cov( X i , X j )
 i 1 j  i 1 



n 

 2
 0 ( 独立な時 ) 
  2
2
1

 2 n 2 
n
n

175
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=9
実験回数 50000
20%
30%
3.27 より

172
169
166
実験回数 100000
163
160
標本抽出分布: 1観測値 の確率変動
160
12%
10%
8%
6%
4%
2%
0%
164
12%
10%
8%
6%
4%
2%
0%
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=4
実験回数 50000
20%
30%
162
1

V [ X ]  V  ( X 1    X n )
n

1
 2 V X 1    X n 
n

12%
10%
8%
6%
4%
2%
0%
160
σ
分散 V [ X ] 
n
2
■標本成功率(標本割合)の分布
(例:製品の不良品率、内閣支持率、etc.)
標本成功率の分布(n=50, p=0.5)
0.15
0.10
0.05
0.00
0
0.0
5
0.1
10
0.2
15
0.3
20
0.4
25
0.5
30
0.6
35
0.7
40
0.8
45
0.9
50
1.0
y
^p
p = ベルヌーイ試行における成功の確率
(確率 p で成功、1 – p で失敗)
確率変数 X = 0 (失敗) または 1 (成功)
X の確率分布
1 x
p( x )  p (1  p)
x
( x  0,1)
1
E[ X ]   x p( x )  1 p(1)  p
x 0
1 2

2
2
V [ X ]   x p( x )  p  1 p(1)  p
 x 0

 p1  p 
サイズ n の標本 = 独立な n 回のベルヌーイ
試行の結果: { X1, X2, …, Xn }
その合計値 Y = X1+… + Xn ~ 二項分布 B(n, p)
p( y)  n C y p (1  p)
y
n y
( y  0,1,, n)
標本成功率(標本割合、標本比率):
Y X1  X 2    X n
pˆ  
X
n
n
その平均・分散は、定理4.1より
V [ X ] p(1  p)
E[ X ]  E[ X ]  p, V [ X ] 

n
n