1章データの整理 - Econom01 Web Site, Sophia

4章標本分布
(Sampling Distributions)
4.1 無作為抽出と無作為標本
全数調査：国勢調査、事業所センサスなど
標本調査：
母集団(Population) → 標本(Sample)
標本抽出(Sampling)
有意抽出(Purposive Selection)：
専門家が代表例を選ぶ
無作為抽出(Random Sampling)：
乱数により等確率で
母集団から標本を選ぶ
無限母集団(Infinite Population)
観測値の可能性の集合工場の不良品率
（想像上の値の集まり）
有限母集団(Finite Population)
現実に存在する集団世論調査などの対象
非復元抽出(Sampling Without Replacement)：
一度標本に取った要素は
母集団に戻さない（重複なし）
復元抽出(Sampling With Replacement)：
標本に取った各要素は
母集団に戻してから抽出（重複あり）
【実験】無作為抽出標本の母集団表現力
（2属性の同時分布）
例：一方の属性は年齢、
他方の属性は一日あたり携帯電話使用時間など。
母集団（均等）
1.00
標本（n = 200）
1.00
0.75
0.75
0.75
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
1.00
0.75
0.75
0.75
0.50
標本（n = 5000）
1.00
0.75
0.25
標本（n = 2000）
1.00
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
標本（n = 1000）
1.00
標本（n = 500）
1.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
実際の調査で使用される無作為抽出の変型
層別抽出法(Stratified Sampling)：
学内調査において各学科毎に抽出人数
を決め、各学科の中から学生を無作為に
サンプル（学科間比較時の精度向上）
多段抽出法(Multi-stage Sampling)：
地域調査において地区をサンプル、
その地区内から家をサンプル。
（調査費用減少・調査時間短縮）
その他様々な手法がある
（標本調査法の専門書を参照）
統計量(Statistic)
確率変数 X1, X2, …, Xn の関数 :
s (X1, X2, …, Xn)
（統計量 s も確率変数）
例) 標本平均、標本分散、
最小値、中央値、第１四分位点、…
【実験】無作為抽出値の確率変動
（１観測値 & 標本平均 n = 2 / 4 / 9 / 16）
12%
10%
8%
6%
4%
2%
0%
母集団分布：上智男子学生 283人の身長
標本サイズ n=4
実験回数 50000
10%
0%
184
181
178
175
172
169
166
30%
163
160
186
184
182
180
178
176
174
172
170
168
166
164
162
標本抽出分布： 1観測値の確率変動
標本抽出分布：標本平均値の確率変動
標本サイズ n=9
実験回数 50000
実験回数 100000
20%
10%
0%
184
181
178
175
172
169
標本サイズ n=2
実験回数 50000
30%
166
標本抽出分布：標本平均値の確率変動
163
160
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
標本抽出分布：標本平均値の確率変動
20%
160
12%
10%
8%
6%
4%
2%
0%
30%
標本抽出分布：標本平均値の確率変動
標本サイズ n=16
実験回数 50000
20%
10%
0%
184
181
178
175
172
169
166
163
160
184
181
178
175
172
169
166
163
160
(前実験から観察される) 3つの一般的な特性
(実験回数 → ∞) 1観測値の分布
→ 母集団分布：大数（タイスウ）の法則
(標本サイズ n → ∞) 標本平均値のバラツキ
→ 0 ：大数の法則
(標本サイズ n → ∞) 標本平均値の分布
→ 正規分布：中心極限定理
前回の内容
■共分散 (Covariance)
2変量間の関係の強さの尺度
Cov( X , Y )  E[( X   x )(Y  Y )]
 E[ XY   xY  XY   x Y ]
 E[ XY ]   x Y
μX = E[X ], μY = E[Y ]
n
m
E[ XY ]   xi yi p( xi yi )
i 1 j 1
前回の内容 ■相関 (Correlation)
標準化された2変量間の
関係の強さの尺度（無単位）
相関係数(Correlation Coefficient)
 X   X   Y  Y
Cov[ X , Y ]
 

 E 
V [ X ]V [Y ]
  X    Y
 1 ≦  ≦1
壺の例
ρ = Cov[ X, Y ] ／ ( σX σY )
= ( – 8 / 45 ) ／ ( 16 / 45 )
=–1/2



確率変数の和の分布
確率変数 X ～平均 E[X]、分散 V[X]
の任意の分布
確率変数 Y ～平均 E[Y]、分散 V[Y]
の任意の分布
和 Z = X + Y の分布特性：
E[ X ]  E[Y ]
平均 E[ Z ]  E[ X  Y ]  



3.23より
分散
V[Z ]  V[ X  Y ]
 V [ X ]  V [Y ]  2Cov( X , Y )
V [ Z ]  E[( Z  E[ Z ])2 ]

 E  ( X  E[ X ])  (Y  E[Y ]) 2

 E[( X  E[ X ])2 ]  E[(Y  E[Y ])2 ]
 2 E[( X  E[ X ])(Y  E[Y ])]
 V [ X ]  V [Y ]  2Cov( X , Y )
X, Y が無相関 Cov(X,Y) = 0 な場合
（もしも統計的に独立なら無相関）
分散 V [ Z ]  V [ X ]  V [Y ]
■無作為標本から得た標本平均
定理4.1（有限母集団からの復元抽出、または無
限母集団からの抽出）
観測値 X1, X2, …, Xn が互いに独立に、
同じ平均 E [ Xi ] = μ、分散 V [ Xi ] = σ2
の分布(i = 1,…, n) にしたがう時、
標本平均値の確率分布は
以下の平均、分散を持つ。
平均
E[ X ]  μ
12%
10%
8%
6%
4%
2%
0%
母集団分布：上智男子学生 283人の身長
186
184
182
180
標本抽出分布： 1観測値の確率変動
実験回数 100000
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
178
12%
10%
8%
6%
4%
2%
0%
176
174
172
170
168
166
164
162
160
E[ X ]
1
 E[ ( X 1    X n ) ]
n
1
 E[ X 1    X n ]
n
 1
1 

  E [ X 1 ]    E [ X n ]    n   

n  
n


 

標本抽出分布：標本平均値の確率変動
標本サイズ n=2
実験回数 50000
184
181
178
175
172
169
166
163
160
母集団分布：上智男子学生 283人の身長
10%
186
184
182
180
178
176
174
172
170
168
166
0%
184
181
178
184
181
178
175
172
169
166
163
標本抽出分布：標本平均値の確率変動
10%
0%
184
181
178
175
172
169
166
163
160
標本サイズ n=2
実験回数 50000
標本抽出分布：標本平均値の確率変動
標本サイズ n=16
実験回数 50000
20%
30%
184
181
178
175
172
169
166
163
160
10%
0%
184
181
178
175
172
169
166
163
160


n 1 n
1 

 2 V [ X 1 ]    V [ X n ]    2Cov( X i , X j )
 i 1 j  i 1 



n 

 2
 0 ( 独立な時 ) 
  2
2
1

 2 n 2 
n
n

175
標本抽出分布：標本平均値の確率変動
標本サイズ n=9
実験回数 50000
20%
30%
3.27 より

172
169
166
実験回数 100000
163
160
標本抽出分布： 1観測値の確率変動
160
12%
10%
8%
6%
4%
2%
0%
164
12%
10%
8%
6%
4%
2%
0%
標本抽出分布：標本平均値の確率変動
標本サイズ n=4
実験回数 50000
20%
30%
162
1

V [ X ]  V  ( X 1    X n )
n

1
 2 V X 1    X n 
n

12%
10%
8%
6%
4%
2%
0%
160
σ
分散 V [ X ] 
n
2
■標本成功率（標本割合）の分布
（例：製品の不良品率、内閣支持率、etc.)
標本成功率の分布(n=50, p=0.5)
0.15
0.10
0.05
0.00
0
0.0
5
0.1
10
0.2
15
0.3
20
0.4
25
0.5
30
0.6
35
0.7
40
0.8
45
0.9
50
1.0
y
^p
p = ベルヌーイ試行における成功の確率
（確率 p で成功、1 – p で失敗）
確率変数 X = 0 (失敗) または 1 (成功)
X の確率分布
1 x
p( x )  p (1  p)
x
( x  0,1)
1
E[ X ]   x p( x )  1 p(1)  p
x 0
1 2

2
2
V [ X ]   x p( x )  p  1 p(1)  p
 x 0

 p1  p 
サイズ n の標本 = 独立な n 回のベルヌーイ
試行の結果： { X1, X2, …, Xn }
その合計値 Y = X1+… + Xn ～二項分布 B(n, p)
p( y)  n C y p (1  p)
y
n y
( y  0,1,, n)
標本成功率（標本割合、標本比率）：
Y X1  X 2    X n
pˆ  
X
n
n
その平均・分散は、定理4.1より
V [ X ] p(1  p)
E[ X ]  E[ X ]  p, V [ X ] 

n
n

Download Report