4章 標本分布
(Sampling Distributions)
4.1 無作為抽出と無作為標本
全数調査:国勢調査、事業所センサスなど
標本調査:
母集団(Population) → 標本(Sample)
標本抽出(Sampling)
有意抽出(Purposive Selection):
専門家が代表例を選ぶ
無作為抽出(Random Sampling):
乱数により等確率で
母集団から標本を選ぶ
無限母集団(Infinite Population)
観測値の可能性の集合 工場の不良品率
(想像上の値の集まり)
有限母集団(Finite Population)
現実に存在する集団 世論調査などの対象
非復元抽出(Sampling Without Replacement):
一度標本に取った要素は
母集団に戻さない(重複なし)
復元抽出(Sampling With Replacement):
標本に取った各要素は
母集団に戻してから抽出(重複あり)
【実験】 無作為抽出標本の母集団表現力
(2属性の同時分布)
例: 一方の属性は年齢、
他方の属性は一日あたり携帯電話使用時間など。
母集団(均等)
1.00
標本(n = 200)
1.00
0.75
0.75
0.75
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
1.00
0.75
0.75
0.75
0.50
標本(n = 5000)
1.00
0.75
0.25
標本(n = 2000)
1.00
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
標本(n = 1000)
1.00
標本(n = 500)
1.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
1.00
0.75
0.50
0.25
0.00
実際の調査で使用される無作為抽出の変型
層別抽出法(Stratified Sampling):
学内調査において各学科毎に抽出人数
を決め、各学科の中から学生を無作為に
サンプル(学科間比較時の精度向上)
多段抽出法(Multi-stage Sampling):
地域調査において地区をサンプル、
その地区内から家をサンプル。
(調査費用減少・調査時間短縮)
その他様々な手法がある
(標本調査法の専門書を参照)
統計量(Statistic)
確率変数 X1, X2, …, Xn の関数 :
s (X1, X2, …, Xn)
(統計量 s も確率変数)
例) 標本平均、標本分散、
最小値、中央値、第1四分位点、…
【実験】無作為抽出値の確率変動
(1観測値 & 標本平均 n = 2 / 4 / 9 / 16)
12%
10%
8%
6%
4%
2%
0%
母集団分布: 上智男子学生 283人の 身長
標本サイズ n=4
実験回数 50000
10%
0%
184
181
178
175
172
169
166
30%
163
160
186
184
182
180
178
176
174
172
170
168
166
164
162
標本抽出分布: 1観測値 の確率変動
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=9
実験回数 50000
実験回数 100000
20%
10%
0%
184
181
178
175
172
169
標本サイズ n=2
実験回数 50000
30%
166
標本抽出分布: 標本平均値 の確率変動
163
160
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
標本抽出分布: 標本平均値 の確率変動
20%
160
12%
10%
8%
6%
4%
2%
0%
30%
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=16
実験回数 50000
20%
10%
0%
184
181
178
175
172
169
166
163
160
184
181
178
175
172
169
166
163
160
(前実験から観察される) 3つの一般的な特性
(実験回数 → ∞) 1観測値の分布
→ 母集団分布 :大数(タイスウ)の法則
(標本サイズ n → ∞) 標本平均値のバラツキ
→ 0 :大数の法則
(標本サイズ n → ∞) 標本平均値の分布
→ 正規分布 :中心極限定理
前回の内容
■共分散 (Covariance)
2変量間の関係の強さの尺度
Cov( X , Y ) E[( X x )(Y Y )]
E[ XY xY XY x Y ]
E[ XY ] x Y
μX = E[X ], μY = E[Y ]
n
m
E[ XY ] xi yi p( xi yi )
i 1 j 1
前回の内容 ■相関 (Correlation)
標準化された2変量間の
関係の強さの尺度(無単位)
相関係数(Correlation Coefficient)
X X Y Y
Cov[ X , Y ]
E
V [ X ]V [Y ]
X Y
1 ≦ ≦1
壺の例
ρ = Cov[ X, Y ] / ( σX σY )
= ( – 8 / 45 ) / ( 16 / 45 )
=–1/2
確率変数の和の分布
確率変数 X ~ 平均 E[X]、分散 V[X]
の任意の分布
確率変数 Y ~ 平均 E[Y]、分散 V[Y]
の任意の分布
和 Z = X + Y の分布特性:
E[ X ] E[Y ]
平均 E[ Z ] E[ X Y ]
3.23より
分散
V[Z ] V[ X Y ]
V [ X ] V [Y ] 2Cov( X , Y )
V [ Z ] E[( Z E[ Z ])2 ]
E ( X E[ X ]) (Y E[Y ]) 2
E[( X E[ X ])2 ] E[(Y E[Y ])2 ]
2 E[( X E[ X ])(Y E[Y ])]
V [ X ] V [Y ] 2Cov( X , Y )
X, Y が無相関 Cov(X,Y) = 0 な場合
(もしも統計的に独立なら無相関)
分散 V [ Z ] V [ X ] V [Y ]
■無作為標本から得た標本平均
定理4.1(有限母集団からの復元抽出、または無
限母集団からの抽出)
観測値 X1, X2, …, Xn が互いに独立に、
同じ平均 E [ Xi ] = μ、分散 V [ Xi ] = σ2
の分布(i = 1,…, n) にしたがう時、
標本平均値の確率分布は
以下の平均、分散を持つ。
平均
E[ X ] μ
12%
10%
8%
6%
4%
2%
0%
母集団分布: 上智男子学生 283人の 身長
186
184
182
180
標本抽出分布: 1観測値 の確率変動
実験回数 100000
184
181
178
175
172
169
166
163
160
12%
10%
8%
6%
4%
2%
0%
178
12%
10%
8%
6%
4%
2%
0%
176
174
172
170
168
166
164
162
160
E[ X ]
1
E[ ( X 1 X n ) ]
n
1
E[ X 1 X n ]
n
1
1
E [ X 1 ] E [ X n ] n
n
n
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=2
実験回数 50000
184
181
178
175
172
169
166
163
160
母集団分布: 上智男子学生 283人の 身長
10%
186
184
182
180
178
176
174
172
170
168
166
0%
184
181
178
184
181
178
175
172
169
166
163
標本抽出分布: 標本平均値 の確率変動
10%
0%
184
181
178
175
172
169
166
163
160
標本サイズ n=2
実験回数 50000
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=16
実験回数 50000
20%
30%
184
181
178
175
172
169
166
163
160
10%
0%
184
181
178
175
172
169
166
163
160
n 1 n
1
2 V [ X 1 ] V [ X n ] 2Cov( X i , X j )
i 1 j i 1
n
2
0 ( 独立な時 )
2
2
1
2 n 2
n
n
175
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=9
実験回数 50000
20%
30%
3.27 より
172
169
166
実験回数 100000
163
160
標本抽出分布: 1観測値 の確率変動
160
12%
10%
8%
6%
4%
2%
0%
164
12%
10%
8%
6%
4%
2%
0%
標本抽出分布: 標本平均値 の確率変動
標本サイズ n=4
実験回数 50000
20%
30%
162
1
V [ X ] V ( X 1 X n )
n
1
2 V X 1 X n
n
12%
10%
8%
6%
4%
2%
0%
160
σ
分散 V [ X ]
n
2
■標本成功率(標本割合)の分布
(例:製品の不良品率、内閣支持率、etc.)
標本成功率の分布(n=50, p=0.5)
0.15
0.10
0.05
0.00
0
0.0
5
0.1
10
0.2
15
0.3
20
0.4
25
0.5
30
0.6
35
0.7
40
0.8
45
0.9
50
1.0
y
^p
p = ベルヌーイ試行における成功の確率
(確率 p で成功、1 – p で失敗)
確率変数 X = 0 (失敗) または 1 (成功)
X の確率分布
1 x
p( x ) p (1 p)
x
( x 0,1)
1
E[ X ] x p( x ) 1 p(1) p
x 0
1 2
2
2
V [ X ] x p( x ) p 1 p(1) p
x 0
p1 p
サイズ n の標本 = 独立な n 回のベルヌーイ
試行の結果: { X1, X2, …, Xn }
その合計値 Y = X1+… + Xn ~ 二項分布 B(n, p)
p( y) n C y p (1 p)
y
n y
( y 0,1,, n)
標本成功率(標本割合、標本比率):
Y X1 X 2 X n
pˆ
X
n
n
その平均・分散は、定理4.1より
V [ X ] p(1 p)
E[ X ] E[ X ] p, V [ X ]
n
n
© Copyright 2026 ExpyDoc