第4章

第4章 母集団と標本
大きな集団から一部を取り出した少数のデータ
の情報を用いて、もとの集団の性質を推測する
推測統計の基本的な理論の学習。
特に 標本分布の理解が目的
4.1 母集団と標本
母集団 もともとの関心の対象のデータ全体
標本
データ全体の一部を取り出したもの
標本抽出 母集団から標本をとりだすこと
母数 母集団の性質をあらわす統計的指数
(比率、平均、分散、相関係数など)
例: 日本の中学生全体のテスト得点データ(母集団)
一部の中学生のテスト得点データ(標本)
平均点、分散など ---- 母数
4.2 推測統計の分類
• 推測統計の分類: 推定と検定
• 推定
母数の値に対し具体的な値を求める
点推定: 一つの値で推定の結果を表す
区間推定: ある幅を持った区間で結果を表す
• 検定・・・母集団について述べた異なる立場の
二つの主張(仮説)のうちどれを採用するかを
決定する
例: 一部の中学生のテスト得点(標本)から日本全体
の中学生のテスト得点(母数)を求める
推定
4.3 点推定
点推定の手順
母集団から抽出した標本を用いて、母数の点推定を行う
サンプルサイズ(標本の大きさ):標本のデータの個数
例:10人の17歳男性の身長データ(標本)
> 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.6,
168.4, 171.3)
> mean(身長)
[1] 169.36
これにより、「17歳の日本人男性全体の身長」(母集団)の
平均(母数)を点推定
4.3.2 推定量と推定値
標本統計量: 標本データから計算されるもの
推定値:標本データを用いて計算した母数の推定量
母集団
標本抽出
母数
(本当に知りたいもの)
・母平均
・母分散
・母標準偏差
・母相関係数
・母比率
など
推定
標本
標本統計量
(標本から計算できるもの)
・標本平均
・標本分散
・不偏分散
・標本標準偏差
・標本相関関数
・標本比率
など
母数と推定量
母数
推定量
推定値
母平均
標本平均
標本データか計算された標本
平均の値
母分散
不偏分散
標本データから計算された不
偏分散の値
母標準偏差
不偏分散の正の平方根
標本データから計算された不
偏分散の正の平方根の値
母相関係数
標本相関係数
標本データから計算された標
本相関係数の値
母比率
標本比率
標本データから計算された標
本比率の値
4.3.3 標本抽出に伴う誤差
標本から推定値を得る手順よりも大事なこと…
実際の母数の値にどの位近い推定値が得られるか?
推定の結果はどのくらい信用できるか?
標本誤差: 母数の値と推定値とのズレ
(データを沢山集めれば、生じうる誤差は小さくできる)
標本分布・・・どのような推定値が得られる可能性があ
るか、についての手がかり
4.4 推定値の信頼性を調べる方法
推定値を計算する元になる、標本に含まれる「個々のデータの値」の決定方法
について見ていく
(1) 標本抽出の方法としての単純無作為抽出
(2) 単純無作為抽出によって得られるデータの性質として
の確率変数
(3) 確率変数がどのような値をとるのかを示す確率分布
(4) 確率分布を用いた母集団の表現としての母集団分布
(5) 代表的な母集団分布である正規分布
(6) Rを使って正規分布の母集団から標本を抽出する方
法
4.4.1 標本抽出の方法ー単純無作為抽出
推測統計の理論において標本抽出の方法は非常に重要
単純無作為抽出と呼ばれる方法が前提
単純無作為抽出
母集団の中のどのデータでも平等に選ばれる
可能性を持っているような標本抽出の方法
無作為標本
単純無作為抽出によって得られた標本
例: 選挙の時の支持率調査: 乱数により作成された番号に電話する
4.4.2 確率変数
確率変数 実際に結果が得られるまでどのような値
が得られるかが決まっていない変数
例: サイコロを振った時の出目
同じ手続でデータを得ても結果に再現性がないこと
⇒
単純無作為抽出によって得られるデータは確率変数
といえる
4.4.3 確率分布
確率変数の実現値: 抽出の結果、確率変数がとる値
確率分布 確率変数がどのような値をどのような確
率でとるかということを表した分布
例 サイコロの出目の確率分布
サイコロ
の出る目
確率
1
2
3
4
1/6
1/6
1/6
1/6
5
6
1/6
1/6
サイコロの出る目に関する度数分布の例
6回振った場合
サイコロの目
1
2
3
4
5
6
度数
0
2
1
1
0
2
相対度数
0
1/3
1/6
1/6
0
1/3
4
5
6
600万回振った場合
サイコロ
の目
1
2
度数
1,000,384 999,768
1,000,075 1,001,140
998,080 1,000,553
相対度
数
0.16673
0.16668
0.16635 0.16676
0.16663
3
0.16686
非常に多くの実現値が得られれば、度数分布は確率分布とほぼ同じになる
# 先の度数分布は実際には、以下のようにRを用いて得たもの
>サイコロ6回 <- ceiling(runif(n=6, min=0, max=6))
>table (サイコロ6回)
サイコロ6回
2 3 4 6
2 1 1 2
>サイコロ600万回 <- ceiling(runif(n=6000000, min=0, max=6))
>table (サイコロ600万回)
サイコロ600万回
1
2
3
4
5
6
100384 999768 1000075 1001140 998080 100553
4.4.4 母集団分布
母集団分布:
ある変数の母集団における分布
無作為抽出の場合、標本データの確率分布は母集団分布
と同じになる
表4.6 性別の母集団分布の例
比率
男性
性別
男性
女性
比率
2/3
1/3
女性
4.4.5 正規分布
• 正規分布の表現方法: N(μ,σ2)
0.2
0.1
0.0
dnorm(x, mean = 0, sd = 1)
*add=TRUEをすると出力された
グラフに重ねてかくことが
できる。
0.3
0.4
> curve(dnorm(x,mean=0,sd=1),from=-4,to=4)
> curve(dnorm(x,mean=1,sd=1), add=TRUE)
-4
-4
-2
-2
0
2
4
4.4.6 正規分布について少し詳しく
標準正規分布: 平均0 分散1の正規分布N(0,1)
離散変数: 整数などのとびとびの値をとる変数
連続変数: 実数値をとる変数(例:正規分布に従う確
率変数)
確率密度 例:正規分布の図の縦軸
確率密度×確率変数の範囲=確率
確率密度関数:確率密度を確率変数の値の関数とし
て表したもの
f (x) 
2

1
 ( x μ)
exp
2
2
σ
2π
σ




4.4.7 正規母集団から単純無作為抽出を行う
1000
1.5
0
0.0
0.5
500
1.0
Frequency
>大標本 <- rnorm(n=10000,mean=50,sd=10)
> hist(大標本)
Frequency
2.0
1500
2.5
3.0
サンプルサイズが大きくなれば
>標本 <- rnorm(n=5,mean=50,sd=10)
正規分布に従う(正規分布集団から
>標本
無作為抽出したものなので)
[1]59.87265 55.41718 34.19793 52.95355 59.10080
Histogram of 標本
Histogram of 大標本
> hist(標本)
確率変数が正規分布に従っているかどうか
は標本データのヒストグラムを見てもわからない
30
35
40
45
標本
50
55
20
40
60
大標本
80
4.5標本分布
標本分布: 標本統計量(標本平均、標本分散な
ど)に関する確率分布のこと
標本分布は標本における個々のデータの実現値を表
した度数分布ではなく、標本統計量の確率分布
標本分布は母集団分布と標本統計量の種類、そして
サンプルサイズが決まると理論的(数学的)に導か
れるもの
実際のデータから作成されるわけではない
4.5.1 標本分布から何がわかるのか
標本分布を調べることで、推定値の性質が分かる可能性がある
標本分布を調べるときの観点
(1)標本分布が母数の本当の値を中心として分布しているか⇒平均
(2)標本分布が横に大きく広がっていないか⇒標準偏差
(1)が満たされないと推定値と母数との誤差が大きくなる
(2) は推定値にどの程度誤差が生じるか調べるもの
4.5.2標本分布を「経験的」に求める
Rを用いて「経験的」に標本分布を求める方法の説明
「経験的」とは「現実に得られたデータに基づく」という意味
理論的な標本分布を「近似的」に再現
母集団からサンプルサイズnの標本を何度も繰り返し抽出し、そのた
びに標本統計量の実現値を計算して記録する
これを実行するときの問題
母集団分布がどのような分布になるかが不明
母集団分布がわからないと、標本から得られる推定値の信頼性も
不明
⇒ 母集団が正規分布であると仮定して「もし母集団分布がこのよう
な正規分布ならば、このくらいあてになる推定値が得られる」というこ
とを検討
4.5.3 正規母集団の母平均の推定
正規分布に従う母集団の母平均の推定
仮定: 母集団分布はN(50,102)
サンプリングサイズ n =10
> 標本 <- rnorm(n=10,mean=50,sd=10)
> 標本 #一応データの確認
[1] 43.17949 39.07841 51.59838 44.00960 42.78063 53.01545
[7]47.99463 48.81240 46.76994 65.39066
>mean(標本)
[1] 48.26296
注意:この結果をそのまま答えないこと!
48.3 などとするのが妥当
4.5.3 続き
この結果、母平均の推定値は 48.3
母平均は50なので、母数との差は 1.7
この差が標本誤差(誤差)
一回きりの標本抽出で推定値がどれくらいの誤差をも
つかは、いろいろ
ただ、それを繰り返してみると…
4.5.4 標本分布を求める
先の操作を10000回繰り返す
1500
0.06
500
0.02
> hist(標本平均,freq=FALSE)
1000
0.04
Density
Frequency
0.082000 0.10 2500 0.12
標本平均 <- numeric(length=10000)
Histogram of 標本平均
#推定値を格納する場所を予約
Histogram of 標本平均
for( i in 1:10000 ){ #中括弧の中を10000回処理する
標本 <- rnorm(n=10,mean=50,sd=10)
標本平均[i] <- mean(標本) #標本平均を計算
}
0
0.00
> curve(dnorm(x,mean=50,sd=sqrt(10)),add=TRUE)
平均50、分散10の正規分布に近い!
35
35
4040
45 45
50 50
標本平均
標本平均
55
55
60
60
4.5.4 続き
誤差の絶対値が5以下、すなわち母平均の推定値が
45以上、55以下の範囲で得られた回数を調べる
>
誤差絶対値5以下 <- ifelse(abs(標本平均-50)<=5,1,0)
>
table(誤差絶対値5以下)
誤差絶対値5以下
0
1
1167
8833
全体の88%は本当の母数±5に収まっている
4.5.4 続き
平均μ、分散σ2の正規分布 N(μ, σ2)に従う母集団から
サンプルサイズnの標本を抽出したとき、
標本平均の標本分布は、理論的に
N(μ, σ2/n) に従う
4.5.5 不偏性
• ある推定量の標本分布の平均が、推定しようとして
いる母数の値と一致するとき、その推定量は不偏性
があるという
• 不偏推定量:不偏性がある推定量のこと
推定量の不偏性は「標本分布が母数の本当の値を中
心として分布しているか」に対応した概念
4.5.6 標準誤差
標準誤差(続き)
中心極限定理
母集団が正規分布でなくとも、標本平均の
標本分布は「サンプルサイズnが大きい時」は
ほぼ正規分布になる
一般に、どのような標本統計量でも、サンプル
サイズが大きいほど標準誤差は小さくなる
4.6.1 標本分散と不偏分散の標本分布
母分散の推定量としての標本分散と不偏分散の違い
実験:
標本分散 <- numeric(length=10000)
不偏分散 <- numeric(length=10000)
for ( i in 1:10000 ){
標本 <- rnorm(n=10,mean=50,sd=10) # N(50,102)の正規分布
標本分散[i] <- mean((標本-mean(標本))^2)
# 標本分散の計算
不偏分散[i] <- var(標本) # 不偏分散の計算
}
4.6.1 続き
>mean(標本分散)
[1] 89.74351
>mean(不偏分散)
[1] 99.71502
平均的に母分散の推定値として不偏分散のほうが近い値
>sd(標本分散)
[1] 42.25119
>sd(不偏分散)
[1] 46.94577
不偏分散のほうが推定値のばらつきが大きい
4.6.1 続き
> hist(標本分散,breaks=seq(0,500,10))
> hist(不偏分散,breaks=seq(0,500,10))
Histogram of 標本分散
800
0
200
400
Frequency
600
600
400
200
0
Frequency
800
1000
Histogram of 不偏分散
0
100
200
300
標本分散
400
0
500
100
200
300
不偏分散
400
500
4.6.1続き
>標本分散誤差100以上 <- ifelse(標本分散>=200,1,0)
>不偏分散誤差100以上 <- ifelse(不偏分散>=200,1,0)
>table(標本分散誤差100以上)
標本分散誤差100以上
0
1
9837
163
> table(不偏分散誤差100以上)
不偏分散誤差100以上
0
1
9634
366
4.6.1 続き
> mean(sqrt(不偏分散))
[1]9.71366
• 不偏分散は不偏性をもつという点では望まし
い性質をもっているが、標本分散に比べて過
大な推定値が得られる可能性が高い
• 不偏分散の平方根は母標準偏差の不偏推
定量ではない
4.6.2 中央値の標本分布
実験: 標本中央値の標本分布を求める
標本平均 <- numeric(length=10000)
標本中央値 <- numeric(length=10000)
for(i in 1:10000) {
標本 <- rnorm(n=10,mean=50,sd=10) # N(50,102)
標本平均[i] <- mean(標本)
#標本平均を計算
標本中央値[i] <- median(標本) #標本中央値を計算
}
4.6.2続き
>mean(標本平均)
[1] 49.97365
>mean(標本中央値)
[1] 49.95716
標本中央値は母平均とほぼ一致...母平均の不偏推定量
>sd(標本平均)
[1] 3.147899
>sd(標本中央値)
[1] 3.716859
標本平均は母平均の不偏推定量の中で標準誤差が最小
4.6.2 続き
>hist(標本平均)
>hist(標本中央値)
Histogram of 標本平均
500
1000
Frequency
1000
0
500
0
Frequency
1500
1500
2000
2000
Histogram of 標本中央値
35
40
45
50
標本平均
55
60
30
35
40
45
50
標本中央値
55
60
65
練習問題
(1) N(50,102) の正規母集団からn=20の標本抽出を
5000回繰り返すことにより、標本平均の経験的な標本
分布を求めよ。さらに、理論的に導かれる標本分布を
重ね合わせてみよ。
(2)理論的な標本分布について、サンプルサイズを
n=1,4,9,16,25と変化させたときに、標本分布の形状が
どのように変わるか調べてみよ。
ここで、母集団分布は標準正規分布 N(0,12)
解説
(1)
標本平均 <- numeric(length=5000)
for (i in 1:5000){
標本 <- rnorm(n=20,mean=50,sd=10)
標本平均[i] <- mean(標本)
}
hist (標本平均, freq=FALSE)
curve (dnorm(x,mean=50,sd=sqrt(100/20)),add=TRUE)
(2)
1.5
1.0
0.5
0.0
dnorm(x, mean = 0, sd = 1/sqrt(25))
2.0
curve(dnorm(x,mean=0,sd=1/sqrt(25)),-3,3)
curve(dnorm(x,mean=0,sd=1/sqrt(16)),
-3,3,add=TRUE,col="green")
curve(dnorm(x,mean=0,sd=1/sqrt(9)),
-3,3,add=TRUE,col="blue")
curve(dnorm(x,mean=0,sd=1/sqrt(4)),
-3,3,add=TRUE,col="orange")
curve(dnorm(x,mean=0,sd=1/sqrt(1)),
-3,3,add=TRUE,col="red")
-3
-2
-1
0
x
1
2
3