統計学2 母集団 母集団分布 記述統計 統計学2では・・・

2015/9/25
母集団
統計学2
統計学はある集団の特徴・性質などを観測値
(データ)に基づいて調べる方法を提供するもの
です。
その調査対象となる集団を母集団といいます。
標本の取り方
大数の法則・中心極限定理
母集団は調査する人が設定するもので、大きく
も小さくもできます。
母集団分布
母集団に含まれている調査対象のある観測項目
(身長や体重など)を計測・観測しデータを得ます
が、データの分布状況を母集団分布といいます。
母集団分布を表す特性値のことを一般には母数と
よび、平均や分散などは母平均、母分散、母標準
偏差などと呼びます。
この母集団分布の状況を知ることが統計を使う目
的です。
記述統計
母集団の調査対象がすべて調べられれば、母
集団の状況はすぐ分かり、視覚的に分かりや
すくすりため表やグラフにデータをまとめたり、
データの中心的傾向を表す特性値(代表的な
のは平均)や散らばりの傾向を表す特性値(代
表的なのは分散や標準偏差)にデータを縮約し
ます。
この統計は、記述統計と呼ばれています。
統計学2では・・・
推測統計
母集団の調査対象がすべて調べられない場合
を扱います。この場合、統計学では、母集団の
一部を選び出し、その観測対象からデータを得
ます。このようにして得られたデータを標本と呼
んでいます。
母集団
無作為抽出
推測する
標本
特性値
を求める
1
2015/9/25
標本の取り方(1)
標本の取り方(2)
推測統計では標本に基づき、そのデータによっ
て母集団の状況を推測します。そのため、標本
の選び方はとても重要であり、適当にとってくれ
ば良い!というものではありません。
無作為抽出
推測統計では、標本の取り方の大前提は無作
為抽出です。これは、母集団に含まれる調査対
象がすべて等しい確率で選ばれるという状況で
標本を選び出すという方法です。
標本が母集団の状況を反映していないと考えら
れるとき、推測統計を用いても母集団の状況を
うまく推測することはできません。
標本の取り方(3)
例 母集団は明星大学の学生とし、標本を選ぶ際に経営学部・
経済学部の学生から適当に標本を選び出すというと無作為抽
出にはなりません。母集団が明星大学の学生であれば、全学
生の中から適当に学生を選び出さなければならない。
標本の取り方(4)
多段抽出法
全母集団の調査対象に番号を付け初めに1つだけ標
本を選び、この標本の番号から一定間隔で標本を選
ぶ選び方は系統抽出法といいます。
実際問題として、母集団が大きくなると調査対象全部
に番号をふり、選びだすことが難しくなります。そのよ
うな際には多段抽出法・層別抽出法を行うことになり
ます。
標本の取り方(5)
層別抽出法
ある大学の学生を母集団とする調査を考える。
人文学部60%理工学部40%くらいの学生比の
大学であったとき、標本として100人を選び出す
場合、人文学部60人理工学部40人を選ぶとい
う抽出法である。
さらに学科や性別などで層を分けることにより無
作為抽出を行う集団を小さくしできるだけ母集団
を構成している層と標本で選ばれる層が近い状
態になるよう標本を抽出する方法である。
例えば初めに標本を選ぶ都道府県を選び出し
、選ばれた都道府県内の市町村を選び出し、
選ばれた市町村内の地区を選び出し、その後
個人を選び出すという形で段階的に集団を選
んでいく抽出法です。
例1:ある地域の電話番号の下4桁を無作為にコン
ピュータで選び、そのお宅に電話でアンケート調査を
行った。
例2:ある地域の住民票コード(個人番号) を無作為にコ
ンピュータで選び、その人にアンケート調査を行った。
例3:病気の治療調査のため、カルテから無作為に患
者さんを選び、その方に治療承諾を得てある薬を飲ん
でもらい、後日血液検査を行った。
2
2015/9/25
正規分布からの標本
正規分布
母集団
無作為抽出
標本
正規分布からの標本
平均μ、分散σ2である正規分布を母集団分布と
して、無作為抽出で選ばれた標本を
とする。このとき、標本平均
μ
は平均μ、分散σ2 /nの正規分布に従う。
推測する
特性値
を求める
例.無作為抽出で選んだ10個標本を
とする。このとき、
は平均μ、分散σ2 /10の正規分布に従う。
無作為抽出で選んだ100個標本を
とする。このとき、
は平均μ、分散σ2 /100の正規分布に従う。
10個の標本よりも100個の標本で
μ を推定した方がよい。
μ
2つの標本分散の違い
正規分布からの標本
平均μ、分散σ2である正規分布を母集団分布と
して、無作為抽出で選ばれた標本を
とする。このとき、標本分散
として、
分布に従う。
は自由度(n-1)のカイ2乗
カイ2乗分布
自由度10
は得られた標本が最も出現しやすい標本であ
る(最尤原理)から得られる分散σ2の推定量
自由度30
自由度50
は平均的に母集団の分散σ2が出る推定量
は正しく推定されると自由度くらいの値になる。
自由度10のカイ2乗分布で 9~11の値が出る確率:0.1746
自由度30のカイ2乗分布で29~31の値が出る確率:0.1022
自由度50のカイ2乗分布で49~51の値が出る確率:0.0544
3
2015/9/25
表の出る回数 r も確率変数で、表の出る回
数が r 回になる確率は
大数の法則
表と裏の出る確率が0.5であるコインを10回
投げ、表の出る回数を考える。
いま、i 回目のコイン投げで表が出た場合1、
裏が出た場合0をとる確率変数 xi を考えると
表の出る回数 r は
となる。
 1 r  1 10  r
 1 10
 10Cr  
Pr( r )  10Cr    
2  2
2
で与えられる(2項分布)。また、表の出る割
r
合 10 の各値の出る確率も上式で与えられる。
表の出る回数
表の出る割合
確 率
0
0
0.001
1
0.1
0.010
2
0.2
0.044
3
0.3
0.117
4
0.4
0.205
5
0.5
0.246
6
0.6
0.205
7
0.7
0.117
8
0.8
0.044
9
0.9
0.010
10
1
0.001
5回表が出る確率が大きく、r =5を中心に左右で確率の値が同じになっている
ことがわかる。
ではコインを投げる回数を増やすと表の出る
割合の確率はどうなるだろうか?
10回投げた場合
表の出る回数
表の出る割合
確 率
0
0
0.001
1
0.1
0.010
2
0.2
0.044
3
0.3
0.117
4
0.4
0.205
5
0.5
0.246
6
0.6
0.205
7
0.7
0.117
8
0.8
0.044
9
0.9
0.010
10
1
0.001
16
0.8
0.005
18
0.9
0.000
20
1
0.000
80
0.8
0.000
90
0.9
0.000
100
1
0.000
Pr(0.4≦表の出る割合≦0.6)=0.656
10回投げた場合
表の出る回数
表の出る割合
確 率
0
0
0.001
1
0.1
0.010
2
0.2
0.044
3
0.3
0.117
4
0.4
0.205
5
0.5
0.246
6
0.6
0.205
7
0.7
0.117
8
0.8
0.044
9
0.9
0.010
4
0.2
0.005
6
0.3
0.037
8
0.4
0.120
10
0.5
0.176
12
0.6
0.120
14
0.7
0.037
16
0.8
0.005
18
0.9
0.000
10
1
0.001
20回投げた場合
表の出る回数
表の出る割合
確 率
0
0
0.000
2
0.1
0.000
20
1
0.000
20回投げた場合
表の出る回数
表の出る割合
確 率
0
0
0.000
2
0.1
0.000
4
0.2
0.005
6
0.3
0.037
8
0.4
0.120
10
0.5
0.176
12
0.6
0.120
14
0.7
0.037
Pr(0.4≦表の出る割合≦0.6)=0.737
100回投げた場合
100回投げた場合
表の出る回数
表の出る割合
確 率
0
0
0.000
10
0.1
0.000
20
0.2
0.000
30
0.3
0.000
40
0.4
0.011
50
0.5
0.080
60
0.6
0.011
70
0.7
0.000
80
0.8
0.000
90
0.9
0.000
100
1
0.000
これより、コインを投げる回数を増やしていく
と確率が段々増えてゆき
Pr(0.4≦表の出る割合≦0.6)
=Pr(|表の出る割合-0.5|≦0.1) → 1
となることがわかる。
一般には、任意の k に対して
表の出る確率
Pr(|表の出る割合-0.5|≦k) → 1
となり、これを大数の法則と呼んでいる。
表の出る回数
表の出る割合
確 率
0
0
0.000
10
0.1
0.000
20
0.2
0.000
30
0.3
0.000
40
0.4
0.011
50
0.5
0.080
60
0.6
0.011
70
0.7
0.000
Pr(0.4≦表の出る割合≦0.6)=0.961
統計学上の意義
大数の法則は、十分な大きさの標本を調べ
れば、母集団の特性値を正確に知ることがで
きるという認識につながり、統計的推測を生
み出すことになった。
一般に、大標本から得られる標本平均(推定
量)を母集団の真の平均(母平均)と見なして
よいという常識を、数学的に証明したもので
ある。
表の出る確率を推測する量
4
2015/9/25
中心極限定理
母集団
標 本
無作為抽出
中心極限定理は、大数の法則よりもより詳しい
定理であり、標本平均(X1+ X2+・・・ Xn)/nは
標本数nが大きいとき、大体正規分布に従う。
X1, X2, …,Xn
母平均:μ
この定理は、 Xiがどのような確率分布に従って
いても成り立つということで、応用しやすい。
( Xiの確率分布によって、正規分布に近づく速
さは異なる)
(X1+ X2+・・・+ Xn)/n
は母平均μに近い値
である。
10回投げたとき
20回投げたとき
0.3
0.2
0.18
0.25
0.16
0.14
0.2
確率
確率
0.12
0.15
0.1
0.08
0.1
0.06
0.04
0.05
0.02
0
0
0.1
0.2
0.3
0.4
0.5
表の出る割合
0.6
0.7
0.8
0.9
0
1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5 0.55
表の出る割合
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
1000回投げたとき
100回投げたとき
0.03
0.09
0.08
0.025
0.07
0.02
0.06
確率
確率
0.05
0.015
0.04
0.01
0.03
0.02
0.005
0.01
0.94
0.97
0.99
0.87
0.9
0.92
0.81
0.83
0.85
0.74
0.76
0.78
0.64
0.67
0.69
0.71
0.58
0.6
0.62
0.51
0.53
0.55
0.44
0.46
0.48
0.37
0.39
0.41
0.3
0.32
0.35
0.23
0.25
0.28
0.16
0.18
0.21
0.09
0.12
0.14
0.9
9
0.8
7
0.9
0.9
3
0.9
6
0.7
5
0.7
8
0.8
1
0.8
4
0.6
3
0.6
6
0.6
9
0.7
2
0.5
7
0.6
0.3
3
0.3
6
0.3
9
0.4
2
0.2
4
0.2
7
0.3
0.1
2
0.1
5
0.1
8
0.2
1
0
0.0
3
0.0
6
0.0
9
0.4
5
0.4
8
0.5
1
0.5
4
表の出る割合
0
0.02
0.05
0.07
0
0
表の出る割合
5
2015/9/25
中心極限定理の応用
• 二項分布の正規分布による近似
• 正規乱数の生成
• 検定方法への応用
原理的にはどのようなn,r,pに対してもこの
式で確率の計算ができるが、試行回数nが大
きくなると、 nCrも大きくなり計算が困難になる。
C5=252
20C10=184756
30C15=155117520
40C20=137846528820
50C25= 126410606437752
60C30= 118264581564861424
70C35= 112186277816662845432
10
二項分布の正規分布による近似
ある試行において、起こりうる結果(成功、失
敗)が2通りで、成功する確率がpであるとす
る。この試行をn回繰り返して、そのうちr回成
功する確率は
nCr pr (1-p)n-r
となる。この確率分布を二項分布という。
二項分布における成功の回数 r は、成功の
ときxi=1、失敗のとき xi=0 となる確率変数の
和
であるので、中心極限定理が使える!
E(r)=np, V(r)=np(1-p)であるので
r  E (r )
r  np

V (r )
np (1  p)
はnが大きいとき、標準正規分布に近づく。
例
成功回数 r が l 以上 m 未満である確率は
 l  np
r  np
m  np 
Pr(l  r  m)  Pr


 np (1  p)
np (1  p )
np (1  p ) 

 l  np
m  np 
 Pr 
z
 np(1  p)
np(1  p) 

4万回コインを投げたとき、20400回以上また
は19600回以下表が出ることは、どれくらい
の確率であろうか?
おおよそ20000回表が出ることが予想され
800/40000=2%くらいであるので、結構起
こりうることかもしれない。
6
2015/9/25
この試行では、n=40000, p=0.5であるので、
np=20000, np(1-p)=1002となり、表が19600
回以上20400回以下出る確率は
z=a.bcのとき
0.0cと小数点
第2位をみる。
Pr(19600  r  20400)
 19600  20000 r  20000 20400  20000 
 Pr 



100
100
100


 Pr  4  z  4   0.999937
例
となり、 20400回以上または19600回以
下表が出る確率は0.000063である。
a.bと整数部分と小数点第1位をみる。
正規乱数の生成
区間(a,b)の一様乱数riの期待値、分散は
E(ri)=(b - a)/2, V(ri)=(b - a)2/12
であるので、区間(0,1)の一様乱数riの期待
値、分散は
E(ri)=1/2, V(ri)=1/12
となる。
また、このz を平均μ、標準偏差σを用いて
x  z  
と変換することにより、x は平均μ、標準偏差σ
の正規分布に従う。
50
一様乱数riをn回発生させ、これらの和
T= r1+ r2+・・・+rn
を考えると、この期待値や分散は
E(T)=n/2, V(T)=n/12
となるので、
z
T  E (T ) T  n / 2

V (T )
n / 12
はnが十分大きいとき、標準正規分布に従う。
検定法への応用
統計的仮説検定において、仮説を指示するかしない
かを判断する場合、標本からの計算される推定量に
基づき判断することになる。その際に推定量が出現し
やすいものがしにくいものかを判断するためには推定
量の分布状況が分からなければならないが問題によ
っては分からない場合もある。そのような際に
40
度数
統計学の本では
n=12とする例が
出ている。
(推定量)ー(推定量の期待値)
30
(推定量の標準偏差)
20
が標本数が多いとき、標準正規分布に従うことを用い
て検定を行う場合がある。
10
-2.00
0.00
2.00
VAR00002
7