PowerPoint プレゼンテーション

●母集団と標本
母集団
母数
無作為抽出
標本
母平均、母分散
母集団における状態の
推測(推測統計学)
標本統計量
標本データの分析
(記述統計学)
要約統計量
(平均値、分散、相関係数)
●標本統計量は分布する
母集団
標本5
標本1
標本平均5
標本4
標本平均4
標本3
標本2
標本平均3
標本平均1
標本平均2
標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均4
標本平均の分布は?
●標本平均の分布 <標本抽出実験>
母集団:1~9999の9999個の整数より構成される
母平均は5000、母分散は8331667
↓ 母集団よりの無作為抽出実験
標本平均の算出 →
実験の繰り返し → 多数の標本平均値 →
標本平均の分布
抽出標本数は50、100、200の3ケースを実施 (各5万回)
6000
5000
4000
標本数100
標本数200
①標本数を変化させても、分布の中
心位置は殆ど変化しない
3000
標本数50
2000
1000
0
②標本数を大きくすると、分布の散
布度は小さくなる
●標本平均の分布 <標本抽出実験>
母集団:1~9999の9999個の整数より構成される
母平均は5000、母分散は8331667
標本数
50
60
70
80
90
100
150
200
250
300
平均値
4998.9
4999.6
4999.0
5001.0
5000.7
5000.1
4999.1
4999.5
5000.5
5000.3
分散
166376.6
138164.1
117671.2
104035.9
93295.7
83068.7
55956.3
41733.5
33392.3
27681.6
母分散/分散
50.1
60.3
70.8
80.1
89.3
100.3
148.9
199.6
249.5
301.0
①標本平均値の分布における平均値は
標本数によらず常に母平均に一致する
②標本平均値の分布における分散も、
標本数の増加に伴って減少する
分散の減少の仕方は?
 2 標本平均の分散: s 2
標本数: n 母分散:
2
s
2
 n  s 
2
2
n
「標本平均の分布」における分散は
標本数の逆数に比例して減少する
●中心極限定理
・母平均μ、母分散σ2の場合、その母集団からのN個の無作為標本に基づく標本平均の分
布は、平均μ、分散σ2/Nである。
・母集団が正規分布に従わない場合でも、Nが十分に大きければ(30~100以上)、その分
布は、平均μ、分散σ2/Nの正規分布に近似的に従う。
(母集団が正規分布に従えば、標本数の如何に関わらず標本平均の分布は正規分布に従う)
<例>
母集団:平均30、分散10000(標準偏差100)
100個の標本に基づく標本平均値 → 平均30、分散100(=10000/100)の正規分布
500
→ 平均30、分散20(=10000/500)の正規分布
〃
我々が行うのはただ1回の標本調査である。その
調査で得られる標本平均値(実現値)は
100個の標本
*標本数100 → 標本平均値は10~50の広い範囲
の値をとる可能性がある
500個の標本
*標本数500 → 標本平均値は20~40の範囲に収
まる可能性が高い
↓
0
10
20
30
40
50
60
母平均に近い標本平均を高い確率で得るために
は、標本数を多くすれば良い
●標本比率の分布
*質的変数:得られるデータはカテゴリ分類であり、平均値などを求めることができない。
例)PCを持っているか否か →
回答:「持っている」、「持っていない」
↓ 質的変数の場合の分布は
各回答カテゴリへの回答頻度、及び相対頻度 → 比率
*標本抽出実験1
母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団
↓ 母集団よりの無作為抽出実験
標本比率(A党)の算出 → 実験の繰り返し → 多数の標本比率 → 標本平均の分布
抽出標本数は50、100、200の3ケースを実施
12000
10000
8000
6000
4000
2000
0
標本数50
標本数100
標本数200
①標本数を変化させても、分布の
中心位置は殆ど変化しない
②標本数を大きくすると、分布の
散布度は小さくなる
●標本比率とは
標本データから得られた回答カテゴリの比率
例)PC保有率、自民党支持率 等々
↓ 比率を求めるためには
回答カテゴリに以下のような数値を与えた変数Xを考える
↓(比率を求めるカテゴリ(PC保有者)に数値「1」、それ以外のカテゴリに数値「0」)
 x : 「1」(
i
PC保有者)の数  比率=  xi / N  平均値
i
i
標本比率=「1、0」変数Xの標本平均値 → 中心極限定理が適用可能
確率変数Xの母集団における分布は?
平均値:母集団における「1」カテゴリの比率 → 母比率π
分散 :母集団のサイズをNとすれば、
1:Nπ個 0:N(1-π)個
分散   ( xi   ) 2 / N  {N (1   ) 2  N (1   )(0   ) 2 } / N
i
  (1   ) 2  (1   ) 2   (1   )(1     )   (1   )
●標本抽出実験2
母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団
標本数
50
60
70
80
90
100
150
200
250
300
平均値
0.400108
0.400184
0.399932
0.399788
0.399969
0.399837
0.399879
0.400148
0.400065
0.400077
分散
0.004808
0.004018
0.003445
0.002984
0.002645
0.002388
0.001589
0.001193
0.000947
0.000794
母分散/分散
49.9
59.7
69.7
80.4
90.7
100.5
151.1
201.1
253.4
302.4
①標本比率の分布における平均値は標本数によら
ず常に母比率に一致する
②標本比率の分布における分散も、標本数の増加
に伴って減少する
標本数: n 母分散:  (1   ) 標本比率の分散: s 2
 (1   )
s2
 n  s 2 
 (1   )
n
「標本比率の分布」における分散は標本数の
逆数に比例して減少する
●標本比率に対する中心極限定理
母比率がπの場合、その母集団からのN個の無作為標本に基づく標本比率の分布
は、平均π、分散π(1-π)/Nであり、Nが十分に大きければ(30~100以
上)、その分布は、平均π、分散π(1-π)/Nの正規分布に近似的に従う。
<例>母比率0.4の母集団からの標本比率の分布
標本数30
0
0.1
0.2
標本数100
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
標本数30 → 標本比率は0.2~0.6の広い範囲の値をとる可能性がある
標本数100 →
〃
0.3~0.5に収まる可能性が高い
●標本分散の分布
<標本抽出実験> 母集団:平均50、分散100の母集団
↓ 母集団から無作為標本
標本分散の算出 →
実験の繰り返し → 多数の標本分散 → 標本分散の分布
抽出標本数は右の7ケース(各5万回)
標本数
5
10
20
50
100
200
300
A
B
C
平均値 A/母分散 B×標本数
80.4
0.804
4.02
89.9
0.899
8.99
94.9
0.949
18.98
98.0
0.980
49.00
99.0
0.990
99.02
99.5
0.995
198.98
99.7
0.997
299.02
標本分散の分布の平均
値:
s
2
2
n  n 1
s2
 2  s2
*標本分散の分布の平均値は標本数の増加ととも
に単調に増加し、母分散(=100)に近づく
但し、標本平均、標本比率とは異なり、母分散と
は一致しない
↓
B欄:A欄の値と母分散の比
C欄:B欄の値に標本数をかけた値
標本数より約1だけ少ない数
不偏分散: ˆ 2
n
n 1
ˆ 2  s 2
n

n 1
(x
i
 x )2
i
n
n

n 1
(x
i
 x )2
i
n 1
●標本不偏分散の分布
<標本抽出実験> 母集団:平均50、分散100の母集団
↓ 母集団から無作為標本
標本不偏分散の算出 → 実験の繰り返し → 多数の標本不偏分散 →
標本不偏分散の分布
抽出標本数は右の7ケース(各5万回)
標本数
5
10
20
50
100
200
300
平均値
100.6
100.1
100.1
99.9
99.9
100.0
100.0
分散
2619.1
1033.7
451.4
168.4
81.3
40.7
26.8
①標本不偏分散の分布における平均値は標
本数によらず母分散に一致する
②その分散も標本数の増加に伴って単調に
減少する
↓
標本数を増やせば、不偏分散は母分散の
近傍の値をとる確率が高くなる
母分散を推定する場合には、標本分散ではなく、不
偏分散を用いる必要がある
●標本平均の差の分布
・関東圏と関西圏ではいずれの方が通勤時間は長いのだろうか
・20歳代の男女ではいずれの方が自動車保有率は高いのだろうか
*標本抽出実験 <2つの母集団>
母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667)
母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667)
↓ この2つの母集団からそれぞれ独立に同数の標本を無作為に抽出する
標本平均値の差(第2標本-第1標本)を求める → 実験を繰り返す → 標本平均の差の分布
4000
3500
3000
標本数100
標本数200
①標本数を変化させても、分布
の中心位置は殆ど変化しない
2500
2000
1500
1000
500
0
標本数50
②標本数を大きくすると、分布
の散布度は小さくなる
●標本抽出実験2
*標本抽出実験 <2つの母集団>
母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667)
母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667)
標本数
50
60
70
80
90
100
150
200
250
300
平均値
1001.5
1001.7
1001.6
1003.7
1001.1
1003.1
999.1
998.7
1001.0
1001.6
分散
333592.9
276729.3
240605.6
205632.8
184824.5
165184.3
111792.5
83365.1
66860.7
55688.6
母分散/分散
25.0
30.1
34.6
40.5
45.1
50.4
74.5
99.9
124.6
149.6
①標本平均の差の分布における平均値は、2つの
母平均の差に等しい
②標本平均値の差の分布における分散は標本数の
増加に伴って単調に減少する
母分散:
 2   12   22
標本数:n
「標本平均の差」の分布の分散: s 2

2
s2

n
2
s2 
2
n
2
s 
2
 12
n1

 22
n2
●2つの標本平均の差の分布:中心極限定理
母集団1:平均
母集団2:平均
1
2
、分散
、分散
 12
 22
n1
母集団2から無作為に抽出した n2
母集団1から無作為に抽出した
の差
平均
X 1  X 2 の分布は、 n1 , n2
1  、分散
2
 12
の正規分布に近似的に従う。(
n1
X1
個の標本に基づく標本平均 X 2
個の標本に基づく標本平均
、が大きければ、

 22
n2
n1 , n2
の目安としては30以上)
●理論分布 ・・・ 正規分布
*平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる
*確率密度関数
f (X )
1
2 
1
1X 
exp{ 
 }
2  
2 
2
f (X ) 
(-∞<X<∞)
μ
と のみで決まる  N ( ,  )
2
中心極限定理で近似分布として利用
身長、体重、知能等も正規分布に従う(と言われている)
*標準正規分布
正規分布に従う
変数X
標準化
Z
X 
平均0、分散1の正規分布

標準正規分布 N(0,1)
f (X ) 
1
X2
exp(
)
2
2
●正規分布に従う変数がある範囲をとる確率
*
N ( ,  2 )
に従う変数
X が xと
1 x2
の間の値をとる確率 Pr(x1
 X  x2 )
・指定された範囲における正規分布曲線の下の面積
・数表を用いて求める
ある指定された値以上の
確率が得られる
*数表から
Pr(x1  X )
Pr(x1  X  x2 )  Pr(x1  X )  Pr(x2  X )
しかし
平均、分散の異なるあらゆる数表を用意することは不可能
標準正規分布を利用した方法
●標準正規分布を利用した方法
基本的な原理
変数
X :
変数Z:
N ( ,  2 )  Pr(x1  X  x2 )
標準化
Z
X 

z1 
x1  
z2 

x2  

Pr(x1  X  x2 )  Pr(z1  Z  z2 )
N ( ,  2 )  Pr(x1  X  x2 )
①
x1 を標準化
z1 
②
x2
z2 
を標準化
③標準正規分布表を利用して
を求めるためには
x1  

x2  

Pr(z1  Z )
Pr(z2  Z )
Pr(z1  Z  z2 )  Pr(z1  Z )  Pr(z2  Z )
●標準正規分布表の利用方法
p
z
p
の
小
数
点
1
位
と
2
位
の
値
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.11
0.000
∞
2.3263
2.0537
1.8808
1.7507
1.6449
1.5548
1.4758
1.4051
1.3408
1.2816
1.2265
0.001
3.0902
2.2904
2.0335
1.8663
1.7392
1.6352
1.5464
1.4684
1.3984
1.3346
1.2759
1.2212
0.002
2.8782
2.2571
2.0141
1.8522
1.7279
1.6258
1.5382
1.4611
1.3917
1.3285
1.2702
1.2160
pの小数点3位の値
0.003
0.004
0.005
0.006
2.7478 2.6521 2.5758 2.5121
2.2262 2.1973 2.1701 2.1444
1.9954 1.9774 1.9600 1.9431
1.8384 1.8250 1.8119 1.7991
1.7169 1.7060 1.6954 1.6849
1.6164 1.6072 1.5982 1.5893
1.5301 1.5220 1.5141 1.5063
1.4538 1.4466 1.4395 1.4325
1.3852 1.3787 1.3722 1.3658
1.3225 1.3165 1.3106 1.3047
1.2646 1.2591 1.2536 1.2481
1.2107 1.2055 1.2004 1.1952
●Excelの関数を用いる
NORMDIST(a1,a2,a3,1)
↓
平均a2、標準偏差a3の正規分布においてa1
以下の確率を求める。
NORMINV(a1,a2,a3)
平均a2、標準偏差a3の正規分布においてそ
の下側確率がa1となる値を求める
0.007
2.4573
2.1201
1.9268
1.7866
1.6747
1.5805
1.4985
1.4255
1.3595
1.2988
1.2426
1.1901
0.008
2.4089
2.0969
1.9110
1.7744
1.6646
1.5718
1.4909
1.4187
1.3532
1.2930
1.2372
1.1850
0.009
2.3656
2.0748
1.8957
1.7624
1.6546
1.5632
1.4833
1.4118
1.3469
1.2873
1.2319
1.1800
● 理論分布 ・・・ t分布
正規分布 → 標準化 → 標準正規分布
これを行う前提としては
母分散、母平均が分かっている必要がある
z
X 

一般には、これが分からないのが普通
*母平均は、推定の対象となる(分からないのが前提)
*母分散は、不偏分散で推定する
t
X 
ˆ
不偏分散は、確率的に変動するため、tは標準正規分布とはならない
t : 標本数をn とすると 自由度n-1 のt分布
● t分布
標準正規分布
①自由度の小さい分布は標準正規分布
とかなり異なった形状を示している
自由度99
自由度4
・中央部の山が低い
・その分だけ裾を長く引く形
↓
自由度1 自由度2
裾の重い分布
②自由度が大きくなるとその分布は急
速に標準正規分布に近づく
0
標本数が多くなる → 不偏分散は母分散のより正確な推定値となる
t
X 
ˆ
z
X 

● t分布から値(確率)を取り出す
t分布表を使う方法
自
由
度
1
2
3
4
5
6
7
8
t0.2
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
t0.1
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
t0.05
6.3137
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
t0.025
12.7062
4.3027
3.1824
2.7765
2.5706
2.4469
2.3646
2.3060
t0.01
31.8210
6.9645
4.5407
3.7469
3.3649
3.1427
2.9979
2.8965
t0.005
63.6559
9.9250
5.8408
4.6041
4.0321
3.7074
3.4995
3.3554
α
t
Excel の関数を利用する方法
①TDIST(a,df,1)
①TDIST(a、df、1) → 自由度dfのt
分布においてその値がa以上の確率を求め
る
②
②TINV(b,df) → 自由度dfのt分布に
おいてその上側確率がbとなる値を求める
①
a
② TINV(b,df)
b