確率モデルと標本分布

サンプルごとに、どのくらい標本統計量は変動するのだろう?
(標本統計量が特定のサンプルに依存する程度はどのくらいか?)
しかし、実際サンプルを取り直して標本統計量の値の変化を
調べることはふつうできない
確率モデルと標本分布
そこで理論的方法として
確率モデルの考え方を導入する
(比率の導出)
母集団は一種のデータ発生装置。ある確率である値が出てく
る。
「母集団からのサンプリングによって、サンプルを構成しうる1個
1個のデータ値がどういう確率で得られるのか」
慶應義塾大学 非常勤講師
八賀 洋介
確率変数 (random variable):確率的に変動する変数
確率分布 (probability distribution):確率変数がどういう確率で
どういう値をとるかを示す分布
41
42
統計的推測では、サンプルを構成する1個1個のデータを確率
変数の実現値とみなす。
推測に関わる分布
標本分布
データの度数
母集団分布
(母集団の度数分布)
確率
• サンプルデータから計算される平均や相関係数など
関心のある「標本統計量がどういう確率でどういう値
をとるか」をあらわす分布は、その統計量の標本分
布 (sampling distribution) と呼ぶ。
• 数理統計学者: ある確率モデルからどういう標本分
布を数学的に導出することができるかを調べる
• 統計学ユーザー: 導出よりも、出発点となる確率モ
デルを正しく理解し、導出結果の公式を必要に応じ
て正しく適用することができるように学ぶ
43
標本の度数分布
44
比率という最も簡単な統計量につ
いて標本分布を導出してみる。
母集団分布と確率モデル
比率
1
比率問題の2値変数xの
母集団分布 πは未知
π
0.5
確率
変数の特定
• 小学校で習う分数の計算問題を、中学1年生のうち
どれぐらいの比率(何人中何人)の生徒が正しく解く
ことができるか?
• 正答と誤答の2値変数(x=1 or 0) N人のサンプルで
x=1の比率を求め、母集団比率を推測する。
標本分布
(無作為抽出を繰り返して
標本統計量の分布を作成した
場合の理論分布)
データの度数
標本統計量の確率
標本分布は、確率的に変動する統計量(平均など)が、ど
ういう確率でどういう値をとるかを示す確率分布。これは、
特定の標本におけるデータの度数布とは違うので注意す
ること。
確率分布
(母集団から無作為抽出
した時に、値がどの値をとるかを
確率で表したもの)
1-π
1
比率問題nにおける確率モデル
(成功確率πのベルヌイ分布)
π
0
0
1
x
0.5
1-π
0
0
45
1
x
46
N人分のデータから計算される比率pは、どういう確率
でどういう値をとるか?
p= .2 の確率
p= .6 の確率
p= .4 の確率
p= .8 の確率
Pr ob( p = .6) = 5 C3π 3 (1 − π ) 2
Pr ob( p = .2) = 5π (1 − π ) 4
N=5の場合、比率pの取りうる値は
p=0, .2, .4, .6, .8, 1
Pr ob( p = .4) = 5 C2π 2 (1 − π )3
Pr ob( p = .8) = 5 C4π 4 (1 − π )
組み合わせの計算式例
p=1となる確率は
Pr ob( p = 1) = Pr ob( x1 = 1) Pr ob( x2 = 1) ・・・ Pr ob( x5 = 1)
5!
2!(5 − 2)!
5・4・3・2・1
=
= 10
2・・
1 3・2・1
5
ここでの計算式には比率pは直接出てこない。代わりに
正答者数wが出てくる。 p と w の関係は次のようになる。
=π5
p = w/ N
w = Np
p=0 の確率は
Pr ob( p = 0) = Pr ob( x1 = 0) Pr ob( x2 = 0) ・・・ Pr ob( x5 = 0)
Excel 関数 COMBIN
この正答者数 w が任意の値を取る確率を、w の関数として表現すると、
f ( w) = N Cwπ w (1 − π ) N − w =
= (1 − π )5
*注意* ランダムサンプリングによって、データの独立性が保証され
ていることが前提。この仮定の下では複数の事象が共に起こる確率は、
各事象が起こる確率の積となる。
48
確率
正答者数wおよび比率pの標本分布
(試行数N=5、成功確率π=.6の2項分布)
0.4
f (1) = 5×.6×.4 4 = .0768
0.3
f (2) = 10×.6 2 ×.43 = .2304
0.2
f (3) = 10×.63 ×.4 2 = .3456
0.1
0
0
1
.2
2
.4
3
.6
4
.8
5
1
w
p
f (5) = .65 = .07776
∑
∑
∑
前ページの一般式で表現される確率分布を二項分布 (binomial distribution) と呼ぶ。
「成功確率πの試行を独立にN回繰り返したときの成功数wの確率を与える分布」
(N=1の場合は、ベルヌーイ分布 (Bernoulli distribution) と呼ぶ)
49
二項分布の確率を表わす式
f ( w) = N C wπ w (1 − π ) N − w =
m
µ = ∑ xk f ( xk )
確率分布の平均
度数の平均値
変数xがとりうる値(x1、x2、・・・、xm)、それぞれの値の度数をf(xk)(k=1,2、・・・、m)とすると
成功数 w 度数 f(w) w × f(w)
0
1
0
1 m
1
8
8
x=
xk f ( xk )
2
23
46
N k =1
3
35
105
m
4
26
104
ただし、ここでは、N = k =1 f ( xk )
5
8
40
Σ
101
303
確率分布でも、確率変数xがとりうる値(x1、x2、・・・、xm)、
x
3
それぞれの値のとる確率をf(xk)(k=1,2、・・・、m)とする
と
m
w×
成功数 w prob (w)
µ = xk f ( xk )
prob (w)
0
0.01024 0
k =1
1
0.0768
0.0768
m
0.2304
0.4608
2
N = k =1 f ( xk ) = 1
3
0.3456
1.0368
0.2592
1.0368
4
確率変数の分布の平均は 期待値 (expected value) と呼
5
0.07776 0.3888
ばれ、E(x) と表記される。
Σ
1
3
50
μ
3
∑
0
f (4) = 5×.6 4 ×.4 = .2592
N!
π w (1 − π ) N − w
w !( N − w)!
47
N=5で、母集団比率がπ=0.6だったとすると、サンプルにおける正答者数が0,1,2,3,4,5の
各値をとる確率 (=比率が0, .2, .4, .6, .8, 1をとる確率) は、
f (0) = .45 = .01024
C2 =
N!
π w (1 − π ) N − w
w !( N − w)!
代入する
比率の標本分布の平均
k =1
二項分布の場合の
確率分布の
平均値の導出過程
m
µ w = ∑ w・
k f ( wk )
x ' = cx + d
k =1
µp =
N
N!
= ∑ w・
π w (1 − π ) N − w
w !( N − w)!
w=0
N
N!
=∑
π w (1 − π ) N − w
w =1 ( w − 1)!( N − w)!
µw
N
=π
ここで、w’ = w – 1 とおいて、Nπを前に出す
N −1
µw = Nπ ∑
w '= 0
( N − 1)!
π w ' (1 − π ) ( N −1) − w '
w '![ ( N − 1) − w ']!
和の部分は、試行数N-1、成功確率πの2項分布の確率の総和=1
二項分布の正答者数 w の標本
分布の平均を求めるための公式
µw = Nπ
51
標本統計量の分布の平均(期待値)が、その統計量によって推定しようと
している母数の値に一致するとき、その統計量は不偏性をもつという。
不偏性を持った統計量は、母数の不偏推定量と呼ぶ
52
確率分布の標準偏差
σ=
m
∑ (x
k =1
k
比率の標本分布の標準偏差
− µ ) 2 f ( xk )
← 確率分布一般の
標準偏差の式
二項分布の確率を表わす式
f ( w) = N C wπ w (1 − π ) N − w =
N!
π w (1 − π ) N − w
w !( N − w)!
s x ' =| c | ×sx
標準誤差
代入する
N π (1 − π )
N
π (1 − π )
=
N
σp =
0.6
0.5
N
1
10
3
100
σp 0.4
0.3
0.2
0.1
σ w = Nπ (1 − π )
← 二項分布の標準偏差の式
53
比率の標本分布の標準誤差から
サンプルサイズを決める
比率pの標準誤差を0.05以下にするのに必
要なサンプルサイズNを求める
σp =
π (1 − π )
N
≤ 0.05
π (1 − π )
≤ N
0.05
π (1 − π )
≤N
0.052
1
π (1 − π ) ≤ N
0.0025
400π (1 − π ) ≤ N
左辺に未知の母数πがあり、Nの最小値が
確定しないが、π=0.5の時最大になるので、
N = 400 × 0.5 × 0.5 = 100
55
標本統計量の標準偏差は、
その統計量の標準誤差と
呼ばれる。
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
母集団比率π
54