第2章 確率と確率分布

第3章 統計的推定
(その2)
統計学 2006年度
<修正・補足版>
Ⅰ 標本分布
a) 母集団と標本
1) 標本調査の利点
2) 標本調査における誤差
b) 標本平均の標本分布
c) 標本分散の標本分布
Ⅱ 点推定
(その1)
a) 点推定
b) 統計量の特性
1)
2)
不偏性
その他の統計量特性
Ⅲ 区間推定
a) 母平均の区間推定
1)
2)
3)
4)
中心極限定理
信頼区間
母分散が既知の場合の区間推定
母分散が未知の場合の区間推定
b) 母比率の区間推定
1)
2)
標本比率の標本分布
母比率の区間推定
c) 標本数の決定
1)
2)
母平均の区間推定における標本数の決定
母比率の区間推定における標本数の決定
(その2)
Ⅲ 区間推定
• 点推定で母数θをピタリと推定することは難しい。そのため、
標本統計量tの近くの区間を設定し、その区間内に母数θが
含まれることを推定する。これを区間推定という。
a) 母平均の区間推定
1) 中心極限定理
•
x の標本分布について、
E(x )  
N n 2
V( x ) 
N 1 n
が成り立っていた。また、母集団の個体数(N)が十分大きいとき、
V( x ) 
が成り立つ
2
n
次に、標本平均 x
の分布がどのような形になるのか考えてみよう。
ⅰ) 母集団の分布が正規分布の場合
母集団が平均μ、分散σ2の正規分布にしたがっているとする。
標本平均 x は
n
x  x    xn
x 1 2

n
x
i 1
i
n
であり、正規分布にしたがう変数の和(をnという定数で割ったもの)と
なっている。
したがって、正規分布の再生性†より、 x は正規分布にしたがう。
† 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結
合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性と
いう。
ⅱ) 母集団の分布が正規分布ではない場合
母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいと
き、次のような定理によって標本平均 x の分布は正規分布となる。
<中心極限定理>
算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標
本の平均 の分布は、母集団の分布がどのようなもので
x
あっても、 n が大きくなるとき、正規分布 N(μ, )に近づく。
2
n
※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標
本平均 x の分布は正規分布となり、標準化された変数
x
 n
の分布は、標準正規分布 N(0, 1) に近づく。
z
2) 信頼区間
標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は
95%である。よって、 z  x   はnが大きいときには、中心極限定理によ

n
り標準正規分布にしたがうので、
P(1.96 
x
 1.96)  0.95
 n
となる。この式のカッコ内を変形すると
  1.96

 x    1.96
n
となり、標本平均 x は   1.96 
n

n
の区間内に95%の確率で含まれる。
x の分布
標準化
z
  1.96
また P(1.96 

n
μ
  1.96
zの分布
x
 n

-1.96
0
1.96
n
x
 1.96)  0.95 のカッコ内は次のようにも変形できる。
 n
 1.96 
x


 1.96  1.96
 x    1.96
 n
n
n
 1.96

 x  1.96
   x  1.96
n

n
   x  1.96

n

n
  1.96

n
 x    1.96

n
と x  1.96

n
   x  1.96
なことを意味している。
  1.96

n
x  1.96
×
μ
  1.96

×
x
n

n
x  1.96
×

n

n
は次のよう
x を中心に、 x  1.96 
という区間を考えると、とりうる標本のうち95%
n
がこの区間内に母平均μを含む。
• このように母数が含まれると考えられる区間を信頼区間とい
い、その区間に母数が入ると信頼できる程度を信頼係数と
いう。
• この場合、
( x  1.96
区間である。

n
, x  1.96

n
)
はμの信頼係数95%の信頼
3) 母分散が既知の場合の区間推定
(例) 20歳男性の身長を調べるために、100人を標本として選
んだところ、標本平均 x =170であった。σ=8であるとき、母
平均μの95%信頼区間を求めよ。
(解) μの95%信頼区間は
( x  1.96

n
, x  1.96

n
)
8
8
,170 1.96
)
100
100
(170 1.568,170 1.568)
(170 1.96
(169.43,171.57)
となる。
4) 母分散が未知の場合の区間推定
母集団(大きさ N)
標本(大きさ n)
信頼区間を求める場合、
z
×
×
×
×
×
×
×
いる。しかし、母平均の推
×
× ×
が標準正規分布
にしたがうという性質を用
×
×
x
 n
標本平均
x
定をおこなう場合に、母分
標本分散
s2
散σ2が分かっているという
ことは、あまり多くない。
母平均 μ
母分散 σ2
母分散σ2がわからないとき、代わりに標本分散s2を用いる。
このとき、 t 
x
が自由度n-1のt分布にしたがう。
s / n 1
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。
自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規
分布に近くなっている。
※ 標本分散s2の代わりに標本不偏分散
2
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2  ( xi  x )
sˆ 

n 1
n 1
2
を用いれば、 t  x   が自由度n-1のt分布にしたがう。
sˆ / n
<自由度について>
自由度とは、自由に値を取ることのできる個体数のこと
である。
この場合は、t統計量の自由度は標本分散 s2 の分子に
含まれる xi のうち、自由に値を取ることのできる個数で
n
ある。
2
( x  x )  ( x2  x )    ( x n  x )
s2  1

n
2
2
2
 (x  x)
i 1
i
n
なので、x1, …, xn-1 は自由に値をとることができるが、xn
は
x

n
i
x
を満たすように決められ、自由度はn-1となる。
• 母集団の分散が分からないとき、母平均μの95%信頼区
間は、t分布の95%点をt0.95とあらわすと、
( x  t0.95
s
s
, x  t0.95
)
n 1
n 1
となる。 t0.95はt分布表からその値を求める。
x
※ より正確には、母集団の分布が正規分布にしたがうとき、t 
s / n 1
が自由度n-1のt分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
大きさがある程度大きければ、 t  x  
は近似的に自由度n-1
s / n 1
のt分布にしたがうとみなせる。
また、nが十分大きい場合、t分布は正規分布に近づくので、t  x  
が正規分布にしたがうと考えることもある。
s / n 1
(例) 20歳女性の身長を調べるために、10人を標本として選ん
だところ、標本平均 x =160であった。s=9であるとき、母平
均μの95%信頼区間を求めよ。
(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信
頼区間は
s
s
, x  t0.95
)
n 1
n 1
9
9
(160 2.262
, 160
 2.262
)
10  1
10  1
(160 2.262 3, 160
 2.262 3)
(160 6.79,160 6.79)
(153.21,166.79)
( x  t0.95
となる。
b) 母比率の区間推定
1) 標本比率の標本分布
母集団(大きさ N)
×
標本(大きさ n)
×
×
×
×
×
×
×
×
×
× ×
母比率
p
標本比率 pˆ
まず、標本比率 pˆ の標本
分布を考えよう。
内閣支持率を例にとると、
標本比率 pˆ とは、標本n
人のうちのx人が「内閣を
支持する」と答えた割合
であり、 pˆ  x である。
n
よって pˆ の標本分布を考えるためには、まずxの標本分布を
考えればよい。
• 標本として選ばれた人の答えは、それぞれ「内閣を支持す
る」か「内閣を支持しない」かのいずれである。
また選ばれた人が 「内閣を支持する」人である確率は、母
比率pに等しい。
よって、n人の標本を選ぶことは、AかBかという2つの結果し
か起こらない試行 をn回繰り返すこととみなすことができ、
「内閣を支持する」人の人数xは2項分布にしたがう。
• 2項分布の期待値は E(x) = np、分散は V(x) = npq である
ので、これを用いて、 pˆ の平均、分散を考えてみると、
x
E ( x) np
ˆ
E ( p)  E ( ) 

p
n
n
n
x V ( x) npq pq
V ( pˆ )  V ( )  2  2 
n
n
n
n
となる。
• また、「内閣を支持する」人を1、「内閣を支持しない」人を0と
表すことを考える。n人の標本の中に「内閣を支持する」人は
をx人含まれるので、このようにあらわした場合、 pˆ 
x
n
は大
きさnの標本の平均とみなすことができ、中心極限定理が適
用できる。
pq
の正規分布にしたがう。
n
よって、 pˆ の分布は、平均p、分散
標準化された変数 z  pˆ  p は標準正規分布にしたがう。
pq
n
2) 母比率の区間推定
z
pˆ  p
pq
n
が標準正規分布にしたがうことから、母比率pの
95%信頼区間は
pq
pq
, pˆ  1.96
)
n
n
( pˆ  1.96
となる。
(例) World Baseball Classic 決勝 日本-キューバ戦の視聴率は43.4%
であった。この数値は関東地区の約1600万世帯から600世帯をサンプ
ルとして選んだ結果である。このデータから、関東地区全世帯の視聴率
の95%信頼区間を求めよう。
(解) pの代わりに pˆ を用いてpの95%信頼区間を計算すると
( pˆ  1.96
(0.434 1.96
pq
pq
, pˆ  1.96
)
n
n
0.434 0.566
0.434 0.566
,0.434 1.96
)
600
600
(0.434 0.040,0.434 0.040)
(0.394,0.474)
となる。
c) 標本数の決定
WBC決勝戦の視聴率を信頼係数95%で区間推定すると、8%もの幅が
できる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセン
スである。
では、視聴率調査の精度を高めるには、推定量の一致性から標本数を
増やすことが考えられる。しかし、標本数を増やすことはコストの増加を
意味している。よって、目標となる精度(どの程度のズレまで許容できる
か)を設定し、それに必要な標本数を計算する必要がある。
1) 母平均の推定における標本数の決定
| x   | の許容限度を E とする。
 の区間推定を信頼係数 95% でおこなうとき、 x の分布について、
| x |
 1.96
 n
が成り立つので、
| x   | 1.96

n
E
となればよい。よって
1.96

n

1.96
E
E
 n
 1.96 

 n
 E 
2
となり、
 1.96 
n

E


2
が必要標本数であることが分かる。
これを求めるために、母標準偏差σが必要となるが、標本数を決定すると
いうことは、データ収集をおこなう前のことであり通常はわからない。その
ため、過去の経験などからσ2 の推定値を求め、それを利用する。
(例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推
定するという問題を考える。ただし、母集団の標準偏差は8000円であっ
たと見当がつけられているとする。
(解) 信頼係数を95%とすると、必要標本数は
 1.96 8000
2
n
  (15.68)  245.8624
 1000 
2
となるので、246人となる。
2) 母比率の推定における標本数の決定
| pˆ  p | の許容限度を E とする。
pの区間推定を信頼係数 95% でおこなうとき、 pˆ の分布について、
が成り立つので、
| pˆ  p |
 1.96
pq
n
| pˆ  p | 1.96
pq
E
n
となればよい。よって
1.96
pq
E
n
1.96
pq
 n
E
2
 1.96

 pq  n
 E 
となり、
2
 1.96
n
 pq
E


が必要標本数であることが分かる。
これを求めるために、母比率pが必要となる。Pについて何らかの見当が
つくなら、その数値を用いるが、pについて何の情報もない場合には p  1
2
1
を用いる。なぜなら、 p  q  のときに、pqが最大となるからである。
2
(例) 視聴率調査において、1%以内の誤差で推定するために必要な標本
数を求めよ。
(解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考
えられるので、 p  1 とすると、必要標本数は
2
2
1
 1.96 1 1
2
n
    (196)   9604
4
 0.01 2 2
となるので、9604人となる。