統計学

統計学入門(2)
比率の区間推定
統計学入門(2) - 後期 第6回 -
1
レポート課題:Chorusで提出

マスコミなどで発表された調査事例から、標本誤
差の大きさを各自で求め、区間推定を行うこと。
書式:自由。ただし、Wordファイルで作成し、学
年、学生番号、名前を忘れずに記入すること

注意:必ず出展を明記し、調査内容の説明を行う
こと
締め切り:2007/12/03 Mon 0:00AM
統計学入門(2) - 後期 第6回 -
2
今日の内容

前回の復習

比率の推定

比率の標本分布

比率の区間推定の方法

練習問題
統計学入門(2) - 後期 第6回 -
3
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
集計
母集団
母集団の平均:μ
標本の平均:
x
2つの値は同じではない
推定:母集団の平均値の値をいいあてること
平均の推定(nが大きいとき)
理論的には
95%の確率で
x  1. 96

n
   x  1. 96

n
実際の計算では
信頼度95%の信頼区間
s
s
x  1. 96
   x  1. 96
n
n
1
2
s 
( xi  x )
n 1
2
信頼度100(1-)%の信頼区間
  s
  s
x  z     x  z 
 2 n
 2 n


ただし、z  は上側
 2
/2 %点
誤差の考え方

標本平均は、母集団の平均の周りに分布する
s
 1.96
n

散らばりの大きさは、

母平均と標本平均の離れ具合だと考えれば、
s
 1.96
n
を誤差と考えることができる
統計学入門(2) - 後期 第6回 -
6
s
  1.96
n
s
  1.96
n
-3
-2
s
x  1.96
n
-1
μ
0
1
x
2
3
s
x  1.96
n
この範囲にμが入っていると考える
練習問題
(1)1月当りの世帯消費支出額についての、
ある母集団(A)からの標本調査で、平均
が22万円、標準偏差が8万円であった。
標本の大きさ(n)は1600である。信頼度
95%の信頼区間を構成せよ。
下限:22-1.96×0.2=21.6万円
上限:22+1.96×0.2=22.4万円
統計学入門(2) - 後期 第6回 -
8
練習問題
(2) 上記の母集団の平均が23万を超えてい
るという主張をする人がいた。調査の結
果からその人の主張が正しいかどうか判
断せよ。
信頼区間の上限が22.4万円であるので、
母集団の平均が23万円を超えるという
ことは考えにくい。
統計学入門(2) - 後期 第6回 -
9
練習問題
(3)別の集団(B)について大きさ900の標本で
調査をしたところ、平均が21万円で、標
準偏差が6万円であった。信頼度95%の
信頼区間を構成せよ。
下限:21-1.96×0.2=20.6万円
上限:21+1.96×0.2=21.4万円
統計学入門(2) - 後期 第6回 -
10
練習問題
(4) 集団Aと集団Bの平均について、2つの調査の
結果からそれらの差異の可能性についてコメ
ントせよ。
母集団A 下限21.6万円、上限22.4万円
母集団B 下限20.6万円、上限21.4万円
であり、母集団Aの平均は少なくとも21.6万円
以上と考えら、一方、母集団Bの平均は21.4万
円を超えることはないと考えられ、差があると
判断できる。
統計学入門(2) - 後期 第6回 -
11
練習問題
(5)さらに別の集団(C)について大きさ900の標本で
調査をしたところ、平均が21.5万円で、標準偏
差が6万円であった。このとき、集団Aと集団C
の平均値の差の有無についてコメントせよ。
母集団A 下限21.6万円、上限22.4万円
母集団C 下限21.1万円、上限21.9万円
であり、必ずしも差があるという断定はできない
統計学入門(2) - 後期 第6回 -
12
統計的推測 - 推定・検定 

標本から得られる情報を基に、母集団に
関する結論を導き出すこと
標本に関する結論を出すことが目的では
ない!
統計学入門(2) - 後期 第6回 -
13
比率の推定

母集団での比率を、標本の情報から推定
する






視聴率
世論調査
購買率
ヒットを打つ確率
フリースローの成功率
...
統計学入門(2) - 後期 第6回 -
14
標本調査と推測統計の概念図:比率の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
集計
母集団
母集団の比率: P
標本の比率: p
2つの値は同じではない
標本誤差を評価することが大切!
平均の標本分布
(1)
(2)
x の平均は、母集団の平均
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
統計学入門(2) - 後期 第6回 -
16
比率の標本分布
(1) p の平均は、母集団での比率P
(2) p の分散は、 P(1-P)/n
(3) n が大きいとき、p の分布は正規分布
1
x
0
if Q = YES
とおいて考えてみよう…
if Q = NO
統計学入門(2) - 後期 第6回 -
17
比率は…
1
x
0
if Q = YES
if Q = NO
x1  x2  ...  xn
x
n
Yesの数

p
n
統計学入門(2) - 後期 第6回 -
とおくと
18
比率の場合

95%の確率で
 1.96 
pP
 1.96
P(1  P) / n
P(1  P)
P(1  P)
p  1.96
 P  p  1.96
n
n
統計学入門(2) - 後期 第6回 -
19
比率の場合(実際の計算)

95%の確率で
P(1  P)
P(1  P)
p  1.96
 P  p  1.96
n
n
p(1  p)
p(1  p)
p  1.96
 P  p  1.96
n
n
統計学入門(2) - 後期 第6回 -
20
例題

ある番組の視聴率調査を行うことになった。無作為に抽
出された400人に調査を行ったとき、200人がその番組を
見ていた。母集団の視聴率の区間推定を行え。
区間推定の式
p(1  p)
p(1  p)
p  1.96
 P  p  1.96
n
n
400分の200=0.5が標本の比率(p)で、n=400なので、
0.5(1  0.5)
0.5(1  0.5)
0.5  1.96
 P  0.5  1.96
400
400
統計学入門(2) - 後期 第6回 -
21
調査結果の記事から

日本経済新聞


朝日新聞


(9/26)福田内閣支持率59%・日経世論調査
福田内閣支持53% 「古い自民」56% 本社
世論調査
読売新聞

福田内閣支持率57・5%、発足直後で4位…
読売世論調査
統計学入門(2) - 後期 第6回 -
22
福田内閣の支持率

日本経済新聞


朝日新聞


59%
53%
数字が違う理由
は?
読売新聞
正しい数字は?
57・5%
矛盾した結果?

統計学入門(2) - 後期 第6回 -
23
(調査結果)プラスマイナス(誤差)

日本経済新聞


朝日新聞


59%
53%
読売新聞

5%ポイントの
誤差があると
すれば、矛盾
はしていない
57・5%
統計学入門(2) - 後期 第6回 -
24
CNNの事例
統計学入門(2) - 後期 第6回 -
25
記事の引用




Fifty-seven percent of those polled said they did not believe it
was worth going to war, versus 41 percent who said it was,
according to a CNN/USA Today/Gallup poll of 1,006 adults.
That was a drop in support from February, when 48 percent said
it was worth going to war and half said it was not.
It's also the highest percentage of respondents who have
expressed those feelings and triple the percentage of Americans
who said that it was not worth the cost shortly after the war
began about two years ago.
The new poll question, asked by telephone on April 29-May 1,
had a margin of error of plus or minus 5 percentage points.
統計学入門(2) - 後期 第6回 -
26
重要部分


according to a CNN/USA Today/Gallup
poll of 1,006 adults.
The new poll question, asked by
telephone on April 29-May 1, had a
margin of error of plus or minus 5
percentage points.
実際に計算してみよう!!
統計学入門(2) - 後期 第6回 -
27
練習問題(1)

関東地区の世帯視聴率を調査するため、無作為に大き
さ900の標本を抽出した。標本でのある番組(番組A)の
視聴した世帯数は450であった。信頼度95%の信頼区
間を構成せよ。
p(1  p)
p(1  p)
p  1.96
 P  p  1.96
n
n
p  450/ 900  0.5
0.5(1  0.5)
 0.0327
900
0.5  0.033  0.467  P  0.5  0.033  0.533
1.96
統計学入門(2) - 後期 第6回 -
28
練習問題(2)

関東地区の番組Aの視聴率が45%を越し
ていると断定できるか判断せよ。
95%の信頼度の信頼区間は[0.467,0.533]である。
下限が0.45を上回っているので、母集団での視聴率は
45%を上回っていると判断できる。
統計学入門(2) - 後期 第6回 -
29
練習問題(3)

別の番組(番組B)について大きさ1600の標本で調査を
したところ、400世帯が番組Bを視聴していた。母集団で
の番組Aと番組Bの視聴率に差があるかどうかコメントし
なさい。
番組Bの視聴率の信頼区間は[0.229, 0.271]となる。
番組Aの視聴率の信頼区間が[0.467,0.533]であり、
重なっていないので、明らかに差があると判断する。
統計学入門(2) - 後期 第6回 -
30
練習問題(4)

視聴率の推定で、信頼度95%の信頼区間の区間幅を
常に3%ポイント以下にしたい。どの程度の標本の大きさ
にすればよいか。
信頼区間は
p  1.96
よって、区間幅は、
p(1  p)
p(1  p)
 P  p  1.96
n
n
p(1  p)
2 1.96
n
これは、p=0.5のとき最大になるので、
2 1.96
0.5(1  0.5)
 0.03
n
を満たすnを求めればよい。
 2 1.96

n
 0.5   4268.4
 0.03

2
統計学入門(2) - 後期 第6回 -
31