医療統計学 vol.7
木村 朗
*この章では推定の基礎を学ぶ
一部分から全体を推定するとい
うこと
• ほんとうにすべてを調べることってできるのか?
日本の成年男子?
多多多
缶詰
全数調査
無理
未来
未来に起
こること
は、現時
点で無理
•
母集団
調査対象の全部=母集団
標本
分析のために母集団から取り
出される一部分=標本
推定の考え方で適切な標本数を
割りだせる
• 具体例:テレビの視聴率
テレビの視聴率はどうやって調
査しているのか
• 視聴率
=調査対象となる番組を見ているテレビの台数÷
全体のテレビの台数
標本の数を
適切に選ぶことで、
標本から全体を推
測できる。
この時、推定理論
が役立つ。
4~5台で
は・・・
もし100万台もあっ
たら・・・
•
•
•
•
•
•
ビデオリサーチ社
母集団:関東地区 約1455万世帯(1995年当時)
標本:600台
調査:視聴率調査会社が実施
調査結果:テレビ局、広告代理店、広告主が使う
調査結果の影響:番組の存続、打ち切りが決まる
*標本の選択基準:マスコミ関係者の家庭は除外
*毎月25世帯づつ入れ替え 2年間ですべて入れ替え。
統計の考え方を使って視聴率を
推定してみよう
M
・・・
母集団1455万台
番組Mを見ている確率(視聴率):p
番組Mを見ていない確率:1-p
標本 600台
確率変数Xは番組Mを
見ている台数
600Cr=600!÷
r!×(600-
r)!
平均 m=np
=600p
番組Mを見ている確率は独立試行なのでXは二項分布B(600、p)に従う
標準偏差 σ=
√600p(1-p)
P(X=r)=600Cr×p^r ×(1-p)^600-r ここでr=1.2,3・・・600
ズバリ一点で推定。点推定
このうち
99台がある番
組を見ていたと
すれば・・・
600Cr=600!÷r!×(600-r)!
平均 m=np=600p
標準偏差 σ=√600p(1-p)
点推定 p=99÷600=0.165
推定値 平均m=(B(np)に従うと考えるから)600p=600×0.165=99
標準偏差σ=(B(np)に従うと考えるから)
√(600pq)=√((600×0.165×(1-0.165)) near= 9.09
推定の幅を求める。区間推定1
視聴率p
近似
600Cr=600!÷r!×
標準化
600Cr=600!÷r!×
(600-r)!
(600-r)!
平均 m=np=600p
標準偏差 σ=√600p
(1-p)
平均 m=np=600p
標準偏差 σ=√600p
(1-p)
T=
X-m/σ
Tは平均0、
標準偏差
1の
正規分布
に従う
P(│T│≦1.96)
=0.95
Xに戻すとX-m=Tσより
P(│X-m│≦1.96σ)
=0.95
P(X-1.96σ≦m≦
X+1.96σ)
=0.95
95%で
推定する
場合、1.96
推定の幅を求める。区間推定2
視聴率p
標準化
600Cr=600!÷r!×
(600-r)!
平均 m=np=600p
標準偏差 σ=√600p
(1-p)
T=
X-m/σ
Tは平均0、
標準偏差
1の
正規分布
に従う
P(│T│≦1.96)
=0.95
Xに戻すとX-m=Tσより
P(│X-m│≦1.96σ)
=0.95
P(X-1.96σ≦m≦
X+1.96σ)
=0.95
95%で
推定する
場合、1.96
面積0.95→1.96
P(99-1.96×9.09≦p≦
99+1.96×9.09)
=0.95
P(0.135≦p≦0.195
95%の確率でPは13.5~16.5%~19.5%にある!
信頼度の高さと信頼区間との関
係は?
1.65
90%
10%
ポケモンの視聴率変化に意味は
あったのか?
16.5%
1997年12月
16.2%
1998年4月
信頼度95%で 視聴率は13.5%と19.5%の間にある
信頼度99%で 視聴率は12.6%と20.4%の間にある
つまり、信頼区間の中での確率値の変動は変化し
たとは考えられない・・・真の確率値は信頼区間の幅
のどれでも、とりうる信頼度が95%である・・・
信頼度が上がると信頼区間も広
くなる
• 母集団の事象Aが起こる割合pを95%で区間推定する
標本のサイズn 標本における事象Aの起こった数r
• r/n-1.96×σ/n≦p≦r/n+1.96×σ/n
• Σ=√np(1-p) near equal=√n×r/n×(1-r/n)
=√r×(1-r/n)
信頼度90%のとき1.65
信頼度95%のとき1.96
信頼度99%のとき2.58
2×1.96×(σ/n)
σ=√r×(1-r/n)
2×1.96×(√r/n×(1-r/n))×1/√n
r/nの割合が変わらないときには、幅
は1/√nに比例する。
よって幅を1/2に狭めるには標本数
は2^2=4倍する必要がある。
課題
• 2004年のイチロー選手、年間262安打のメジャー
リーグ記録を残す
• この時の成績は704打数262安打 打率は0.372
• これまでの推定方法を利用してn=704 p=0.372
の95%、99%の信頼度で 区間推定をせよ。
ズバリ一点で推定。点推定
このうち
99台がある番
組を見ていたと
すれば・・・
600Cr=600!÷r!×(600-r)!
確率密度関数に
観測数を入れてみる
平均 m=np=600p
標準偏差 σ=√600p(1-p)
点推定 p=99÷600=0.165 (事象aの統計的確率=事象aの観測数/すべての場合の数
(確率)=視聴率)
推定値 平均m=(B(np)のmに従うと考えるからm=np)600p=600×0.165=99
標準偏差σ=(B(np)のσに従うと考えるからσ=√npq)
√600pq=√600×0.165×(1-0.165) near= 9.09
解説
P(事象aの数-1.96×(σ)=9.09≦p≦
事象aの数+1.96×(σ)=9.09)
=0.95
P(0.135≦p≦0.195