医療統計学 vol.7 木村 朗 *この章では推定の基礎を学ぶ 一部分から全体を推定するとい うこと • ほんとうにすべてを調べることってできるのか? 日本の成年男子? 多多多 缶詰 全数調査 無理 未来 未来に起 こること は、現時 点で無理 • 母集団 調査対象の全部=母集団 標本 分析のために母集団から取り 出される一部分=標本 推定の考え方で適切な標本数を 割りだせる • 具体例:テレビの視聴率 テレビの視聴率はどうやって調 査しているのか • 視聴率 =調査対象となる番組を見ているテレビの台数÷ 全体のテレビの台数 標本の数を 適切に選ぶことで、 標本から全体を推 測できる。 この時、推定理論 が役立つ。 4~5台で は・・・ もし100万台もあっ たら・・・ • • • • • • ビデオリサーチ社 母集団:関東地区 約1455万世帯(1995年当時) 標本:600台 調査:視聴率調査会社が実施 調査結果:テレビ局、広告代理店、広告主が使う 調査結果の影響:番組の存続、打ち切りが決まる *標本の選択基準:マスコミ関係者の家庭は除外 *毎月25世帯づつ入れ替え 2年間ですべて入れ替え。 統計の考え方を使って視聴率を 推定してみよう M ・・・ 母集団1455万台 番組Mを見ている確率(視聴率):p 番組Mを見ていない確率:1-p 標本 600台 確率変数Xは番組Mを 見ている台数 600Cr=600!÷ r!×(600- r)! 平均 m=np =600p 番組Mを見ている確率は独立試行なのでXは二項分布B(600、p)に従う 標準偏差 σ= √600p(1-p) P(X=r)=600Cr×p^r ×(1-p)^600-r ここでr=1.2,3・・・600 ズバリ一点で推定。点推定 このうち 99台がある番 組を見ていたと すれば・・・ 600Cr=600!÷r!×(600-r)! 平均 m=np=600p 標準偏差 σ=√600p(1-p) 点推定 p=99÷600=0.165 推定値 平均m=(B(np)に従うと考えるから)600p=600×0.165=99 標準偏差σ=(B(np)に従うと考えるから) √(600pq)=√((600×0.165×(1-0.165)) near= 9.09 推定の幅を求める。区間推定1 視聴率p 近似 600Cr=600!÷r!× 標準化 600Cr=600!÷r!× (600-r)! (600-r)! 平均 m=np=600p 標準偏差 σ=√600p (1-p) 平均 m=np=600p 標準偏差 σ=√600p (1-p) T= X-m/σ Tは平均0、 標準偏差 1の 正規分布 に従う P(│T│≦1.96) =0.95 Xに戻すとX-m=Tσより P(│X-m│≦1.96σ) =0.95 P(X-1.96σ≦m≦ X+1.96σ) =0.95 95%で 推定する 場合、1.96 推定の幅を求める。区間推定2 視聴率p 標準化 600Cr=600!÷r!× (600-r)! 平均 m=np=600p 標準偏差 σ=√600p (1-p) T= X-m/σ Tは平均0、 標準偏差 1の 正規分布 に従う P(│T│≦1.96) =0.95 Xに戻すとX-m=Tσより P(│X-m│≦1.96σ) =0.95 P(X-1.96σ≦m≦ X+1.96σ) =0.95 95%で 推定する 場合、1.96 面積0.95→1.96 P(99-1.96×9.09≦p≦ 99+1.96×9.09) =0.95 P(0.135≦p≦0.195 95%の確率でPは13.5~16.5%~19.5%にある! 信頼度の高さと信頼区間との関 係は? 1.65 90% 10% ポケモンの視聴率変化に意味は あったのか? 16.5% 1997年12月 16.2% 1998年4月 信頼度95%で 視聴率は13.5%と19.5%の間にある 信頼度99%で 視聴率は12.6%と20.4%の間にある つまり、信頼区間の中での確率値の変動は変化し たとは考えられない・・・真の確率値は信頼区間の幅 のどれでも、とりうる信頼度が95%である・・・ 信頼度が上がると信頼区間も広 くなる • 母集団の事象Aが起こる割合pを95%で区間推定する 標本のサイズn 標本における事象Aの起こった数r • r/n-1.96×σ/n≦p≦r/n+1.96×σ/n • Σ=√np(1-p) near equal=√n×r/n×(1-r/n) =√r×(1-r/n) 信頼度90%のとき1.65 信頼度95%のとき1.96 信頼度99%のとき2.58 2×1.96×(σ/n) σ=√r×(1-r/n) 2×1.96×(√r/n×(1-r/n))×1/√n r/nの割合が変わらないときには、幅 は1/√nに比例する。 よって幅を1/2に狭めるには標本数 は2^2=4倍する必要がある。 課題 • 2004年のイチロー選手、年間262安打のメジャー リーグ記録を残す • この時の成績は704打数262安打 打率は0.372 • これまでの推定方法を利用してn=704 p=0.372 の95%、99%の信頼度で 区間推定をせよ。 ズバリ一点で推定。点推定 このうち 99台がある番 組を見ていたと すれば・・・ 600Cr=600!÷r!×(600-r)! 確率密度関数に 観測数を入れてみる 平均 m=np=600p 標準偏差 σ=√600p(1-p) 点推定 p=99÷600=0.165 (事象aの統計的確率=事象aの観測数/すべての場合の数 (確率)=視聴率) 推定値 平均m=(B(np)のmに従うと考えるからm=np)600p=600×0.165=99 標準偏差σ=(B(np)のσに従うと考えるからσ=√npq) √600pq=√600×0.165×(1-0.165) near= 9.09 解説 P(事象aの数-1.96×(σ)=9.09≦p≦ 事象aの数+1.96×(σ)=9.09) =0.95 P(0.135≦p≦0.195
© Copyright 2025 ExpyDoc