統計学第4回 - Minato Nakazawa / 中澤 港

統計学第5回
看護学部 中澤 港
<[email protected]>
http://phi.ypu.jp/stat.html
母比率を推定する方法
• 通常は,標本比率と一致する。
• 生態学のリンカーン法(Capture-MarkRecapture Method)で,母集団の個体数を
推定するのに,既知の数のマークした個体
を混ぜて標本抽出するのは,母比率が標
本比率と一致するという仮定に基づいてい
る。
多数の白石に40個の黒石を混ぜ,20
個取り出したときに黒石2個,白石18
個だったときの,元の白石の数は?
• 黒石の標本比率は2/20=0.1
• 母集団での黒石の個数が40個だから,
40/0.1=400個が母集団の総数。
• 白石の数は,400-40=360個
推定値の確からしさ
0.00
0.05
0.10
0.15
0.20
0.25
Sample probability distribution by population proportion
sample probability
• しかし,実は母集
団比率をpとして,
標本20個を取り
出したときに,
ちょうど黒石が2
個得られる確率
は右図のように
なるので,p=0.1
は0.11とか0.09に
比べて際立って
高い可能性をも
つ値とは言えな
い。
0.0
0.1
0.2
0.3
p
0.4
0.5
母比率の推定値の信頼区間
• では,どうやって推定値の確からしさを示す?
• 適当な幅をもって母比率pを推定すれば,かなり
高い可能性をもって真の母比率がその幅に入る
ということができる。
• この「適当な幅」が信頼区間である(「信頼限界」
ということもあるが,「信頼区間」の方が普通)。
• 通常は,「かなり高い可能性」を95%とした「95%
信頼区間」を示す。
信頼区間の計算手順
• 分布を求める
• 下側2.5%点として95%信頼区間の下限を
求め,上側2.5%点として95%信頼区間の
上限を求める。
• 二項分布する変数など,計算が面倒だが,
標本数が多いときは正規近似すると楽。
練習問題の回答例
• この大学の女子学生の割合の点推定値
は,標本比率と一致するはずなので,
75/300=0.25,つまり25%である。
• 95%信頼区間の下限は,脚注[3]の式で
計算すれば(式中の2*sqrtは1.96*sqrtの
近似),0.25-0.05=0.2より20%である。
• 上限は当然30%となる。
• したがって,95%信頼区間は,(20%, 30%)
となる。
検定の考え方
• 検定とは,仮説が正しいかどうか確かめること。
• 「差がある」仮説を直接証明することは困難なので(ど
の程度の差があったら差があるとみなすのか?),「差
がない」仮説(これを帰無仮説という)を検証する
• 母比率についての検定なら,標本比率が期待される母
比率と差がない,という帰無仮説を調べる。
• 帰無仮説が成り立っている確率が統計的に意味がある
ほど小さい(そのレベルを有意水準といい,通常は5%
未満とする)なら,帰無仮説を棄却する(=標本比率は
期待される母比率と差がないとは言えないことになり,
その標本データから考えると期待される母比率が違っ
ていると解釈する)。
母比率の検定
• n個のカテゴリがあって,i番目のカテゴリの観測
度数(実際の標本数)がOi,期待度数(期待され
る母比率と標本比率が一致した場合に標本が示
すであろう度数)がEiならば,(Oi-Ei)^2/Eiをすべ
てのカテゴリについて足し合わせて得られる値X
は,自由度n-1のカイ二乗分布に従う。
• ちなみに,自由度nのカイ二乗分布とは,独立に
標準正規分布(平均0,分散1の正規分布)に従
うn個の確率変数があったとき,それらの二乗の
和が従う分布である。
例題の回答例
• (1)は脚注の式の通りカイ二乗値が4となるので,1pchisq(4,1)=0.0455…<0.05より,仮説は棄却さ
れる。つまり,データからは男女半々とは言えない。
• (2)のカイ二乗値を計算するには,まず期待度数を計
算する。性比1.06ならば,900人中,男児は463,女
児は437となる。
• 性比1.06という帰無仮説についてのカイ二乗値を計算
すると,
(480-463)^2/463+(420-437)^2/437=1.3とな
る。
• 1-pchisq(1.3,1)>>0.05なので仮説は棄却されな
い。