統計学第5回 看護学部 中澤 港 <[email protected]> http://phi.ypu.jp/stat.html 母比率を推定する方法 • 通常は,標本比率と一致する。 • 生態学のリンカーン法(Capture-MarkRecapture Method)で,母集団の個体数を 推定するのに,既知の数のマークした個体 を混ぜて標本抽出するのは,母比率が標 本比率と一致するという仮定に基づいてい る。 多数の白石に40個の黒石を混ぜ,20 個取り出したときに黒石2個,白石18 個だったときの,元の白石の数は? • 黒石の標本比率は2/20=0.1 • 母集団での黒石の個数が40個だから, 40/0.1=400個が母集団の総数。 • 白石の数は,400-40=360個 推定値の確からしさ 0.00 0.05 0.10 0.15 0.20 0.25 Sample probability distribution by population proportion sample probability • しかし,実は母集 団比率をpとして, 標本20個を取り 出したときに, ちょうど黒石が2 個得られる確率 は右図のように なるので,p=0.1 は0.11とか0.09に 比べて際立って 高い可能性をも つ値とは言えな い。 0.0 0.1 0.2 0.3 p 0.4 0.5 母比率の推定値の信頼区間 • では,どうやって推定値の確からしさを示す? • 適当な幅をもって母比率pを推定すれば,かなり 高い可能性をもって真の母比率がその幅に入る ということができる。 • この「適当な幅」が信頼区間である(「信頼限界」 ということもあるが,「信頼区間」の方が普通)。 • 通常は,「かなり高い可能性」を95%とした「95% 信頼区間」を示す。 信頼区間の計算手順 • 分布を求める • 下側2.5%点として95%信頼区間の下限を 求め,上側2.5%点として95%信頼区間の 上限を求める。 • 二項分布する変数など,計算が面倒だが, 標本数が多いときは正規近似すると楽。 練習問題の回答例 • この大学の女子学生の割合の点推定値 は,標本比率と一致するはずなので, 75/300=0.25,つまり25%である。 • 95%信頼区間の下限は,脚注[3]の式で 計算すれば(式中の2*sqrtは1.96*sqrtの 近似),0.25-0.05=0.2より20%である。 • 上限は当然30%となる。 • したがって,95%信頼区間は,(20%, 30%) となる。 検定の考え方 • 検定とは,仮説が正しいかどうか確かめること。 • 「差がある」仮説を直接証明することは困難なので(ど の程度の差があったら差があるとみなすのか?),「差 がない」仮説(これを帰無仮説という)を検証する • 母比率についての検定なら,標本比率が期待される母 比率と差がない,という帰無仮説を調べる。 • 帰無仮説が成り立っている確率が統計的に意味がある ほど小さい(そのレベルを有意水準といい,通常は5% 未満とする)なら,帰無仮説を棄却する(=標本比率は 期待される母比率と差がないとは言えないことになり, その標本データから考えると期待される母比率が違っ ていると解釈する)。 母比率の検定 • n個のカテゴリがあって,i番目のカテゴリの観測 度数(実際の標本数)がOi,期待度数(期待され る母比率と標本比率が一致した場合に標本が示 すであろう度数)がEiならば,(Oi-Ei)^2/Eiをすべ てのカテゴリについて足し合わせて得られる値X は,自由度n-1のカイ二乗分布に従う。 • ちなみに,自由度nのカイ二乗分布とは,独立に 標準正規分布(平均0,分散1の正規分布)に従 うn個の確率変数があったとき,それらの二乗の 和が従う分布である。 例題の回答例 • (1)は脚注の式の通りカイ二乗値が4となるので,1pchisq(4,1)=0.0455…<0.05より,仮説は棄却さ れる。つまり,データからは男女半々とは言えない。 • (2)のカイ二乗値を計算するには,まず期待度数を計 算する。性比1.06ならば,900人中,男児は463,女 児は437となる。 • 性比1.06という帰無仮説についてのカイ二乗値を計算 すると, (480-463)^2/463+(420-437)^2/437=1.3とな る。 • 1-pchisq(1.3,1)>>0.05なので仮説は棄却されな い。
© Copyright 2024 ExpyDoc