標本抽出法入門 (第3章 統計的推定 補足) 統計学 2013年度 母集団(個体数N) × × × 標本(個体数n) × × × • × × 母平均𝜇 • × × 区間推定 標本平均𝑥 標本平均にもとづいて母平均を区間推定するとき、できる限り精度の高い、すな わち信頼区間の幅の小さい推定量を得ることを考える。 標本平均 𝑥 の分散は 𝜎2 𝑉 𝑥 = 𝑛 であり、標本の個体数nを大きくすれば、推定量の精度は高まる。 • しかし、標本の個体数nを大きくすることにはコストの面などから限界がある。そこ で、標本の抜き出し方を工夫することによって、推定量の精度を高めることをか んがえていく。これが標本抽出法(サンプリング)の問題である。 標本抽出法は、まず次の2つに大別できる。 •有意抽出法 街を歩く人にアンケートをとるなどの方法であり、抜き出された標 本が、一定の傾向を持つ(標本の偏りを持つ)可能性がある。 •無作為抽出法 母集団の中から無作為(ランダム)に標本を抜き出す方法。 母集団の中からくじ引きの原理によって標本を抜き出す、単純 無作為抽出法がその代表格である。 今までの推測統計の理論では、この単純無作為抽出法を前提 としている。 有意抽出法でなく、単純無作為抽出法を用いた場合でも、 たまたま特定の傾向を示す人が多く選ばれることによって、 偏った標本となってしまうおそれある。 ⇒ 信頼区間内に母平均を含まない標本となるおそれ そこで、標本誤差を少なくするための標本抽出の工夫が おこなわれる。代表的な工夫として次のようなものが挙げ られる。 – 層別抽出法(層化抽出法ともいう) - できるだけ同じような性質 のグループに分ける。都市なら人口規模、産業構造など、人なら 性別、年齢などによっていくつかの層にわける。 – 多段抽出法 - 市町村を選び、その中から世帯を選ぶなど、何 段階かに分ける。 • 日本の官庁統計では標本誤差を少なくするために無作 為抽出法に層別抽出法、多段抽出法を組み合わせた方 法を用いている。 (例) 家計調査の場合 1.全国の市町村を168の層に分け、その中から1つ選ぶ。 2.各市町村から調査地区(単位区)を選ぶ。全国で約1400単位区 3.各単位区から6世帯を乱数表によって選ぶ <層別抽出法の理論的背景> 𝑁−𝑛 𝜎2 𝑁−1 𝑛 • 標本平均 𝑥 の分散が 𝑉 𝑥 = であり、標本数nを大きくすれば、 推定量の精度は高まる。 • 反対にnを固定して考えると、母分散σ2の小さい母集団の推定は、精度 が高くなる。 • 母集団を分散の小さいいくつかの層に分割すれば、それぞれの層内で の精度は高くなる。 母集団(個体数N) 層1:個体数N1、層内平均μ1、層内分散σ21 層2:個体数N2、層内平均μ2、層内分散σ22 層3:個体数N3、層内平均μ3 、層内分散σ23 𝑊𝑖 = 𝑁𝑖 とおく。 𝑁 𝜇 = 𝑊1 𝜇1 + 𝑊2 𝜇2 + 𝑊3 𝜇3 理論から 2 𝜎 = 𝑊𝑖 𝜎𝑖2 + 𝑊𝑖 𝜇𝑖 − 𝜇 2 が導出される。 • 層別抽出によって抜き出された標本平均は、𝑥𝑠𝑡 = 分散は 2 𝑁 − 𝑛 𝜎 𝑖 𝑖 𝑖 𝑉 𝑥𝑠𝑡 = 𝑊𝑖2 𝑁𝑖 − 1 𝑛𝑖 𝑊𝑖 𝑥𝑖 となり、その となる。 <例題> 男女合わせて500人の集団に4点満点のテストをおこなったとき、 Excelファイルの度数分布表のようになった。 このとき、単純無作為抽出でn=50の標本を選んだときの標本平均の分 散と、層別抽出でn1(男子)=30、n2(女子)=20の標本を選んだときの標本 平均の分散を比較してみる。 母集団(個体数N=500) 層1 個体数 N1 =300 層内平均 μ1=2 層内分散 σ21=1 𝑁 − 𝑛 𝜎 2 500 − 50 1.24 𝑉 𝑥 = = = 0.022365 𝑁−1 𝑛 500 − 1 50 層2 個体数 2 N2 =200 2 𝑁𝑖 − 𝑛𝑖 𝜎𝑖 𝑊𝑖 層内平均 𝑉 𝑥𝑠𝑡 = 𝑁𝑖 − 1 𝑛𝑖 μ2=3 300 − 30 1 200 − 20 1 層内分散 2 2 = 0.6 + 0.4 = 0.018072 σ22=1 300 − 1 30 200 − 1 20 𝜇 = 2.4, 𝜎 2 = 1.24 男女ごとに標本を抽出した時の方が分散が小さい ⇒ 精度が高い
© Copyright 2024 ExpyDoc