母集団と標本

標本(サンプル)と母集団
標本抽出
(サンプリング)
標本(Sample)
母集団
(Population)
母集団と標本
統計的推測
慶應義塾大学 非常勤講師
八賀 洋介
例1:日本の中学生全員が同じ実力テストを受けた時の平均点が知りたい。実際に全員に
テストを受けさせれば、平均点を正確に知ることができるがそうはいかない。
33
母集団 population
調べる対象となる有限または
無限の個体の全集合
標本抽出 sampling
統計では偏りを防ぐため
無作為抽出を必要とする
個体 unit, individual
例2:あるメーカーが製造している「頑丈さが売りのノートパソコン」の宣伝に「平均○○cm
の高さから落としても壊れない」というために、実際に製品を落として壊れる高さを計測し、
ギリギリ壊れない高さの平均値を知りたい。
→ そこで推測統計を行う。
34
標本(サンプル) sample
母集団を調べるため
そこから取り出した
個体の集合
xの分布
標本の大きさ
(サンプルサイズ)
分布の特徴を表わす統計量(1標本)
統計量の理論分布
正規分布 χ2分布
t分布、
二項分布
F分布
ポアソン分布
測定 measurement
母集団の大きさ
Fの分布
標本の分布
標本ごとにばらつくが、
平均的には
母集団の分布と同じ
母集団の分布
• 正規分布
• べき乗正規分布
• 一様分布、等
• 標本分布から推定
中心化傾向
平均値 x
中央値 Me
最頻値 Mo
散布度
s
標準偏差
分散
s2
四分位偏差 Q
比較のための統計量(多標本)
平均値の差 x1 − x2
順位和
∑ Ri
分散比
分散均一性
F
χ2
変数間の関係を表わす統計量(多変量)
母集団を想定し
そこから繰り返し標本
抽出した時の統計量
の分布を考える
r
相関係数
重相関係数 R
b
回帰係数
重回帰係数 b
i
変数 variable
個体の特徴を表わす数値
母数の差の検定・推定
統計量 statistic
標本の特徴を要約した数値
母数の検定・推定に利用
35
調査方法には全数調査と標本調査がある
36
標本抽出の方法
• 単純無作為抽出法(simple random sampling)
標本をくじ引きのような確率的な方法で、無作為(ランダム)に抽出する方法。
• 全数調査(悉皆調査)
対象となる全てを調べる調査
例:「国勢調査」「事業所・企業統計調査」
1.
2.
3.
母集団を構成する全員のリストを用意する(標本フレーム)。
全員に一連の通し番号をつける。
乱数表などの乱数に従って得た乱数に従って調査対象を選ぶ
• 有意抽出法
「代表的」「典型的」と考えられる調査対象を抽出する方法。
全数調査は、①標本誤差を含まない、
②標本調査を実施する際の基礎データに利用可
•
調査者が母集団の縮図となるように様々な情報を元に構成する。
• 例えば、ある市で年齢や性別等の人口動態属性によるテレビの視聴行動の違いを調査する目的で、市
全体の年齢、性別、職業、収入の構成にできる限り近い標本になるように対象者を選ぶ。
•
• 標本調査
対象の一部だけを調べる調査
例:「TV視聴率」「労働力調査」「家計調査」
標本誤差が生じるので、これを小さく保つための注意点
がある。
37
できるだけ母集団を代表するように標本を構成しても、調査者が注目した属性以外が影
響を与えている可能性も大きい。
• 2段抽出法
第1段階で大まかな区画や地域などをランダムに選び、第2段階で、
選ばれた集団の中からランダムに被験者を選ぶ。
• 例えば、労働力調査は国勢調査の調査区をランダムに選択し、次に調査区内の世帯をラン
ダムに選ぶ。
38
40
標本統計量と母数
サンプルの偏りは誤った推論を招く
• 1936年、大統領選挙で民主党のF.ルーズベルトとA.
ランドンの2候補がいた。大手雑誌「リテラリー・ダイ
ジェスト」誌は250万人もの世論調査の末、ルーズベ
ルトの落選を予想した。一方、3000人の調査を行っ
たギャラップ社はルーズベルト再選を予想した。結果
はルーズベルトの再選だった。
• 「リテラリー・ダイジェスト」誌は、電話を使った世論
調査を実施した。当時はまだ電話は普及途上で、富
裕層と、それ以外の層では電話の普及率に差があっ
た。共和党支持者は富裕層に多かったため、ランド
ン候補に有利なデータが出てしまった。
39
標本抽出
(サンプリング)
母集団
(Population)
標本(Sample)
統計的推測
母数(パラメータ)
母(集団)平均
母(集団)標準偏差
母(集団)相関
標本統計量(統計量)
(μ)
標本平均
(x)
(σ)
標本標準偏差 (s)
(ρ)
標本相関
(r)
など
など
同じ母集団からのサンプリングでもサンプルは同じではない。
標本統計量の値はサンプルごとに変動する (偶然的変動)