サンプリングと確率理論

サンプリングと確率理論
サンプリングとは
サンプリングとは、母集団全体の特性を評価
する目的で母集団を構成する調査単位のな
かから一部分を抽出する行為である。
サンプリング誤差
サンプリング誤差:サンプリングに由来する誤
差。
サンプリング誤差 = 標本値 - 母集団値
 標本数を増やせば、小さくすることができる。
サンプリング方法
1. 確率サンプリング…ターゲット母集団に抽出単位(消費者・
顧客)が標本に含まれる確率を指定する。
①
②
③
④
⑤
⑥
単純無作為抽出法
系統抽出法
クラスターサンプリング
層化抽出法
2段抽出法
二相抽出法
2. 非確率サンプリング…ターゲット母集団に抽出単位(消費
者・顧客)が標本に含まれる確率を指定しない。
①
②
③
④
便宜的サンプリング
判断によるサンプリング
割り当てサンプリング
スノーボールサンプリング
単純無作為抽出
①単純無作為抽出…母集団に抽出単位のどれもがサンプルに含まれる
際に同等の確率を持っている。
<例>乱数票による単純無作為抽出
系統抽出
②系統抽出…母集団の成員全体に一連の番号を付けておき、第1番の
標本だけを無作為に決め、2番目以下の標本を一定の間隔
で決めていく。
等間隔サンプリングとも言われる
単純無作為標本と比べ、サンプリングの作業効率は遥かに高い
<例>1000人からなる母集団から200人の標本を抽出する場合
クラスターサンプリング
③クラスターサンプリング
第1段階…母集団を互いに背反し、かつ網羅的なグループに分割
第2段階…それぞれのグループから単純無作為抽出をする
<例>エリアサンプリング
エリア別
層化抽出法
④層化抽出法
第1段階…母集団を互いに背反し、かつ網羅的なサブグループに分割
第2段階…それぞれのグループから単純無作為抽出をする
<例>標本を所得層別で抽出する場合
はそれぞれの所得水準を持った標本
2段抽出法
⑤2段抽出法
第1段階…一次抽出単位を系統抽出やクラスターサンプリングで抽出
第2段階…二次抽出単位を単純無作為抽出する
<例>一次抽出単位=大阪の13市、一次抽出単位=各市に在住の家計
二相抽出法
⑥二相抽出法…母集団の各層のサイズが不明の場合
第1段階…大標本を抽出し、母集団の各層のサイズを推定
第2段階…選ばれた抽出単位から層化サンプリングを行なう
二相抽出法
便宜的サンプリング
①便宜的サンプリング…顧客や対象物が都合よく入手可能な場合
<例>インターセプト法  ショッピングモールで買い物をしたばかりの顧客
をインタビューする。
選挙時にテレビ局が街頭でインタビューする。
利点…経費がかからず、しかも短期に必要な情報が入手可能である。
欠点…リサーチの結果をターゲット母集団と関連付けることが不可能であり、
統計的な推計ができない。
判断によるサンプリング
②判断によるサンプリング…経験を積んだリサーチャーが個人的な判断
で行なうサンプリング。
<例>
テストマーケティングを行なう際に、テスト市場あるいは都市をリサーチャー
が選択する。
割当サンプリング
③割当サンプリング…性、年齢、地域などの基本特性について、サンプル
構成を一定の代表性が保たれるように、母集団構成
に比例して割り当てるサンプリング。
<例>
ある大学の3・4年生を対象に調査する際に、学生数の比率が40対60とする。また
3年生の男女比が60対40で、4年生のそれが50対50になっている。100人の標
本を抽出する場合、3年生から40人、4年生から60人をサンプリングする。また3年
生の40人の内24人が男子で16人が女子である。4年生の場合男子女子ともに30
人ずつサンプリングする。
スノーボールサンプリング
④スノーボールサンプリング…ターゲット母集団が小さいため、紹介者を
経由して、雪だるま式にサンプルを増やして
いく方法。
<例>
ハイエンドのオーディオのユーザーを対象とした調査
サンプル数の決定要因
① 情報の価値
② 求められる推定の制度
③ 母集団の分散
④ 分析の詳細
⑤ サンプリング・コスト
母集団の特性(パラメーター)
母集団の平均 μ
2
母集団の分散 σ
母集団の標準偏差 σ
標本の特性(統計量)

標本平均 x =
標本分散 s2 =
1
n
Σx i
n i=1
1
n
Σ(x i - x )2
n-1 i=1
標本の標準偏差 s =

s2
標本分布

E( x ) = E

1
n
Σx i =
n i=1

1
n
Var( x ) = E( x - μ)2 =

Std( x ) =

Var( x ) =
E( nμ) = μ
σ2
n
σ
n
標本分布
n = 100
n = 25
μ= 0, σ2= 5
標準正規分布

z =
x -μ
σ/ n
z ~ N(0,1)
標準正規分布
z
区間推定

P( -z a < z ≦ z a) = P -z a <
x -μ
σ/ n

≦ za

= P x - z a σ/ n < μ ≦ x + z a σ/ n
z a = 2 ⇒ P( -z a < z ≦ z a) = 0.95
z a = 5/3 ⇒ P( -z a < z ≦ z a) = 0.90
標本数の決定
標本誤差 = z aσ/ n
⇒ n = z 2aσ2/(標本誤差)2
標本数を決定するには次の3つを設定しなければならない。
1.有意水準
2.期待分散
3.標本誤差
標本数の決定
<例>
1.有意水準 = 0.95
2.期待分散 = 1.49
3.標本誤差 = 0.3
2
2
n = 2 ( 1.49) /(0.3)2 = 99
比率の問題
標本分散 σ2p = π(1-π)/n
標本数 n = z2π(1-π)/(標本誤差) 2