経済統計 I [3mm] 標本調査の基礎 [1cm]

経済統計 I
標本調査の基礎
美添泰人
青山学院大学経営学部
2015 年 5 月 18 日
内容
(1) 統計調査—母集団,全数調査,標本調査
(2) 比率に関する調査(基礎編)
(3) 比率に関する調査(応用編)
(4) 標本調査に関わる誤差—標本誤差と非標本誤差
(5) 量的変数に関する調査
(6) 補足—経済変数のヒストグラムと散布図,対数変換の意味
統計調査
経済分析で利用される家計に関する統計や,企業等でも月次統計など速
報性を要求される 動態統計 の大部分は,標本調査にもとづいて作成され
ている.
標本調査には確率的な誤差が発生するが,全数調査に比べて費用と時間
の大幅な節約ができる,調査対象が少ないため丁寧な調査ができる,な
どの利点がある.
広く利用されている標本抽出法は,誤差の大きさを客観的に評価することがで
きる 無作為抽出 (random sampling) である.
国が公表しているほとんどの統計調査では,確率的な 標本誤差 (sampling
error) は十分小さい.
したがって,経済統計で問題となる主要な誤差は,全数調査においても発生す
る 非標本誤差 (nonsampling error) である.
母集団名簿の不備や回答拒否などによって 無回答 が発生すると,得られた標
本が母集団を正しく代表せず偏りを生じさせる原因となる.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
3 / 27
統計調査
標本抽出 (sampling) の意味
費用の節減,時間の短縮,情報の範囲の拡大,精度の向上(教科書 p.28–30)
確率的な誤差が発生する:たまたま選ばれた標本に男性が多い・30 歳代が少な
いなど
客観的な選び方である.少なくとも調査主体の主観的には影響されない.
無作為抽出 (random sampling) と有意抽出 (purposive sampling)
単純無作為抽出 (simple random sampling) と複雑な方法
層別抽出,二段階抽出,三段階抽出,系統抽出,確率比例抽出など
確率的な誤差の評価方法
確率的でない誤差(非標本誤差)の内容
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
4 / 27
統計調査
関心の対象である(社会)集団の大きさ (size) を N とする.これを 母
集団 (population) と呼ぶ.
例:平成 26 年東京都知事選挙の有権者 N = 10, 685, 343 人
例:情報通信機械器具製造業 N = 4, 608 事業所
次の例のように,母集団に関して,知りたい情報がある.
ある政策の支持者の数,または割合
ある地域における要介護者の数,または割合
ある地域の製造業従業者の労働時間
ある職種の労働者の平均賃金,または企業間賃金格差
失業者の数,または割合
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
5 / 27
比率に関する単純無作為抽出
以下,比率に関する標本調査として,政策支持率を例として単純無作為
抽出の基礎的な内容を紹介する.
母集団の大きさを N 人とする.東京都の有権者なら N = 10, 000, 000
程度,ある県庁所在都市なら N = 200, 000 である.全数を調査するには
時間,費用,人員などの制約から非効率的である.
統計学のモデルとしては,箱の中に N 枚のカードを入れて,それぞれ
「支持・不支持」の記号が記載されている状態を想定する.カードには
1, 2, · · · , N と番号をつけてある.
単純無作為抽出とは,N 枚のカードが「いずれも同じ確率で」抽出され
る方法である.イメージとしては,カードをよくかき混ぜて 1 枚ずつ,
ないし n 枚をまとめて抽出すればよい.sampling は抽出の方法を指す.
n を標本の大きさ (sample size) と呼ぶ.n は費用や所要時間を勘案して
定める.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
6 / 27
比率に関する単純無作為抽出— 簡単な実験の例
N = 1000 の母集団で,支持者が S = 600 なら,支持率は
P = S/N = 0.6 である.ここから n = 100 人を無作為に抽出した結果を
示す.賛成を S と表す.(以下の数値はコンピュータによる実験.シミュ
レーションと呼ぶ)
1 回目:S = 61 2 回目:S = 65 3 回目:S = 53 4 回目:S = 68 抽出の結果には変動があるが,母集団の支持率 60%に近いように見える.
参考:統計解析ソフトウェア R によるコード
N <- 1000 ; S <- 600 ; H <- N-S ; n <- 100
rhyper(4,S,H,n)
白が S 枚,赤が H 枚ある箱から n 枚を抜き出す実験で得られた白の枚数(4 回)
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
7 / 27
比率に関する単純無作為抽出—実験の例(つづき)
N = 1000,支持率 P = 0.6 の母集団から n = 500 人を無作為に抽出した
結果を示す.
1 回目:S = 291 比率 58.6% 4 回目:S = 302 比率 59.2% 2 回目:S = 301 比率 60.2% 5 回目:S = 308 比率 58.8% 3 回目:S = 308 比率 58.8% 6 回目:S = 305 比率 60.0% 結果の変動は小さくなり,母集団の支持率との違いは最大で 1.2%で
ある.
n = 900 人を無作為に抽出すると誤差は最大で 1.0%となっている.
59.6% 59.2% 60.1% 59.3% 59.8% 59.0% n = 950 人(0.4%以内)
60.0 60.2 60.2 59.6 59.9 60.4 60.1 60.1 n = 990 人(0.3%以内)
59.9 60.2 60.0 59.7 60.1 60.1 59.8 59.9 Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
8 / 27
多数回の実験結果のヒストグラム
N = 1000,n = 100, n = 500 : 実験回数 B = 10000 回
N = 1000 ; n = 100
0.4
0.5
0.6
sample
Yasuto Yoshizoe (AGU School of Business)
N = 1000 ; n = 500
0.7
0.54
0.56
0.58
0.60
0.62
0.64
0.66
sample
18 May 2015, Tokyo
9 / 27
多数回の実験結果のヒストグラム
N = 1000,n = 900, n = 950 : 実験回数 B = 10000 回
N = 1000 ; n = 900
0.59
0.60
sample
Yasuto Yoshizoe (AGU School of Business)
N = 1000 ; n = 950
0.61
0.62
0.585
0.590
0.595
0.600
0.605
0.610
0.615
sample
18 May 2015, Tokyo
10 / 27
比率に関する単純無作為抽出—解説
世帯や個人の標本調査では,母集団は数万以上の大きさとなる.カード
を抜き出す場合,100 万から 1000 枚程度を抜き出したとしても,残りの
カードの構成比は最初の状態とほとんど変わらないと考えられる.
赤 600 枚,白 400 枚のカードから 3 枚を抽出する場合,赤が 2 枚,白が
1 枚となる確率(順番は赤赤白,赤白赤,白赤赤の 3 通り)
通常の標本抽出のように,元に戻さないときの確率:
(600/1000)(599/999)(400/998) + (600/1000)(400/999)(599/998) +
(400/1000)(600/999)(599/998) = 0.43258
毎回元に戻すときの確率:
0.6 · 0.6 · 0.4 + 0.6 · 0.4 · 0.6 + 0.4 · 0.6 · 0.6 = 3(0.62 · 0.4) = 0.43200
元に戻すかどうかの差は N が非常に大きい場合は,無視できるくらい小
さい.元に戻す場合の確率分布は,二項分布と呼ばれる.通常の標本調
査ではこの理論を用いて誤差を評価する.
元に戻す場合の超幾何分布 (hyper geometric dist’n) も用いられる.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
11 / 27
比率に関する単純無作為抽出—N が大きい場合
N = 100000, P = 0.6, n = 1000, n = 2000 : 実験回数 B = 10000 回
N = 1e+05 ; n = 1000
0.54
0.56
0.58
0.60
sample
Yasuto Yoshizoe (AGU School of Business)
0.62
N = 1e+05 ; n = 2000
0.64
0.66
0.56
0.58
0.60
0.62
0.64
sample
18 May 2015, Tokyo
12 / 27
比率に関する単純無作為抽出—N が大きい場合
N = 100000, P = 0.6, n = 4000, n = 8000 : 実験回数 B = 10000 回
N = 1e+05 ; n = 4000
0.57
0.58
0.59
0.60
sample
Yasuto Yoshizoe (AGU School of Business)
0.61
N = 1e+05 ; n = 8000
0.62
0.63
0.58
0.59
0.60
0.61
0.62
sample
18 May 2015, Tokyo
13 / 27
比率に関する単純無作為抽出—理論編
これまで示したヒストグラムは正規分布に近い.これは理論的に保証さ
れる.
一般的な便利な公式がある.大きさ n の標本から得られた標本比率を
p
√
として q = 1 − p と書く.20 回の実験のうち,p ± 2 pq/n の範囲に母
集団比率 P が含まれるのは約 19 回である.つまり 95%程度の確信を
もって,母集団比率の範囲を示すことができる.
√
いくつかの例における区間 p ± 2
p
p
p
p
= 0.5,
= 0.5,
= 0.5,
= 0.5,
n = 1000
n = 2000
n = 4000
n = 8000
:(0.468,
:(0.478,
:(0.484,
:(0.489,
0.532),
0.522),
0.516),
0.511),
√
pq/n と誤差の範囲 2 pq/n
0.0316
0.0223
0.0158
0.0111
√
n が 4 倍になると区間の幅は 1/ 4 倍,すなわち半分に狭くなる.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
14 / 27
比率に関する単純無作為抽出—他の数値例
区間 p ± 2
√
√
pq/n と誤差の範囲 2 pq/n
p
p
p
p
= 0.6,
= 0.6,
= 0.6,
= 0.6,
n = 1000
n = 2000
n = 4000
n = 8000
:(0.569,
:(0.578,
:(0.585,
:(0.589,
0.631),
0.622),
0.615),
0.611),
0.0301
0.0219
0.0155
0.0110
p
p
p
p
= 0.3,
= 0.3,
= 0.3,
= 0.3,
n = 1000
n = 2000
n = 4000
n = 8000
:(0.271,
:(0.280,
:(0.286,
:(0.290,
0.329),
0.320),
0.314),
0.310),
0.0290
0.0205
0.0144
0.0102
n = 2000 程度で,誤差の大きさは約 2%となる.多くの例では,この程
度の正確性(精度)で十分と見なされる.
以前フジテレビで放映されていた「トリビアの泉」の統計コーナーで,ほ
とんどの問題に「2000 人」と答えていたため,「2000 人の先生」と呼ば
れたことがあった.誰が計算しても答えは変わらない.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
15 / 27
比率に関する単純無作為抽出—まとめと練習問題
母集団比率を区間で推定する方法を区間推定と呼ぶ.古典的には区間
を信頼区間 (confidence interval) と呼んでいたが,ベイズ統計の立場で
は信用区間 (credible interval) と呼ぶ.次は 95%区間である.
√
p ± 2 pq/n
%表示なら
100p ± 2
√
100p · 100q/n
例:母集団サイズ N 大,p = 20(%), n = 2500 :
20 · 80/2500 = 1600/2500 = (40/50)2 = 0.82 ,
20 ± 2 · 0.8 = 20 ± 1.6 = (18.4, 21.6) (%)
N が大きいとき,次の結果について,95%区間を求めよ.
p = 10(%), n = 3600 :10 · 90/3600 = (30/60)2 = 0.52 ,
10 ± 2 · 0.5 = 10 ± 1.0 = (9.0, 11.0) (%)
失業率は
p = 5%, n = 100, 000 とすると単純無作為抽出なら
√
5 · 95/100000 = 0.138, 5 ± 2 · 0.14 = 5 ± 0.3 = (4.7, 5.3) (%)
総務省の調査は層化 2 段抽出法,比推定を用いて,
「失業者数 285 万人に対して 4 万人が
誤差の範囲,失業率に換算すると ±0.3%より小さく,±0.15%程度である.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
16 / 27
比率に関する標本調査—注意点
√
標本サイズ:確率的な誤差は 1/ n の倍数になる.N が数万以上なら誤
差の大きさは n だけで決まり,N はほとんど影響しない.
回収率:協力的な世帯だけとは限らない.若年層のように不在がちな世
帯の回答は得にくい.回収された標本だけにもとづく判断は偏る危険性
がある.回収率の低い調査は注意して読む.
調査方法:訪問(面接),訪問(調査票留置・回収),電話調査,郵送調査
などで,回収率に差が出る.
名簿:電話帳(非公開の番号がある,携帯しか持たない),有権者名簿,
住民基本台帳,国勢調査の調査区地図
質問表記:背景説明を入れると回答が影響される.
公営競技への意見で説明をつけた実験では賛成の比率が違う.「A. 収入
を使って施設を作っている」,「B. 青少年の非行が他の地域より高い」
質問の順序:選択肢に 1∼10 があると,最初のほうの番号を選ぶ人が多
い.複数回答 (MA) の場合にはその傾向が緩和される.(旧大蔵省の法人
企業景気予測での試験調査)
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
17 / 27
内閣支持率調査—日本経済新聞(日経リサーチ)
http://www.nikkei-r.co.jp/phone/method.html を参照
母集団は全国の有権者,標本抽出法は次のとおり
抽出枠:全国の固定電話加入世帯 / 標本の大きさ:約 1400
1
全国で稼動中の固定電話の局番(市外局番+市内局番)に、加入者番号(0000∼9999)
を付加した番号集合を抽出枠とします。
2
電話番号局番を小さい順に配列した上で、系統抽出法(等間隔抽出法)で約 1 万 6 千件
の電話番号の属する局番を無作為抽出します。
3
抽出された局番からそれぞれ1個の加入番号を単純無作為抽出します。(0∼9999 の一様
乱数を発生させて、その乱数を4桁の加入番号とします。)
4
こうして抽出した電話番号標本のうち、現在使われていない番号を自動判定システムで
除去します。この結果、平均的に 4000 件の稼動番号が得られ、この電話番号に日経リ
サーチのオペレーターが電話をします。
5
すべての電話をかけた結果、約 1400 件が会社の電話などでなく、世帯であることが経験
的に期待できます。 この世帯のうち有権者のいることが確認された世帯が調査対象
6
調査対象となった世帯のうち、約 900 件以上の協力を得ることを目標とします。
7
上記のような標本抽出法を RDD 法といいます。RDD は「Random Digit Dialing」(乱
数番号)の略語で、電話帳に自宅の電話番号を掲載している世帯も掲載していない世帯
も含めて、すべての世帯電話番号から無作為標本を作ることができる点が特徴です。
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
18 / 27
内閣支持率調査—朝日と日経
2014 年 10 月に行われた調査結果の比較(%表示)
朝日新聞世論調査—2014 年 10 月 25,26 日実施,n = 1029
http://www.asahi.com/articles/ASGBV4691GBVUZPS003.html
安倍内閣を 支持する 49 / 支持しない 30
「朝日 RDD」方式で全国の有権者を調査.世帯用と判明した番号は 2061 件,有効回答 1029 人
日経定例電話世論調査—実施日 2014/10/24 - 2014/10/26,n = 1020
http://www.nikkei-r.co.jp/phone/results/2014-10.html
安倍内閣を 支持する 48 / 支持しない 36 / いえない・わからない 16
Q1. あなたは安倍内閣を支持しますか、しませんか。
支持する 42 / 支持しない 32 / いえない・わからない 26
Q1SQ. (「いえない・わからない」と回答した方に)お気持ちに近いのはどちらですか。
支持する 24 / 支持しない 16 / いえない・わからない 60
この回を除いて,日経の支持率は朝日より高い.専門家の解説は
http://www.nikkei-r.co.jp/lecture/koken-rep-2007_06.pdf
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
19 / 27
量的変数に関する標本調査
世帯の所得,支出金額,就業時間,企業の生産額,出荷額,などは量的な変数で
あり,比率の推定と多少違う点がある.
0.0000
0.0005
0.0010
0.0015
0.0020
0.0025
所得の分布は,左右対称ではない(右は対数所得)
4
5
6
7
log(Income)
0
500
1000
1500
2000
Income
量的変数 y の場合は母集団平均 Ȳ と母集団分散 SY2 (または標準偏差 SY )が
関心の対象である.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
20 / 27
所得の推定—単純無作為抽出の実験
前のスライド (p.20) の母集団は擬似的な世帯のデータで,N = 400, 000,
Ȳ = 430.6, SY = 250.9 (万円)である.
n = 2000, n = 8000 : 実験回数 B = 5000 回
Sample mean : n= 2000
410
420
430
sample mean
Yasuto Yoshizoe (AGU School of Business)
440
Sample mean : n= 8000
450
420
425
430
435
440
sample mean
18 May 2015, Tokyo
21 / 27
量的変数に関する標本調査の誤差—理論編
母集団平均を Ȳ ,母集団分散を SY2 と表す.(標準偏差は SY )
母集団の大きさ N および標本のサイズ n が大きければ,標本から得られる標本
平均 ȳ の分布は平均 Ȳ ,分散 SY2 /n の正規分布で近似される.
一般の正規分布について,平均を µ,分散を σ 2 とするとき,区間
(µ − 2σ, µ + 2σ) (より正確には µ ± 1.96σ )に含まれる観測値の割合は
95%である.
標本調査から得られた平均と分散を用いると,母平均に対する 95%区間推定が
できる.
ただし s =
√∑
s
s
ȳ − 2 √ < Ȳ < ȳ + 2 √
n
n
(yi − ȳ )2 /n は標本分散の平方根(標本標準偏差)である.
スライド 21 の例で ȳ = 430.6, s = 250.9 とすると,95%区間推定は次のとお
り : n = 2000 なら (441.6, 419.6), n = 8000 なら (436.1,425.1)
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
22 / 27
標本調査:有限母集団修正
元に戻さない抽出法の誤差は 抽出率 f = n/N に依存する.
比率:
√
p ± 1.96 1 − f
√
pq
n
数量:
√
sy
ȳ ± 1.96 1 − f √
n
(1 − f ) を有限母集団修正 (fpc) と呼ぶ.
企業・事業所の業種・規模・地域別など,N 小さいときは fpc の効果が現れる.
N = 100, Ȳ = 800, SY = 400 のとき
√
400
800 ± 1.96 0.5 √ = (722, 878)
50
√
400
n = 75: 800 ± 1.96 0.25 √ = (754, 845)
75
N が十分大きいとき(世帯・個人)は,fpc は無視できる.1.96 の近似として 2
n = 50:
を用いることが多い.
比率の場合
Yasuto Yoshizoe (AGU School of Business)
√
p±2
pq
n
数量の場合
sy
ȳ ± 2 √
n
18 May 2015, Tokyo
23 / 27
標本調査:有限母集団修正・無回答・系統抽出
標本調査の精度(正確性)は N が大きい場合,n に依存するが,抽出率
f = n/N はほとんど影響しない.
家計調査(毎月の調査世帯数は約 8000)に対して「全国の世帯約 5000 万に対
して標本が小さいため,調査は不正確だ」という指摘がときになされるが,誤解
である.
無回答の問題:調査に協力する世帯と,回答しない世帯で属性が異なることが
多い.不在が多い若年世帯,記入が負担になる高齢者世帯,家計簿への記入が
面倒と感じる人など.
部分的には層別抽出や比推定という方法で対応することができるが,協力が得
られるような調査設計とすることが原則である.
系統抽出の例:人口 N = 2000 人の地域から n = 20 人を選ぶとき,最初に 1
から 2000/20 = 100 までの数を無作為に発生させ,その後は 100 人おきに抽出
する.近似的に無作為抽出と考えることが多い.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
24 / 27
標本調査:層別抽出・二段抽出・民間調査機関
母集団を,地域,世帯主年齢階級,世帯人員数などを用いて,いくつかの部分母
集団(これを層 (stratum) と呼ぶ)に分ける.各層は,できるだけ類似性の高い
ように分けることが望ましい.
単純な例: n = 3000 人を調査する.N1 = 200(万人),N2 = 100(万人)の層
で母集団比率に差があると予想されるとき,N = N1 + N2 = 300(万人)全体に
割り当てると,たまたま多く選ばれた層の影響が大きくなる.n を各層の人数に
比例的に,n1 = 2000, n2 = 1000 と割り当てて,それぞれの比率 p1 と p2 を用
いて全体の比率を p = (N1 p1 + N2 p2 )/(N1 + N2 ) と推定するほうが正確になる.
2 段抽出の例:全国の市町村(約 1700)のうち,100 を選ぶ(1 段目).選ばれ
る確率は人口に比例させる次に選ばれた市町村について名簿を作成し,それぞ
れから 30 人を選ぶ(2 段目)
.いきなり全国の名簿を作成するより,時間も費用
もかからない.
民間調査機関の調査でよく見られる方法(擬似的な 2 段抽出):全国の市町村の
人口を順番にならべ,約 1.2 億人のうちの出発点となる数字を無作為に選ぶ.
その数字が対応する市町村から 50 万人おきに地点を抽出すると約 200 地点が対
応する.次に各地点を出発点として,11 人おきに住民基本台帳から住所・氏名
等を転記して郵送調査を行う.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
25 / 27
標本抽出の方法
以下の内容については教科書(『経済統計入門』東大出版会)の第 2 章にもう少し
詳しい記述がある.
層別抽出法 (stratified sampling)
系統抽出法 (systematic sampling)
2 段抽出法・3 段抽出法(アメリカでは 4 段抽出まである)(multi-stage
sampling)
比推定 (ratio estimation)
名簿情報の重要性:財務省「法人企業統計」の例
教科書で記述していないものに集落抽出法 (cluster sampling) や 2 相抽出法
(two-phase sampling) などがあるが,通常,学部水準の講義では対象としない.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
26 / 27
課題2(必須,提出期限 6 月 8 日)
以下はある問題に関する成人の意見を知るための調査であり,同じ期間か
√
つ質問項目は同一とする.形式的な「標本誤差」(1/ n に比例する)を求
め,各調査の問題点(非標本誤差)について論評せよ.
(1) 調査期間中の平日に,電話帳から無作為に抽出した番号に,午前 10 時
から午後 6 時の間に電話をかけて調査を行ったところ,n = 4000 人の
回答が集まり,そのうちの 60%が賛成であった.
(2) 調査の協力者には抽選で景品を送付する旨を明示して,インターネット
で n = 10, 000 人の回答が得られるまで待ってから集計したところ,
60%が賛成であった.
(3) 調査対象者を対象地域の住民基本台帳から成人人口に比例させて抽出
した.無作為に抽出した n = 4000 人の成人に対して郵送調査で実施し
たところ,回答を得られたのは 1200 人で,そのうちの 60%が賛成で
あった.
ヒント:標本誤差の公式は教科書およびスライドにある.非標本誤差は常識的な判断でも
良い.
Yasuto Yoshizoe (AGU School of Business)
18 May 2015, Tokyo
27 / 27