スライド 1

統計的推測
専修大学経済学部
作間逸雄「経済統計学」講義
統計的推測の種類


標本の観察
(標本統計量)
例:標本平均
統計的推測の種類
母集団の特徴
(母数)
母平均
点推定
推定
区間推定
検定
標本から母集団を推測する1




池の魚の数を数える。
とりあえず、50匹を捕まえ、尾に赤い標識を
つけて逃がす。次の日、10匹捕まえたとこ
ろ、そのうち2匹が標識をつけていたとする。
池の魚全体(その数をXとする)のうち、標識
のついている魚の割合が今回捕まえた魚の
中での割合と等しいと仮定する。
すると、2÷10=50÷Xから、X=250と推
測する。
最尤法



「尤(もっと)もらしい」の「尤」である。
母比率をπとする。πをいろいろ変化させてみて、実際
のデータに含まれる比率pが観察される確率が一番高
くなるように、πを決める方法を最尤法という。
10匹の中に2匹に標識のついた魚がいる確率は、
p(2)  10 C2 2 (1   )102
この確率が最大になるように、πを選ぶのが最尤
法。微分を使って計算すると、π=2/10を得る。
点推定と不偏性
1 n
1 n
1
E ( X )  E (  X i )   E ( X i )  n  
n i 1
n i 1
n
標本平均は、母平均の不偏推定量である。一般
に、推定量が母数にたいして次の関係があるとき、
不偏推定量という。
E (ˆ)  
「標本分布」の概念が鍵



標本統計量(たとえば、標本平均のように、標
本を与えるとその関数として決まる量を確率
変数と考えたもの)の分布を標本分布という。
原理的には、母集団分布がわかっていて、標
本分布を計算するわけだが…
母集団分布が知られなくても、標本分布につ
いて、わかることがある。
標本平均の期待値・分散
1
1
1
E
(
X
)

E
(
X
)

E
(
X
)

n





確率変数X、Yが独立であれば、
n
n
n
1
12
2 2
V ( X )  V (  X )  2 nV ( X ) 
n
n
n
V (aX  bY )  a V ( X )  b V (Y )
さらに、中心極限定理により、サンプル・サイ
ズが大きければ、
X
N ( ,

2
n
)
中心極限定理(復習)
x1 , x2 , , xnが独立の確率変数で、
それぞれ分散が有限のと き 、
1
x  x1  x2   xn や x  ( x1  x2   xn ) の分布は、
n
nが大き ければ、 正規分布に近づく 。
正規分布は、ガウスの発見以来、誤差の分布をあ
らわすときに、よく使われる。(複雑な多数の原因が
相互に独立に不規則に作用すると考える!)
中心極限定理の図示
大数(たいすう)の法則
標本平均は、 標本サイ ズを 大き く すれば、
母集団平均に近づく 。
実際、 確率変数xの分布が平均、 標準偏差 
n
を
も つこ と がわかっ た。 こ のこ と に、
チェ ビ シェ フ の不等式を 適用する と 、
  1

Pr  x-   k
  k2
n

kがど んなに大き く ても 、
nを 十分大き く と る こ と によ り 、
上のこ と がわかる 。
中心極限定理を
使っても同じこと
がいえる。
大数(たいすう)の法則(補)


黒と白の球が入った壺から繰り返し球を1個取り出
し、球の色を記録してから戻し、中身をかき混ぜた
あと、また球を取り出す。これをN回繰り返し、取り
出した球が黒である割合(相対頻度、標本比率)が
壺の中の黒い球の割合(母比率)からわずかな誤
差e以内である確率はいくらか?Nを大きくすれば
誤差eをいくらでも小さくすることができる。このこと
を示したのは、ジャック・ベルヌーイ(1713)。
「大数の法則」(Law of Large Numbers)という
名前をつけ、より一般的なケースで証明したのは、
シメオン・ドゥニ・ポアソン(1837)。
正規分布と
<正規分布を売り歩いた男>ケトレー
ケトレー 1796-1874
正規分布とケトレー(続)


特定の人間集団(たとえば、イギリス人とか
日本人とか)について、典型的な「平均人
(the average man)」を構想し、集団をそ
の諸特性の平均により記述できると考えた。
その際、個人差は、正規分布(誤差曲線)に
沿った誤差のようなものとされた。
最近、ケトレーの構想したBMI指数(ボ
ディー・マス・インデックス= 「体重(kg)÷
身長(m)の2乗)」 )が話題になっている。
BMI指数(ケトレー指数)の話題



マドリード・ファッションショー:やせ過ぎモデル、5人が「失
格」
「少女らに誤ったメッセージを送る」としてやせ過ぎたファッ
ションモデルの出場を禁じたマドリード・ファッションショーが1
8日、開幕した。17日に行われた事前の身体測定では、モデ
ル68人中5人が規定値に達せず出場禁止となった。イタリ
ア・ミラノのファッションショーも規定導入の動きをみせるなど
波紋が広がっている。
マドリード・ファッションショー主催者によると、身体測定は
「ボディーマス指数(BMI=体重を身長の2乗で割った比率)
が18以上」とする拒食症防止のための地域規定に基づいて
実施された。「失格」は5人だったが、前年出場者の約30%
が事前の測定さえ許可されなかったという。
毎日新聞 2006年9月19日 東京朝刊
ファッション・モデルとBMI指数

拒食症のモデル死去、174センチで40キロ ブラジル

ブラジル・サンパウロ市内の病院で14日、女性ファッション
モデルのアナ・カロリナ・ヘストンさん(21)が栄養失調による
感染症で死亡した。ヘストンさんは拒食症で、174センチの
身長に対し、体重はわずか40キロだった。体重を身長の2乗
で割った体格指数(BMI)では18.5未満が「やせている」と
されるが、ヘストンさんは13.2だった。
9月には「やせ過ぎモデルは過度のダイエットや拒食症を助
長する」として、マドリードのファッションショーで複数のモデル
が不採用となったばかり。世界的にやせ過ぎ問題が注目され
始めている中、ヘストンさんの死はファッション界に大きな波
紋を広げそうだ。( 2006年11月17日16時23分 時事)

正規分布(キー・ポイント)

正規分布表を使うためには、標準化する必要
がある。
x
z

1
f ( z) 
e
2

中心極限定理が重要。
z2

2
区間推定とは何をやるのか?(1)


「標本分布」=標本統計量(標本平均とか標本分散と
か、標本の関数である確率変数)の分布がキー。
中心極限定理によって、標本サイズ大の場合、
x
N (, 2 / n)
であることから
Pr( 1.96 
x 

n
 1.96)  0.95
区間推定とは何をやるのか?(2)

この式をかきかえて
Pr( x  1.96


n
   x  1.96

n
)  0.95
このように作られた区間を「信頼区間」という。
信頼区間の意味
練習問題
[問]ある交差点を通過する車のスピード(時
速)を調べたところ、ほぼ正規分布にした
がっており、平均50km、標準偏差は18km
であった。制限速度が40km のとき、何%
の車がスピード違反をしていると考えられる
か。
練習問題
[問]ある集団のBMIが正規分布すること、ま
たその標準偏差が1.00であることがわかっ
ているとする。その集団から、100人のサン
プルをとり、そのBMIの平均値が19.20で
あったとする。母集団のBMIの平均につい
て、信頼度95%で区間推定をしなさい。
[問]その集団でBMIが18.00未満の人の割
合はどのくらいか?
解答
次式により、(95%)信頼区間をつくる。
Pr( x  1.96

n
   x  1.96

n
)  0.95
1.00
19.20
10
99%信頼区間なら?
この区間推定の問題



母集団の標準偏差(σ)が既知であることが前提されてしまっ
ている。
標本の標準偏差(s)はわかっているだろうが、母集団の標準
偏差はわかっていないのがむしろ普通の状況だろう。
その場合につかわれるのがt分布。次の確率変数tは、自由
度n-1のt分布に従う。
x 
t
s/ n
標本標準偏差Sは、n-1で割る式による。nで割るS*だと、
x 
t
s * / n 1
正規分布とt分布




t分布の発見者は、ウィリアム・ゴセット。ゴセットは、
ギネス・ビールの技術者だったので、会社の立場を
考えて、“Student”というペンネームで論文を発表
していたから、t分布のことをStudentのt分布とも
呼ぶ。
t分布には、自由度というパラメーターがある。
自由度を無限大にすると、t分布は、正規分布に一
致する。
したがって、サンプルが大きければ、σ未知でも、標
本sで代用正規分布を使ってよいことになる。
t分布と正規分布の比較
0.45
0.4
0.35
0.3
norm
f(x,5)
f(x,10)
f(x,15)
0.25
0.2
0.15
0.1
0.05
0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
標本から母集団を推測する2――失業率



標本の比率(割合)で母集団の対応する比
率(割合)を推定しようとする典型例。
完全失業者数/労働力人口が完全失業率。
完全失業率の数字の見方を考えるには、概
念がどうなっているか(「完全失業者」とは何
か、「労働力人口」とは何か)を知る必要が
ある。また、統計的推測そのものについての
理解(誤差への理解)が必要。
最近の失業率
2007年11月30日付け
『日本経済新聞』夕刊
最近の失業率


雇用改善は足
踏み。
正社員の有効
求人倍率はか
なり低い。
職業安定業務統計




職業安定業務統計(一般職業紹介状況)は全国の公
共職業安定所(ハローワーク)における職業紹介業務
の実績を集計した業務統計である。
求人倍率・・・ 「有効求人倍率」と「新規求人倍率」と
がある。1人の求職者に対してどれだけの求人があ
るかを示す指標である。
有効求人倍率=有効求人数/有効求職者数 (倍)
新規求人倍率=新規求人数/新規求職者数 (倍)
「有効」とは? 求人・求職票は、原則として翌々月末
まで有効。
去年の「完全失業率」の報道
『日本経済新聞』
2006年12月1日付
夕刊
労働力調査について
1. 調査の目的・沿革
国民の「就業及び不就業の状態」(就業状態)を明らかに
することを目的とし、昭和21年9月以降毎月実施している。
2 調査対象
全国全世帯の中から、無作為に選定した約4万世帯に居
住する15歳以上の者約10万人
3.調査の期日
毎月末日現在で、月末1週間における就業・不就業の状
態を調査する(12月は20日から26日までの1週間)
4.調査の方法
調査員が対象世帯に調査票を配布し、世帯がこれに記入、
再び調査員が調査票を取集する。
労働力調査について
(就業状態の諸概念)
就業状態の区分
────── 調査でのとらえ方 ───────
───── 結果表の表し方 ─────
┌ 主に仕事
┐
│
│
├ 通学のかたわらに仕事
┼………………従業者 ┐
│
│
│
├ 家事などのかたわらに仕事 ┘
│
│
│
│
├ 就業者 ┐
調査期間中に少し ┤
│
│
でも仕事をしたか │
│
│
│
│
├ 労働力人口 ┐
│
┌ 仕事を休んでいた ……
休業者 ┘
│
│
│
│
│
│
│
├ 仕事を探していた ……………
完全失業者
┘
├15歳以上人口
│
│
│
└ 仕事をしなかった ┼ 通学
┐
│
│
│
│
├ 家事
┼ …………………… …非労働力人口 ┘
│
│
└ その他(高齢者など) ┘
労働力調査の用語(1)
<就業状態> 15歳以上人口について,調査週間中の活動状態
に基づいて次のように区分している。
 労働力人口:15歳以上人口のうち,就業者と完全失業者を合わ
せたもの
 就 業 者 :従業者と休業者を合わせたもの
 従 業 者:調査週間中に賃金,給料,諸手当,内職収入などの
収入を伴う仕事(以下「仕事」という。)を 1時間以上した者。な
お,家族従業者の場合は,無給であっても仕事をしたとする。
 休 業 者:仕事を持ちながら,調査週間中少しも仕事をしな
かった者のうち,1)雇用者で,給料,賃金の支払いを受けてい
る者又は受けることになっている者 2)自営業主で,自分の経
営する事業を持ったままで,その仕事を休み始めてから30日に
ならない者。なお,家族従業者で調査期間中に少しも仕事をしな
かった者は休業に含めず,完全失業者又は非労働力人口のい
ずれかとしている。
労働力調査の用語(2)
完全失業者:次の3つの条件を満たす者

1)仕事がなくて調査週間中に少しも仕事をしな
失業の3条件(ILO)
かった(就業者ではない)

2)仕事があればすぐ就くことができる
①without
work

3)調査期間中に,仕事を探す活動や事業を始め
る準備をしていた(過去の求職活動の結果を待ってい
②seeking
work
る場合を含む)
available for work
 ③currently
非労働力人口:15歳以上人口で上記以外の者
 労働力人口比率:15歳以上人口に占める労働力人
口の割合 =(労働力人口÷15歳以上人口)×100
 完全失業率:労働力人口に占める完全失業者の割
合 =(完全失業者÷労働力人口)×100

就業状態の調べ方
労働力(actual)方式
短い調査期間を限定し、その期間で就業状態を決
定する。「月末1週間で少しでも仕事をしました
か?」……労働力調査、国勢調査
 有業者(usual)方式
期間を限定せず、ふだんの状態で就業状態を決定
する「あなたはふだん収入になる仕事をしています
か?」……就業構造基本調査

労働力調査の結果の公表
・公表期日…………………原則として調査
月の翌月末
・結果の刊行時期
労働力調査速報………公表時
労働力調査月報………翌々月の下旬
労働力調査年報………翌年3月
労働・雇用に関する他の月次統計
・世帯を通じて調査するもの…………………
労働力調査(総務省)
・事業所を通じて調査するもの………………
毎月勤労統計調査(厚生労働省)
・業務統計によるもの…………………………
職業安定業務統計(厚生労働省)
労働力調査の調査票
労働力調査の調査票(続)
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)



誤差には、標本誤差と非標本誤差とがある。
非標本誤差は、たとえば、誤記、集計ミス
等々であったり、統計環境の問題であったり
する。
標本誤差は、標本をとって調査することによ
り発生する誤差であるが、確率分布に関す
る知識を使ってコントロールすることができ
る。
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)




実際にはそうではないが、単純無作為標本抽出
(*)を行なって、労働力人口7万人のサンプルを得
たとしよう。
そのサンプルに含まれる失業者数は、「失業」を「成
功」と見た場合の「二項変数」。
「失業率」は、s/n。
サンプルが大きければ、失業率p=s/nは、平均π、
分散π(1-π)/nの正規分布をする。
(*)実際は、層化二段抽出。
二項分布の期待値・分散(復習)
二項変数sは、ゼロワン変数の和であることに
注意する。すなわち、πを成功確率とすると、
n
s   xi
i 1
E ( xi )  0  (1   )  1   
V ( xi )  (0   ) 2  (1   )  (1   )     (1   )
 E ( s )  n
V ( s )  n (1   )
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)
p 
z
N (0,1)
 (1   )
n
Pr(1.96  z  1.96)  95%
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)
p(1  p)
p(1  p)
p  1.96
   p  1.96
n
n
P=0.040, n=70,000として±0.00145
の誤差を見ておけば、95%の割合で(100回
の内95回は)正しい推定になる。
0.03855
0.040
0.04145
失業率の数字には誤差はどのくらいある
のか?(単純化された計算)



信頼区間の幅には、nが大きく影響する。
以上の結果から見て、4.0%でなく、4.00%
と発表する(もう一桁余計に発表する)こと
はできそうもないことがわかる。
都道府県別失業率のように、サンプルが小
さい場合、その数字の利用には注意が必要
である。
謝辞
池の魚の数を数える例は、清水誠著『推測統計
はじめの一歩』(講談社ブルーバックス、2000年)
のものを使わせていただきました。
 信頼区間の図示は、T.H.ウォナコット/R.J.ウォナ
コット著、国府田恒夫/田中一盛/細谷雄三訳『統計
学序説』(培風館、1978年)のものです。
 総務省統計局のホームページ
http://www.stat.go.jp
に掲載されているいくつかの素材をつかわせていた
だきました。
