2001年度 経済統計処理講義内容

第1章 統計学の準備
ー 計量経済学 ー
第1節 平均値と分散
1 平均値と分散
2 度数分布表
3 ヒストグラムと折れ線グラフ
第2節 確率分布
1 確率分布
2 正規分布
(1) 正規分布
(2) 正規分布の応用例
3 t分布
(1) t分布
(2) t分布の応用
4 検定
(1) 検定
(2) 検定の方法
第1節 平均値と分散
1. 平均値と分散
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入
50000
65000
72000
61000
63000
59000
67000
58000
83000
67000
73000
62000
57000
45000
78000
• 学生15人の1ヶ月のアルバ
イト収入のデータ
• 15人の集団を代表する値
を求めたい
• 代表する値として平均値(
算術平均)が考えられる
• 平均値 = 合計 ÷ 個数
x A  xB    xO
x
n
50000  65000    78000

15
 96000015  64000
教員A
• チャイムの5分後に必ず教室
にくる。
教員B
• チャイムと同時に教室にくるこ
ともあれば、10分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
•
→ばらつきの尺度の必要性
ばらつきの尺度として、分散や標準偏差などがある。
分散 = 偏差2乗和 ÷ 個数
偏差2乗和とは、個々の値から平均を引き(これを偏差という)、
その2乗し、合計したもの
( x A  x ) 2  ( xB  x ) 2    ( xO  x ) 2
 
n
2
(50000  64000) 2  (65000  64000) 2    (78000  64000) 2

15
(14000) 2  (1000) 2    (14000) 2

15
196000000  1000000    196000000

15
 140200000015≒93000000
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入 偏差
偏差2乗
50000
-14000 196000000
65000
1000
1000000
72000
8000
64000000
61000
-3000
9000000
63000
-1000
1000000
59000
-5000
25000000
67000
3000
9000000
58000
-6000
36000000
83000
19000 361000000
67000
3000
9000000
73000
9000
81000000
62000
-2000
4000000
57000
-7000
49000000
45000
-19000 361000000
78000
14000 196000000
算術平均64000を引く
2乗する
合計
偏差2乗和 1402000000
分散
93466666.7
データ数15で割る
• 標準偏差 → 分散の平方根
  2
 93000000≒9644
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
xA 
4.5  5.3  4.8  5  5.5  4.7  5.2  4.8  4.9  5.3 50

5
10
10
(4.5  5) 2  (5.3  5) 2  (4.8  5) 2  (5  5) 2  (5.5  5) 2  (4.7  5) 2  (5.2  5) 2  (4.8  5) 2  (4.9  5) 2  (5.3  5) 2
 
10
2
2
2
2
2
2
2
(0.5)  (0.3)  (0.2)  (0)  (0.5)  (0.3)  (0.2)  (0.2) 2  (0.1) 2  (0.3) 2

10
0.25  0.09  0.04  0  0.25  0.09  0.04  0.04  0.01 0.09

10
0.9

 0.09
10
2
A
 A  0.09  0.3
教員B
0  6  4  5  11  4  8  5  1  6 50
xB 

5
10
10
(0  5) 2  (6  5) 2  (4  5) 2  (5  5) 2  (11 5) 2  (4  5) 2  (8  5) 2  (5  5) 2  (1  5) 2  (6  5) 2
 
10
(5) 2  (1) 2  (1) 2  (0) 2  (6) 2  (1) 2  (3) 2  (0) 2  (4) 2  (1) 2

10
25  1  1  0  36  1  9  0  16  1

10
90

9
10
2
B
A  9 3
 A2   B2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差も  A   B である。
2.度数分布表
i
1
2
:
m
合計
階級
下限
上限
c1
c2
c2
c3
cm
-
cm +1
階級値
度数
相対度数
y1
y2
f1
f2
f1/n
f2/n
ym
fm
n
fm /n
1
• データをいくつかの階級に分け、その階級に含ま
れるデータがいくつあるかを表にまとめたもの
– 階級値 - その階級を代表する値。階級の上限と下
限をたして2で割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級
の度数の占める割合
<度数分布表からの算術平均、分散の導出>
• 度数分布表にまとめられたデータについて、算術平均と分散
を求めることができる。(個々のデータが入手できず、度数分
布表のみ入手できた場合に、この方法を使う。)
階級値
y1
y2
…
ym
度数
f1
f2
…
fm
• 上のような度数分布表があったとする。
このとき、
算術平均=(度数×階級値)の総和÷度数の総和
として求められる。
m
f y  f 2 y2    f m ym
y 1 1

f1  f 2    f m
fy
i 1
m
i
f
i 1
i
i
分散={(階級値-算術平均)2×度数}の総和÷度数の総和
として求められる。
m
f1 ( y1  y ) 2  f 2 ( y2  y ) 2    f m ( ym  y ) 2
 

f1  f 2    f m
2

i 1
f i ( yi  y ) 2
m
f
i 1
i
計算のためには、
m
s 
2
fy
i 1
m
i
f
i 1
2
i
 y2
i
これらの算術平均と分散は原データから求めた算術平均と分
散の近似値となる。
階級値 度数
47000
52000
57000
62000
67000
72000
77000
82000
計
この度数分布表から、平均値と分散を求めてみる。
1
1
3
1 47000 1 52000 3  57000 3  62000 3  67000 2  72000 1 77000 1 82000
y

3
11 3  3  3  2 11
3
47000 52000 171000 186000 201000 144000 77000 82000
2 
15
1
960000
1  15  64000
15
 2  {1 (47000 64000) 2  1 (52000 64000) 2  3  (57000 64000) 2  3  (62000 64000) 2
 3  (67000 64000) 2  2  (72000 64000) 2  1 (77000 64000) 2  1 (82000 64000) 2 }
 (1  1  3  3  3  2  1  1)
1 (17000) 2  1 (12000) 2  3  (7000) 2  3  (2000) 2  3  (3000) 2  2  (8000) 2  1 (13000) 2  1 (18000) 2

15
289000000 144000000 147000000 12000000 27000000 128000000 169000000 324000000

15
1240000000

 82666666.666
15
元のデータから計算した値とは多少異なるが、近似値となる。
3.ヒストグラムと折れ線グラフ
度数
学生のアルバイト収入
3.5
3
2.5
2
1.5
1
0.5
0
47000 52000 57000 62000 67000 72000 77000 82000
階級値
• 度数分布表を棒グラフで表したもの
† ただし、棒どうしの間隔をつめて表す(階級は連続しているため)
• ヒストグラムにおいて縦軸に相対度数をとれば、全体の面積
が1のヒストグラムとなる。
• このヒストグラムにおいて、ある範囲(例えば55000円以上
65,000円未満)の割合を求めたい場合、対応する棒の面積が
この割合となる。
第2節 確率分布
1.確率分布
• 確率変数 - とりうる値のそれぞれに対し、ある一
定の確率が対応しているような変数のこと
• 確率分布 - 確率変数のとりうる値と、確率との対
応関係
<確率変数の例>
• サイコロをふったとき、出た目をxとすると、xは
1,2,3,4,5,6をある確率でとりうる。
• サイコロがどの目も同様に出るなら、それぞれには
いう確率が対応する。
1
6
と
† しかし、6回サイコロを振ってもすべての目が出るとは限らない。サイコロを
振る回数を多くすれば、その回数は
x
P(x)
1
1
6
2
1
6
1
6
に近づく。
3
1
6
4
1
6
5
1
6
6
1
6
<確率分布の実験>
• サイコロを10回振り、1の目が出た回数をxとする。
• このxは0,1,2,…,10の値をある確率でとりうるので、確率
変数である。
• この実験を100回繰り返す。
• 理論上は次のような確率分布となる。
x
確率
0
0.1615
1
0.323
2
0.2907
3
0.155
4
0.0543
5
0.013
6
0.0022
7
0.0002
8
2E-05
9
8E-07
10
2E-08
• しかし、実際に100回実験をおこなった(コンピュータの乱
数を用いる)ときの相対度数は、この理論値に一致する
わけではない。
一度の実験結果≠理論値
• ただし、実験の回数を増やせば、理論上の値に近づく。
• 1回の実験においてサイコロを振る回数を20回、
50回と増やしてみる。
⇒ ヒストグラムは正規分布に近づく
☆ やってみよう
ex1-1
2.正規分布
(1) 正規分布
18
36
25
14
7
0
0
0
0
0
0
100
相対度数
0.18
0.36
0.25
0.14
0.07
0
0
0
0
0
0
サイコロを10回振る実験
相対度数
1が出た回数 度数
0
1
2
3
4
5
6
7
8
9
10
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
6
7
1の目が出た回数
8
9
10
• サイコロを10回振る実験で1の目が1回以下しか出なかっ
た割合(確率)は?
0.18 + 0.36 = 0.54
グラフでは0と1の棒の面積を加えたもの
• 1回の実験でサイコロを振る回数を20回、50回、
•
•
100回…と増やすと、xのとりうる値が多くなり、ヒ
ストグラムの横軸は細くなっていく。
実験回数を無限に増やすと、反対に棒の太さは
無限に細くなっていく
棒の面積の和 → 下図のような範囲の面積
• サイコロを振る回数を多くしたとき、1の目
が出る回数の分布は正規分布に近づく。
確率
正規分布の形状
x
算術平均
(期待値)
<正規分布の形状>
正規分布は平均値を中心とする左右対称のつりがね型の分
布であり、平均μ、分散σ2の値によって、中心の位置や山の
高さが変わってくる。
※ 平均の異なる正規分布
σ=1の正規分布
0.5
μ=0
μ=3
μ=-4
0.4
0.3
0.2
0.1
0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
※ 分散の異なる正規分布
μ=0の正規分布
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
σ=1
σ=2
σ=1/2
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
<正規分布と確率>
• xの分布が正規分布となるとき、たとえば
12  x  14
となる確率を求める場合、それに対応する部分の
面積を求める。
⇒ 正規分布の平均、分散が異なるとき、どうやっ
て面積を求めれば良い?
<標準化と標準正規分布>
• 平均、分散の異なる正規分布について、
•
•
z
x
という
変換をおこなうと、zは平均0、分散1の正規分布(標準正
規分布)となる。
このような変換を標準化という。
標準化された変数の、標準正規分布における面積が求
める確率となる。
標準化
→
☆ やってみよう
ex1-2

<標準正規分布表>
• 標準正規分布から確率を求めるときは、標
準正規分布表(34ページ)から求める。
• この表はその部分から下側の面積(確率)
をあらわしたものである。
• 引き算や反転を用いることによってさまざ
まな確率が求められる。
(2) 正規分布の応用例
母集団(M大学の学生500人)
×
×
×
×
標本1(50人)
64000円
×
×
×
×
×
×
×
×
• M大学の学生500人の中
から、ランダムに50人を選
んでアルバイト収入を調べ、
その平均値を求める。
50人を選ぶたびにその平均
値は変わってくる。
×
×
×
×
×
×
標本2(50人)
73000円
標本3(50人)
56000円
標本4(50人)
62000円
標本5(50人)
68000円
<鳩山内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日1054人)
71%
×
×
×
×
×
×
×
×
2009年9月18日付の朝刊各
紙に掲載された鳩山内閣支
持率を見ると、異なった結果
になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1087人)
75%
標本3(毎日1014人)
77%
標本4(日経857人)
75%
標本5(共同1032人)
72%
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
母平均μ
母分散σ2
母数θ
推論
標本平均x
標本分散s2
標本統計量t
標本統計量から母数を推論する(たとえば標本平均から
母平均を推論)のであるが、たまたま選ばれた標本の標
本統計量が母数と一致することはほとんどない。
しかし、大きく外れた値をとるわけでもない。
標本平均と母平均の関係を考えるために、次のような数値例
で考えてみる。
個体数6の母集団から個体数2の標本を抜き出し、個々の標
本について標本平均を計算する。
母集団(固体数 6)
標本(個体数 2)
A=2
B=4
×
A=2
B=4
C=2
D=5
E=3
F=8
A=2
C=2
×
×
母平均 μ=4
母分散 σ2=4.3333
標本平均 x  3
標本平均 x  2
母集団
A
B
C
D
E
F
x1
2
4
2
5
3
8
A
A
A
A
A
B
B
B
B
C
C
C
D
D
E
B
C
D
E
F
C
D
E
F
D
E
F
E
F
F
x2
2
2
2
2
2
4
4
4
4
2
2
2
5
5
3
4
2
5
3
8
2
5
3
8
5
3
8
3
8
8
標本平均
3
2
3.5
2.5
5
3
4.5
3.5
6
3.5
2.5
5
4
6.5
5.5
ケース
E(Xbar)
V (Xbar)
15
4
1.733333
E(x)  
N n 2
V (x) 
N 1 n
とりうるすべての標本について、標本平均を計算してみ
る。
その標本平均の平均を考えると、母平均に一致する。
<標本平均の分散>
• 標本平均の分散は
となる。
• 全国規模の統計調査などを考えた場合、母集団の大
N n 2
V (x) 
N 1 n
N n
N 1
•
きさNは非常に大きいので、
は1に近くなり、 V ( x ) 
とみなせる。
視聴率調査の場合、関東地区1580万世帯から600世
帯を選ぶので
N  n 15800000  600

 0.999962
N 1
15800000  1
2
n
<標本平均の分布>
• 標本平均 x の平均は母平均μに等しく、分散は
2
となる。
n
• 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n
の標本の平均 x の分布は、母集団の分布がどのような
2
ものであっても、 n が大きくなるとき、正規分布 N(μ, n )
に近づく。
→ 中心極限定理
•
x
標準化された変数 z 
が標準正規分布にしたがう。
 n
† 厳密に言えば、母集団の分布が正規分布の場合には、nの大きさにかかわ
らず、標本平均 x の分布は正規分布 N(μ, )にしたがう。
2
n
⇒ 正規分布の再生性
<中心極限定理の直感的解釈>
• 標本平均を考えると、大体母平均の近くになる。
• 母平均から遠く離れたところに標本平均が出るこ
とはあまり多くない。
• では、どの程度の区間を考えれば、その中に標
本平均が入るのであろうか。
⇒ 信頼区間
<信頼区間>
• 母平均のまわり
に標本平均の95%が含まれる。
n


( x  1.96
, x  1.96 )
• 標本平均を中心に考えると、
n
n の範囲に
 1.96
•

母平均が含まれる可能性が高い。
これをμの95%信頼区間という。
とりうるすべての標本の標本
平均 x の95%がこの区間
に含まれる
  1.96

n
x  1.96
μ
  1.96

×
x
n

n
反対に、標本平均をもとに、
x  1.96

x  1.96
n

n
という区間を考えると、そのう
×
×
×
ち95%は母平均を区間内に
含む
3.t分布
(1) t分布
母集団(大きさ N) 標本(大きさ n)
× ×
×
× ×
×
×
× ×
x
標本平均
× × ×
標本分散 s2
母平均 μ
母分散 σ2
信頼区間を求める場合、通常の標本調査では知るこ
とのできない、母分散σ2が必要となる。
• 母分散σ2がわからないとき、標本分散s2を用いる。
• このとき、 t  x   が自由度n-1のt分布にしたがう。
s / n 1
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
t分布は正規分布同様、左右対称のつりがね形の分布で、
正規分布を上からつぶしたような形になっている。
(2) t分布の応用
• 母集団の分散が分からないとき、母平均μの
95%信頼区間は、t分布の95%点をt0.95とあらわ
すと、
( x  t0.95
s
s
, x  t0.95
)
n 1
n 1
となる。
より正確には、母集団の分布が正規分布にしたがうとき、 t 
x
s / n 1
が自由度n-1のt分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
x   は近似的に自由度n-1
大きさがある程度大きければ、
t
のt分布にしたがうとみなせる。
s / n 1
4.検定
(1) 検定
• 視聴率について、区間推定をおこなうことができる。
• しかし、関心があるのは「20%を超えたか?否か?」
• この問題に答えるだけのために、いちいち信頼区間
を構成するのは大変である。そこで、
H0: 視聴率が20%を超えた
H1: 視聴率が20%を超えない
という二者択一の仮説を考え、標本の情報によってい
ずれか一方の仮説を採択する。
• 検定仮説(H0) 検定したい状況を表したもの。否定さ
•
れることを目的とした仮説の設定をおこなうことがあ
るので、帰無仮説といわれることもある。
対立仮説(H1) 検定仮説と反対の状況をあらわした
もの。
検定仮説と対立仮説は、同時に成り立つことはなく、
その2つですべての状況をあらわしている。
<2種類の誤り>
• 仮説検定には2種類の誤りがある。
H0を採択
(逮捕)
H1を採択
(不逮捕)
H0が真
(真犯人)
正
取り逃がし
(第1種の誤り)
H1が真
(無実)
誤逮捕
(第2種の誤り)
正
• 理想的な仮説検定は第1種の誤りと第2種の誤りがともに小さく
•
なるような検定であるが、これらはトレードオフの関係である。
通常は第1種の誤りを0.05などの一定の小さな値(有意水準と
いう)以下におさえた検定をおこなう。
<仮説検定の手順>
• 仮説検定は次のような手順をとる。
<ステップ1>
<ステップ2>
<ステップ3>
仮説の設定
仮説検定に適当な統計量を選ぶ
検定仮説の採択域と棄却域を設定する
統計量が
採択域
<ステップ4>
H0を採択
統計量が
棄却域
H1を採択
(2) 検定の方法
• 仮説検定では、まず検定仮説が正しいと思ってみる。
• たとえばH0: μ=70 vs. H1: μ≠70 という仮説検定をおこなう場
x
合、 は平均70の分布にしたがうと仮定する。
x を標準化したzの分布は標準正規分布となる。(母分散が
分からない場合は、t分布で考える)
zの分布
x の分布
50
60
70
80
90
5
4.5
4
3.5
3
2.5
0
2
-3
0.01
1.5
0.02
1
0.03
0.5
→
0.04
0
0.05
-0.5
標準化
0.06
-1
0.07
-1.5
0.08
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-2
0.09
-2.5
•
の分布
zの分布
50
60
70
80
90
• たとえば、 x =75という標本平均を得たとする。
•

n
=5であったなら、 z 
x   75  70

1
5
 n
となるので、そのよう
な標本が得られる可能性は十分にあるといえる。
⇒ H0が正しいという仮定は適切であったと考える。
⇒ 検定仮説を採択
5
4.5
4
3.5
3
2.5
0
2
-3
0.01
1.5
0.02
1
0.03
0.5
→
0.04
0
0.05
-0.5
標準化
0.06
-1
0.07
-1.5
0.08
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-2
0.09
-2.5
x
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
zがここだったら検定仮
説を棄却し、対立仮説
を採択する。
• もし、z=2.4という結果が出たなら、どのように考えれば良
•
いのであろうか。
この場合、 H0が正しいという仮定は適切ではなかったと考
える。母平均は他の値(たとえばμ=85)から得られた標本
と考える。
⇒ 検定仮説を棄却し、対立仮説を採択
• 採択域と棄却域は次のように設定される。
棄却域
採択域
棄却域
• 判定の境界値はそれぞれの統計量の分布による。
• 統計量の分布が標準正規分布には、-1.96と1.96の間に入
れば採択域、それ以外が棄却域となる。
• t分布の場合にはt分布表において得られたt0.95の値を用い
て、- t0.95 とt0.95の間に入れば採択域、それ以外が棄却域と
なる。
(自由度9であれば、t0.95=2.262なので、 -2.262と2.262の間に入れば採
択域、それ以外が棄却域となる。)
† 棄却域が採択域の片側となる片側検定も考えられるが、ここでは、説明
を省略する。