2001年度 経済統計処理講義内容

第1章 統計学の準備
ー 計量経済学 ー
第1節 平均値と分散
1 平均値と分散
2 度数分布表
3 ヒストグラムと折れ線グラフ
第2節 確率分布
1 確率分布
2 正規分布
(1) 正規分布
(2) 正規分布の応用例
3 t分布
(1) t分布
(2) t分布の応用
4 検定
(1) 検定
(2) 検定の方法
第1節 平均値と分散
1. 平均値と分散
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入
50000
65000
72000
61000
63000
59000
67000
58000
83000
67000
73000
62000
57000
45000
78000
• 学生15人の1ヶ月のアルバ
イト収入のデータ
• 15人の集団を代表する値
を求めたい
• 代表する値として平均値(
算術平均)が考えられる
• 平均値 = 合計 ÷ 個数
x A  xB    xO
x
n
50000  65000    78000

15
 96000015  64000
• 教員A チャイムの5分後に必ず教室にくる。
• 教員B チャイムと同時に教室にくることもあれば、
15分以上遅れることもある。
• 2人の教員はともに平均してチャイムの5分後に
教室にくる。
• 集団の特徴を記述するために、平均値だけで十
分であろうか?
⇒ ばらつきの指標の必要性
分散 = 偏差2乗和 ÷ 個数
偏差2乗和とは、ここの値から平均を引き(これを偏差という)、
その2乗し、合計したもの
( x A  x ) 2  ( xB  x ) 2    ( xO  x ) 2
 
n
2
(50000  64000) 2  (65000  64000) 2    (78000  64000) 2

15
(14000) 2  (1000) 2    (14000) 2

15
196000000  1000000    196000000

15
 140200000015≒93000000
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入 偏差
偏差2乗
50000
-14000 196000000
65000
1000
1000000
72000
8000
64000000
61000
-3000
9000000
63000
-1000
1000000
59000
-5000
25000000
67000
3000
9000000
58000
-6000
36000000
83000
19000 361000000
67000
3000
9000000
73000
9000
81000000
62000
-2000
4000000
57000
-7000
49000000
45000
-19000 361000000
78000
14000 196000000
偏差2乗和 1402000000
分散
93466666.7
• 標準偏差 → 分散の平方根
  2
 93000000
≒9644
2.度数分布表
i
1
2
:
m
合計
階級
下限
上限
c1
c2
c2
c3
cm
-
cm +1
階級値
度数
相対度数
y1
y2
f1
f2
f1/n
f2/n
ym
fm
n
fm /n
1
• データをいくつかの階級に分け、その階級に含ま
れるデータがいくつあるかを表にまとめたもの
– 階級値 - その階級を代表する値。階級の上限と下
限をたして2で割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級
の度数の占める割合
3.ヒストグラムと折れ線グラフ
度数
学生のアルバイト収入
3.5
3
2.5
2
1.5
1
0.5
0
47000 52000 57000 62000 67000 72000 77000 82000
階級値
• 度数分布表を棒グラフで表したもの
† ただし、棒どうしの間隔をつめて表す(階級は連続してい
るため)
• ヒストグラムにおいて縦軸に相対度数をとれば、
•
全体の面積が1のヒストグラムとなる。
このヒストグラムにおいて、ある範囲(例えば
55000円以上65,000円未満)の割合を求めたい
場合、対応する棒の面積がこの割合となる。
第2節 確率分布
1.確率分布
• 確率変数 - とりうる値のそれぞれに対し、ある一
定の確率が対応しているような変数のこと
• 確率分布 - 確率変数のとりうる値と、確率との対
応関係
<確率変数の例>
• サイコロをふったとき、出た目をxとすると、
xは1,2,3,4,5,6をある確率でとりうる。
• サイコロがどの目も同様に出るなら、それ
1
ぞれには
6
という確率が対応する。
† しかし、6回サイコロを振ってもすべての目が出るとは限らない。サイ
コロを振る回数を多くすれば、その回数は
1
6
に近づく。
<確率分布の実験>
• サイコロを10回振り、1の目が出た回数をxとする。
• このxは1,2,…,10の値をある確率でとりうるので、
•
•
x
確率
確率変数である。
この実験を100回繰り返す。
理論上は次のような確率分布となる。
0
0.1615
1
0.323
2
0.2907
3
0.155
4
0.0543
5
0.013
6
0.0022
7
0.0002
8
2E-05
9
8E-07
10
2E-08
• 100回実験をおこなったときの、相対度数を調べ
•
•
てみる。
サイコロを実際に振るかわりに、コンピュータの
乱数を使った実験をおこなう。
1の目が出る回数の相対度数のヒストグラムを描
いてみる。
理論≠実験結果
• 実験の回数を増やせば、理論上の値に近づく。
• 1回の実験においてサイコロを振る回数を20回、
50回と増やしてみる。
⇒ ヒストグラムは正規分布に近づく
☆ やってみよう
ex1-1
2.正規分布
(1) 正規分布
18
36
25
14
7
0
0
0
0
0
0
100
相対度数
0.18
0.36
0.25
0.14
0.07
0
0
0
0
0
0
サイコロを10回振る実験
相対度数
1が出た回数 度数
0
1
2
3
4
5
6
7
8
9
10
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
6
7
1の目が出た回数
8
9
10
• サイコロを10回振る実験で1の目が1回以下しか出なかっ
た割合(確率)は?
0.18 + 0.36 = 0.54
グラフでは0と1の棒の面積を加えたもの
• 1回の実験でサイコロを振る回数を20回、50回、
•
•
100回…と増やすと、xのとりうる値が多くなり、ヒ
ストグラムの横軸は細くなっていく。
実験回数を無限に増やすと、反対に棒の太さは
無限に細くなっていく
棒の面積の和 → 下図のような範囲の面積
• サイコロを振る回数を多くしたとき、1の目
が出る回数の分布は正規分布に近づく。
確率
正規分布の形状
x
<正規分布の形状>
正規分布は平均値を中心とする左右対称のつりがね型の分
布であり、平均μ、分散σ2の値によって、中心の位置や山の
高さが変わってくる。
※ 平均の異なる正規分布
σ=1の正規分布
0.5
μ=0
μ=3
μ=-4
0.4
0.3
0.2
0.1
0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
※ 分散の異なる正規分布
μ=0の正規分布
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
σ=1
σ=2
σ=1/2
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
<正規分布と確率>
• xの分布が正規分布となるとき、たとえば
12  x  14
となる確率を求める場合、それに対応する部分の
面積を求める。
⇒ 正規分布の平均、分散が異なるとき、どうやっ
て面積を求めれば良い?
<標準化と標準正規分布>
• 平均、分散の異なる正規分布について、
•
•
z
x
という
変換をおこなうと、zは平均0、分散1の正規分布(標準正
規分布)となる。
このような変換を標準化という。
標準化された変数の、標準正規分布における面積が求
める確率となる。
標準化
→
☆ やってみよう
ex1-2

<標準正規分布表>
• 標準正規分布から確率を求めるときは、標
準正規分布表(34ページ)から求める。
• この表はその部分から下側の面積(確率)
をあらわしたものである。
• 引き算や反転を用いることによってさまざ
まな確率が求められる。
(2) 正規分布の応用例
• M大学の学生500人の中から、ランダムに50人を
選んでアルバイト収入を調べ、その平均値を求
める。
1回目 64000円
2回目 73000円
3回目 56000円
50人を選ぶたびにその平均値は変わってくる。
母集団(大きさ N) 標本(大きさ n)
x
標本平均
×
2
標本分散 s
×
× ×
×
× ×
×
×
× ×
× × ×
×
×
母平均 μ
母分散 σ2
母平均を標本平均から推論するのであるが、標本
統計量と母数が一致することはほとんどない。
<数値例>
大きさ6の母集団から大きさ2の標本を抜き出し、
個々の標本について標本平均を計算する。
母集団(大きさ 6) 標本(大きさ 2)
標本平均x  3
A=2
B=4
×
A=2 B=4
C=2 D=5
A=2
C=2
標本平均x  2
E=3 F=8
×
×
母平均 μ=4
母分散 σ2=4.3333
個々の標本の標本平均は母平均とは異なる
母集団
A
B
C
D
E
F
x1
2
4
2
5
3
8
A
A
A
A
A
B
B
B
B
C
C
C
D
D
E
B
C
D
E
F
C
D
E
F
D
E
F
E
F
F
x2
2
2
2
2
2
4
4
4
4
2
2
2
5
5
3
4
2
5
3
8
2
5
3
8
5
3
8
3
8
8
標本平均
3
2
3.5
2.5
5
3
4.5
3.5
6
3.5
2.5
5
4
6.5
5.5
ケース
E(Xbar)
V (Xbar)
15
4
1.733333
E(x)  
N n 2
V (x) 
N 1 n
標本平均の平均を考えると、それは母平均に一致する。
<標本平均の分散>
•
となる。
• 全国規模の統計調査などを考えた場合、母集団の大
N n 2
標本平均の分散は V ( x )  N  1 n
N n
N 1
•
2
きさNは非常に大きいので、
は1に近くなり、V ( x )  n
とみなせる。
視聴率調査の場合、関東地区1580万世帯から600世
帯を選ぶので
N  n 15800000  600

 0.999962
N 1
15800000  1
<標本平均の分布>
• 標本平均 x の平均は母平均μに等しく、分散は
2
となる。
n
• 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n
の標本の平均 x の分布は、母集団の分布がどのような
2
ものであっても、 n が大きくなるとき、正規分布 N(μ, n )
に近づく。
→ 中心極限定理
x
• 標準化された変数 z 
が標準正規分布にしたがう。
 n
<中心極限定理の直感的解釈>
• 標本平均を考えると、大体母平均の近くになる。
• 母平均から遠く離れたところに標本平均が出るこ
とはあまり多くない。
• では、どの程度の区間を考えれば、その中に標
本平均が入るのであろうか。
⇒ 信頼区間
<信頼区間>
• 母平均のまわり
に標本平均の95%が含まれる。
n


(
x

1
.
96
,
x

1
.
96
)の範囲に
• 標本平均を中心に考えると、
n
n
 1.96
•

母平均が含まれる可能性が高い。
これをμの95%信頼区間という。
例2(テキスト22ページ)参照
3.t分布
(1) t分布
母集団(大きさ N) 標本(大きさ n)
× ×
×
× ×
×
×
× ×
x
標本平均
× × ×
標本分散 s2
母平均 μ
母分散 σ2
信頼区間を求める場合、通常の標本調査では知るこ
とのできない、母分散σ2が必要となる。
• 母分散σ2がわからないとき、標本分散s2を用いる。
x
• このとき、 t  s / n  1 が自由度n-1のt分布にしたがう。
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
(2) t分布の応用
• 母集団の分散が分からないとき、母平均μの
95%信頼区間は、t分布の95%点をt0.95とあらわ
すと、
( x  t0.95
s
s
, x  t0.95
)
n 1
n 1
となる。
より正確には、母集団の分布が正規分布にしたがうとき、 t 
x
s / n 1
が自由度n-1のt分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
x   は近似的に自由度n-1
大きさがある程度大きければ、
t
のt分布にしたがうとみなせる。
s / n 1
4.検定
(1) 検定
• 視聴率について、区間推定をおこなうことができる。
• しかし、関心があるのは「20%を超えたか?否か?」
• この問題に答えるだけのために、いちいち信頼区間
を構成するのは大変である。そこで、
H0: 視聴率が20%を超えた
H1: 視聴率が20%を超えない
という二者択一の仮説を考え、標本の情報によってい
ずれか一方の仮説を採択する。
• 検定仮説(H0) 検定したい状況を表したもの。否定さ
•
れることを目的とした仮説の設定をおこなうことがあ
るので、帰無仮説といわれることもある。
対立仮説(H1) 検定仮説と反対の状況をあらわした
もの。
<2種類の誤り>
• 仮説検定には2種類の誤りがある。
• 理想的な仮説検定は第1種の誤りと第2種の誤りがと
•
もに小さくなるような検定であるが、これらはトレードオ
フの関係である。
通常は第1種の誤りを0.05などの一定の小さな値(有
意水準という)以下におさえた検定をおこなう。
<仮説検定の手順>
• 仮説検定は次のような手順をとる。
(2) 検定の方法
(例) H0:μ=0を検定する
H0:μ=0が正しいと
仮定した時の分布
-1.96
棄却域
たとえばμ=2とした
分布を考えると、そ
の方が可能性が高
い
1.96
採択域
棄却域
帰無仮説H0を棄却し、対立仮説H1を採択する。