2001年度 経済統計処理講義内容

第1章 統計学の準備
ー 計量経済学 ー
第1節 平均値と分散
1 平均値と分散
2 度数分布表
3 ヒストグラムと度数折れ線
第2節 確率分布
1 確率分布
2 正規分布
(1) 正規分布
(2) 正規分布の応用例
3 t分布
(1) t分布
(2) t分布の応用
4 検定
(1) 検定
(2) 検定の方法
第1節 平均値と分散
1. 平均値と分散
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入
50000
65000
72000
61000
63000
59000
67000
58000
83000
67000
73000
62000
57000
45000
78000
• 左の表は、学生15人の1ヶ月のアル
バイト収入のデータである。
• 15人の集団を代表する値を求めたい
• 代表する値として平均値(算術平均)
が考えられる
算術平均 = 合計 ÷ 個数
𝑥𝐴 + 𝑥𝐵 + ⋯ + 𝑥𝑂
𝑥=
𝑛
50000 + 65000 + ⋯ + 78000
=
15
960000
=
= 64000
15
<ばらつきの尺度>
教員A
• チャイムの5分後に必ず教室
にくる。
教員B
• チャイムと同時に教室にくるこ
ともあれば、10分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
•
→ばらつきの尺度の必要性
ばらつきの尺度として、分散や標準偏差などがある。
分散 = 偏差2乗和 ÷ 個数
偏差2乗和とは、個々の値から平均を引き(これを偏差という)、
その2乗し、合計したもの
𝑠2 =
=
=
𝑥𝐴 − 𝑥
2
+ 𝑥𝐵 − 𝑥 2 + ⋯ + 𝑥𝑂 − 𝑥
𝑛
50000 − 64000
−14000
2
2
2
+ 65000 − 64000
15
+ 1000 2 + ⋯ + 14000
15
2
+ ⋯ + 78000 − 64000
2
196000000 + 1000000 + ⋯ + 196000000
=
15
1402000000
=
≒ 93466666.7
15
2
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入 偏差
偏差2乗
50000
-14000 196000000
65000
1000
1000000
72000
8000
64000000
61000
-3000
9000000
63000
-1000
1000000
59000
-5000
25000000
67000
3000
9000000
58000
-6000
36000000
83000
19000 361000000
67000
3000
9000000
73000
9000
81000000
62000
-2000
4000000
57000
-7000
49000000
45000
-19000 361000000
78000
14000 196000000
算術平均64000を引く
2乗する
合計
偏差2乗和 1402000000
分散
93466666.7
データ数15で割る
• 標準偏差
→ 分散の平方根
𝑠 = 𝑠2
= 93466666.7 ≒ 9668
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
𝑥𝐴 =
𝑠𝐴2 =
=
4.5 − 5
−0.5
2
2
4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10
+ 5.3 − 5
+ 0.3
2
2
+ −0.2
+ 4.8 − 5
2
+ 0
2
2
+ 5−5
+ 0.5
2
2
+ 5.5 − 5
+ −0.3
10
2
+ 0.2
2
+ 4.7 − 5
10
2
+ −0.2
=
0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10
=
0.9
= 0.09
10
𝑠𝐴 = 0.09 =0.3
2
2
+ 5.2 − 5
+ −0.1
2
2
+ 4.8 − 5
+ 0.3
2
=
2
50
10
=5
+ 4.9 − 5
2
+ 5.3 − 5
2
教員B
𝑥𝐵 =
0−5
+ 6−5
2
+ 4−5
2
+ 5−5
2
+ 11 − 5
2
50
10
=
+ 4−5 2+ 8−5
=
10
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10
90
=
=9
10
𝑠𝐵2
2
0+6+4+5+11+4+8+5+1+6
10
2
=5
+ 5−5
2
+ 1−5
2
+ 6−5
𝑠𝐵 = 9 =3
𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差についても、𝑠𝐴 < 𝑠𝐵 と教員Bの方が大きくなる。
2
2.度数分布表
• データをいくつかの階級に分け、その階級に入る度数を表の形でまとめ
たものが、度数分布表である。
ある大学の学生の1ヶ月のアルバイト
収入
A君
B君
C君
D君
E君
F君
G君
H君
I君
J君
K君
L君
M君
N君
O君
1ヶ月のアルバイト収入
50000
65000
72000
61000
63000
59000
67000
58000
83000
67000
73000
62000
57000
45000
78000
階
級
以上
45000
50000
55000
60000
65000
70000
75000
80000
計
以下
-
49000
54000
59000
64000
69000
74000
79000
84000
階級値
47000
52000
57000
62000
67000
72000
77000
82000
度数
相対度数
1
1
3
3
3
2
1
1
15
† その階級を代表する値
を階級値という。階級の上
限と下限をたして2で割った
値が用いられることが多い。
1/15
1/15
3/15
3/15
3/15
2/15
1/15
1/15
1
<度数分布表からの算術平均、分散の導出>
• 度数分布表にまとめられたデータについて、算術平均と分散
を求めることができる。(個々のデータが入手できず、度数分
布表のみ入手できた場合に、この方法を使う。その階級に属
するデータは、すべて階級値に等しいとみなす方法である。)
階級値
y1
y2
…
ym
度数
f1
f2
…
fm
• 上のような度数分布表があったとする。
このとき、
算術平均=(度数×階級値)の総和÷度数の総和
として求められる。
𝑚
𝑓1 𝑦1 + 𝑓2 𝑦2 + ⋯ + 𝑓𝑚 𝑦𝑚
𝑖=1 𝑓𝑖 𝑦𝑖
𝑦=
= 𝑚
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑚
𝑖=1 𝑓𝑖
分散={(階級値-算術平均)2×度数}の総和÷度数の総和
として求められる。
𝜎2 =
𝑓1 𝑦1 − 𝑦
2
+ 𝑓2 𝑦2 − 𝑦 2 + ⋯ + 𝑓𝑚 𝑦𝑚 − 𝑦
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑚
2
=
𝑚
𝑖=1 𝑓𝑖 𝑦𝑖 −
𝑚
𝑖=1 𝑓𝑖
𝑦
2
計算のためには、
𝜎2 =
𝑚
2
𝑓
𝑦
𝑖
𝑖
𝑖=1
𝑚
𝑖=1 𝑓𝑖
− 𝑦2
これらの算術平均と分散は原データから求めた算術平均と分
散の近似値となる。
階級値 度数
47000
52000
57000
62000
67000
72000
77000
82000
計
この度数分布表から、平均値と分散を求めてみる。
1
1
3
1 47000 1 52000 3  57000 3  62000 3  67000 2  72000 1 77000 1 82000
y

3
11 3  3  3  2 11
3
47000 52000 171000 186000 201000 144000 77000 82000
2 
15
1
960000
1  15  64000
15
 2  {1 (47000 64000) 2  1 (52000 64000) 2  3  (57000 64000) 2  3  (62000 64000) 2
 3  (67000 64000) 2  2  (72000 64000) 2  1 (77000 64000) 2  1 (82000 64000) 2 }
 (1  1  3  3  3  2  1  1)
1 (17000) 2  1 (12000) 2  3  (7000) 2  3  (2000) 2  3  (3000) 2  2  (8000) 2  1 (13000) 2  1 (18000) 2

15
289000000 144000000 147000000 12000000 27000000 128000000 169000000 324000000

15
1240000000

 82666666.666
15
元のデータから計算した値とは多少異なるが、近似値となる。
3.ヒストグラムと度数折れ線
学生のアルバイト収入
0.25
相対度数
0.2
0.15
0.1
0.05
0
47000
52000
57000
62000
67000
72000
77000
82000
階級値
• 度数分布表を棒グラフで表したもの
† ただし、棒どうしの間隔をつめて表す(階級は連続しているため)
• ヒストグラムにおいて縦軸に相対度数をとれば、全体の面積
が1のヒストグラムとなる。
• このヒストグラムにおいて、ある範囲(例えば55000円以上
65,000円未満)の割合を求めたい場合、対応する棒の面積が
この割合となる。
第2節 確率分布
1.確率分布
• 確率変数 - とりうる値のそれぞれに対し、ある一
定の確率が対応しているような変数のこと
• 確率分布 - 確率変数のとりうる値と、確率との対
応関係
<確率変数の例>
• サイコロをふったとき、出た目をxとすると、xは
1,2,3,4,5,6をある確率でとりうる。
• サイコロがどの目も同様に出るなら、それぞれには16とい
う確率が対応する。
† しかし、6回サイコロを振ってもすべての目が出るとは限らない。サイコロを
1
振る回数を多くすれば、その回数は6 に近づく。
x
P(x)
1
1
6
2
1
6
3
1
6
4
1
6
5
1
6
6
1
6
<確率分布の実験>
• サイコロを10回振り、1の目が出た回数をxとする。
– このxは0,1,2,…,10の値をある確率でとりうるので、確率変数で
ある。
• この実験を100回繰り返す。
• 理論上は次のような確率分布となる。
x
確率
0
0.1615
1
0.323
2
0.2907
3
0.155
4
0.0543
5
0.013
6
0.0022
7
0.0002
8
2E-05
9
8E-07
10
2E-08
• しかし、実際に100回実験をおこなった(コンピュータの乱
数を用いる)ときの相対度数は、この理論値に一致する
わけではない。
一度の実験結果≠理論値
• ただし、実験の回数を増やせば、理論上の値に近づく。
• 1回の実験においてサイコロを振る回数を20回、
50回と増やしてみる。
⇒ ヒストグラムは正規分布に近づく
☆ やってみよう
ex1-1
2.正規分布
(1) 正規分布
18
36
25
14
7
0
0
0
0
0
0
100
相対度数
0.18
0.36
0.25
0.14
0.07
0
0
0
0
0
0
サイコロを10回振る実験
相対度数
1が出た回数 度数
0
1
2
3
4
5
6
7
8
9
10
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
6
7
1の目が出た回数
8
9
10
• サイコロを10回振る実験で1の目が1回以下しか出なかっ
た割合(確率)は?
0.18 + 0.36 = 0.54
グラフでは0と1の棒の面積を加えたもの
• 1回の実験でサイコロを振る回数を20回、50回、
•
•
100回…と増やすと、xのとりうる値が多くなり、ヒ
ストグラムの横軸は細くなっていく。
実験回数を無限に増やすと、反対に棒の太さは
無限に細くなっていく
棒の面積の和 → 下図のような範囲の面積
• サイコロを振る回数を多くしたとき、1の目
が出る回数の分布は正規分布に近づく。
確率
正規分布の形状
x
算術平均
(期待値)
<正規分布の形状>
正規分布は平均値を中心とする左右対称のつりがね型の分
布であり、平均μ、分散σ2の値によって、中心の位置や山の
高さが変わってくる。
※ 平均の異なる正規分布
σ=1の正規分布
0.5
μ=0
μ=3
μ=-4
0.4
0.3
0.2
0.1
0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
※ 分散の異なる正規分布
μ=0の正規分布
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
σ=1
σ=2
σ=1/2
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
<正規分布と確率>
• xの分布が正規分布となるとき、たとえば
12  x  14
となる確率を求める場合、それに対応する部分の
面積を求める。
⇒ 正規分布の平均、分散が異なるとき、どうやっ
て面積を求めれば良い?
<標準化と標準正規分布>
• 平均、分散の異なる正規分布について、
•
•
z
x
という
変換をおこなうと、zは平均0、分散1の正規分布(標準正
規分布)となる。
このような変換を標準化という。
標準化された変数の、標準正規分布における面積が求
める確率となる。
標準化
→
☆ やってみよう
ex1-2

<標準正規分布表>
• 標準正規分布から確率を求めるときは、標
準正規分布表から求める。
• この表はその部分から下側の面積(確率)
をあらわしたものである。
• 引き算や反転を用いることによってさまざ
まな確率が求められる。
(2) 正規分布の応用例
母集団(M大学の学生500人)
×
×
×
×
標本1(50人)
64000円
×
×
×
×
×
×
×
×
• M大学の学生500人の中
から、ランダムに50人を選
んでアルバイト収入を調べ、
その平均値を求める。
50人を選ぶたびにその平均
値は変わってくる。
×
×
×
×
×
×
標本2(50人)
73000円
標本3(50人)
56000円
標本4(50人)
62000円
標本5(50人)
68000円
<第2次安倍内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日990人)
59%
×
×
×
×
×
×
×
×
2012年12月28日付の朝刊
各紙に掲載された第2次安倍
内閣支持率を見ると、異なっ
た結果になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1039人)
65%
標本3(毎日856人)
52%
標本4(日経872人)
62%
標本5(共同1031人)
62%
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
母平均μ
母分散σ2
母数θ
推論
標本平均x
標本分散s2
標本統計量t
標本統計量から母数を推論する(たとえば標本平均から
母平均を推論)のであるが、たまたま選ばれた標本の標
本統計量が母数と一致することはほとんどない。
しかし、大きく外れた値をとるわけでもない。
標本平均と母平均の関係を考えるために、次のような数値例
で考えてみる。
個体数6の母集団から個体数2の標本を抜き出し、個々の標
本について標本平均を計算する。
母集団(固体数 6)
標本(個体数 2)
A=2
B=4
×
A=2
B=4
C=2
D=5
E=3
F=8
A=2
C=2
×
×
母平均 μ=4
母分散 σ2=4.3333
標本平均 x  3
標本平均 x  2
母集団
A
B
C
D
E
F
x1
2
4
2
5
3
8
A
A
A
A
A
B
B
B
B
C
C
C
D
D
E
B
C
D
E
F
C
D
E
F
D
E
F
E
F
F
x2
2
2
2
2
2
4
4
4
4
2
2
2
5
5
3
4
2
5
3
8
2
5
3
8
5
3
8
3
8
8
標本平均
3
2
3.5
2.5
5
3
4.5
3.5
6
3.5
2.5
5
4
6.5
5.5
ケース
E(Xbar)
V (Xbar)
15
4
1.733333
E(x)  
N n 2
V (x) 
N 1 n
とりうるすべての標本について、標本平均を計算してみ
る。
その標本平均の平均を考えると、母平均に一致する。
<標本平均の分散>
• 標本平均の分散は
となる。
• 全国規模の統計調査などを考えた場合、母集団の大
N n 2
V (x) 
N 1 n
N n
N 1
•
きさNは非常に大きいので、
は1に近くなり、 V ( x ) 
とみなせる。
視聴率調査の場合、関東地区1580万世帯から600世
帯を選ぶので
N  n 15800000  600

 0.999962
N 1
15800000  1
2
n
<標本平均の分布>
• 標本平均
𝜎2
𝑥の平均は母平均μに等しく、分散は となる。
𝑛
• 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n
の標本の平均 𝑥 の分布は、母集団の分布がどのような
ものであっても、 n が大きくなるとき、正規分布
に近づく。 → 中心極限定理
𝜎2
𝑁(𝜇, )
𝑛
• 標準化された変数 𝑧 = 𝜎𝑥−𝜇𝑛 が標準正規分布にしたがう。
† 厳密に言えば、母集団の分布が正規分布の場合には、nの大きさにかかわ
らず、標本平均𝑥
𝜎2
の分布は正規分布𝑁(𝜇, 𝑛 )にしたがう。
⇒ 正規分布の再生性
<中心極限定理の直感的解釈>
• 標本平均を考えると、大体母平均の近くになる。
• 母平均から遠く離れたところに標本平均が出ることはあ
まり多くない。
• では、どの程度の区間を考えれば、その中に標本平均が
入るのであろうか。 ⇒ 信頼区間
<信頼区間>


1
.
96
• 母平均のまわり
に標本平均の95%が含まれる。
n


( x  1.96
, x  1.96
)
• 標本平均を中心に考えると、
n
n の範囲に
母平均が含まれる可能性が高い。
• これをμの95%信頼区間という。
とりうるすべての標本の標本
平均 x の95%がこの区間
に含まれる
  1.96

n
x  1.96
μ
  1.96

×
x
n

n
反対に、標本平均をもとに、
x  1.96

x  1.96
n

n
という区間を考えると、そのう
×
×
×
ち95%は母平均を区間内に
含む
<母分散が既知の場合の区間推定>
(例) 20歳男性の身長を調べるために、100人を標本として選
んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母
平均μの95%信頼区間を求めよ。
(解) μの95%信頼区間は
𝜎
𝜎
𝑥 − 1.96
, 𝑥 + 1.96
𝑛
𝑛
8
8
170 − 1.96
, 170 + 1.96
100
100
170 − 1.568, 170 + 1.568
169.43, 171.57
となる。
3.t分布
(1) t分布
母集団(大きさ N)
標本(大きさ n)
×
×
×
×
×
×
×
×
×
×
× ×
標本平均
x
標本分散
s2
母平均 μ
信頼区間を求める場合、
𝑥−𝜇
𝑧 = 𝜎 𝑛 が標準正規分布に
したがうという性質を用いる。
しかし、母平均の推定をおこ
なう場合に、母分散σ2が分
かっているということは、あま
り多くない。 (過去の調査に
おいて母分散のおおよその
値が分かり、それを用いるな
どの例外はあるが)
母分散 σ2
母分散σ2がわからないとき、代わりに標本分散s2を用いる。
このとき、 𝑡 = 𝑠
𝑥−𝜇
が自由度n-1のt分布にしたがう。
𝑛−1
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。
自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規
分布に近くなっている。
※ 標本分散s2の代わりに標本不偏分散
2
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2  ( xi  x )
sˆ 

n 1
n 1
2
を用いれば、 t  x   が自由度n-1のt分布にしたがう。
sˆ / n
<自由度について>
自由度とは、自由に値を取ることのできる個体数のこと
である。
この場合は、t統計量の自由度は標本分散 s2 の分子に
含まれる xi のうち、自由に値を取ることのできる個数で
n
ある。
2
( x  x )  ( x2  x )    ( x n  x )
s2  1

n
2
2
2
 (x  x)
i 1
i
n
なので、x1, …, xn-1 は自由に値をとることができるが、xn
は
x

n
i
x
を満たすように決められ、自由度はn-1となる。
(2) t分布の応用
• 母集団の分散が分からないとき、母平均μの
95%信頼区間は、t分布の95%点をt0.95とあらわ
すと、
𝑥 − 𝑡0.95
𝑠
𝑛−1
, 𝑥 + 𝑡0.95
𝑠
𝑛−1
となる。
より正確には、母集団の分布が正規分布にしたがうとき、
𝑡=
𝑥−𝜇
が自由度n-1のt分布にしたがう。
𝑠 𝑛−1
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
𝑥−𝜇
大きさがある程度大きければ、 𝑡 =
は近似的に自由度n-1の
t分布にしたがうとみなせる。
𝑠
𝑛−1
(例) 20歳女性の身長を調べるために、10人を標本として選ん
だところ、標本平均 𝑥 =160であった。s=9であるとき、母平
均μの95%信頼区間を求めよ。
(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%
信頼区間は
𝑠
𝑠
𝑥 − 𝑡0.95
, 𝑥 + 𝑡0.95
𝑛−1
𝑛−1
9
9
160 − 2.262
, 160 + 2.262
10 − 1
10 − 1
160 − 6.79, 160 + 6.79
153.21, 166.79
となる。
4.検定
(1) 検定
• 視聴率について、区間推定をおこなうことができる。
• しかし、関心があるのは「20%を超えたか?否か?」
• この問題に答えるだけのために、いちいち信頼区間
を構成するのは大変である。そこで、
H0: 視聴率が20%を超えた
H1: 視聴率が20%を超えない
という二者択一の仮説を考え、標本の情報によってい
ずれか一方の仮説を採択する。
• 検定仮説(H0) 検定したい状況を表したもの。否定さ
•
れることを目的とした仮説の設定をおこなうことがあ
るので、帰無仮説といわれることもある。
対立仮説(H1) 検定仮説と反対の状況をあらわした
もの。
検定仮説と対立仮説は、同時に成り立つことはなく、
その2つですべての状況をあらわしている。
<2種類の誤り>
• 仮説検定には2種類の誤りがある。
H0を採択
(逮捕)
H1を採択
(不逮捕)
H0が真
(真犯人)
正
取り逃がし
(第1種の誤り)
H1が真
(無実)
誤逮捕
(第2種の誤り)
正
• 理想的な仮説検定は第1種の誤りと第2種の誤りがともに小さく
•
なるような検定であるが、これらはトレードオフの関係である。
通常は第1種の誤りを0.05などの一定の小さな値(有意水準と
いう)以下におさえた検定をおこなう。
<仮説検定の手順>
• 仮説検定は次のような手順をとる。
<ステップ1>
<ステップ2>
<ステップ3>
仮説の設定
仮説検定に適当な統計量を選ぶ
検定仮説の採択域と棄却域を設定する
統計量が
採択域
<ステップ4>
H0を採択
統計量が
棄却域
H1を採択
(2) 検定の方法
• 仮説検定では、まず検定仮説が正しいと思ってみる。
• たとえばH0: μ=70 vs. H1: μ≠70 という仮説検定をおこなう場
合、 𝑥 は平均70の分布にしたがうと仮定する。
𝑥 を標準化したzの分布は標準正規分布となる。(母分散が分
からない場合は、t分布で考える)
𝑥 の分布
zの分布
50
60
70
80
90
5
4.5
4
3.5
3
2.5
0
2
-3
0.01
1.5
0.02
1
0.03
0.5
→
0.04
0
0.05
-1
標準化
0.06
-1.5
0.07
-2
0.08
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-2.5
0.09
-0.5
•
𝑥 の分布
zの分布
50
60
70
80
90
• たとえば、𝑥 =75という標本平均を得たとする。
•
𝜎
=5であったなら、
𝑛
𝑧=
𝑥−𝜇
𝜎 𝑛
=
75−70
5
= 1 となるので、その
ような標本が得られる可能性は十分にあるといえる。
⇒ H0が正しいという仮定は適切であったと考える。
⇒ 検定仮説を採択
5
4.5
4
3.5
3
2.5
2
0
1.5
-3
0.01
1
0.02
0.5
0.03
0
→
0.04
-0.5
0.05
-1
標準化
0.06
-1.5
0.07
-2
0.08
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-2.5
0.09
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
zがここだったら検定仮
説を棄却し、対立仮説
を採択する。
• もし、z=2.4という結果が出たなら、どのように考えれば良
•
いのであろうか。
この場合、 H0が正しいという仮定は適切ではなかったと考
える。母平均は他の値(たとえばμ=85)から得られた標本
と考える。
⇒ 検定仮説を棄却し、対立仮説を採択
• 採択域と棄却域は次のように設定される。
棄却域
採択域
棄却域
• 判定の境界値はそれぞれの統計量の分布による。
• 統計量の分布が標準正規分布には、-1.96と1.96の間に入
れば採択域、それ以外が棄却域となる。
• t分布の場合にはt分布表において得られたt0.95の値を用い
て、- t0.95 とt0.95の間に入れば採択域、それ以外が棄却域と
なる。
(自由度9であれば、t0.95=2.262なので、 -2.262と2.262の間に入れば採
択域、それ以外が棄却域となる。)
† 棄却域が採択域の片側となる片側検定も考えられるが、ここでは、説明
を省略する。
<検定の例>
a)
母分散が既知の場合
次のような問題を考える。
(例) ある工場では直径5mmのねじを標準偏差0.04mmにお
さまるような管理体制で製造している。製造機械の劣化に
よって、品質に変化が生じたかどうかを検討するために、9本
を標本として選んだところ、その平均が4.97mmであった。こ
れは品質管理上異常なしと考えて良いだろうか。
1.仮説の設定
この例の場合、 「品質管理上異常がない」か、「品質管理上異常がある」
かを検定する。
検定仮説としては「品質管理上異常がない」という仮説を用いる。このと
き対立仮説は「品質管理上異常がある」という仮説となり、
H0: μ=5 vs. H1: μ≠5
と表すことができる。この場合、対立仮説は検定仮説の両側をとる(「異
常がある」には、「大きすぎる」と「小さすぎる」の両方が含まれ、「異常が
ない」という検定仮説の両側の範囲をとる)。
※1 検定仮説と対立仮説を逆にし、 H0: μ≠5 vs. H1: μ =5 とすることも考えら
れる。しかし、採択域と棄却域を構成する場合、検定仮説が正しいとみなして構
成するため、検定仮説はある範囲(複合仮説)より、1つの数値(単純仮説)である
ことの方が望ましい。
※2 「ねじがねじ穴に入るかどうか」を検定するなら、「ねじ穴に入る」という検定
仮説と、「ねじ穴に入らない」という対立仮説が考えられる。すなわち、 H0: μ≦5
vs. H1: μ > 5 とすることである。
2.検定統計量
この例では母分散が分かっているので、標本平均 𝑥 を用いて、
𝑥−𝜇
𝑧=
𝜎 𝑛
を考えると、これは標準正規分布にしたがう。
3.採択域と棄却域
検定仮説が正しいと仮定する。このとき、標本平均をもとに計算したzが0
から大きく離れていたならばこの仮定は誤りだったと考える。
zがここだったら検
定仮説が正しいが
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
-3
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
zがここだったら検定仮
説は誤りで、 このような分布が正し
いと考える。
この場合、zは標準正規分布にしたがうので、有意水準5%†の仮説検定
をおこなうなら、
−1.96 ≤ 𝑧 ≤ 1.96 のとき検定仮説を採択し、
𝑧 < −1.96 または 𝑧 > 1.96 のとき対立仮説を採択する。
棄却域
-1.96
採択域
1.96
棄却域
† 検定仮説が正しいなら、z>1.96またはz<-1.96となるような 𝑥 が選ばれる確率は
5%である。これは第1種の誤りの確率すなわち有意水準が5%であることを意味
している。
4.統計量の計算
検定仮説が正しいとみなして(μに5を入れて)統計量を計算すると
𝑥 − 𝜇 4.97 − 5 −0.03 −0.09
9
𝑧=
=
=
=
= − = −2.25
0.04
4
𝜎 𝑛 0.04 9 0.04 3
となる。よって 𝑧 < −1.96 なので棄却域に入り、検定仮説を棄却し、対
立仮説を採択する。
b) 母分散が未知の場合
母分散が未知の場合は、zの代わりに 𝑡 =
𝑥−𝜇
を考え、
𝑠 𝑛−1
これが自由度n-1のt分布にしたがうことを用いて仮説検定を
おこなう。
次のような問題を考える。
(例) ある科目の試験を、平均点70点となるように作成したい。
そこで、26人をサンプルとして選び、問題をといてもらったと
ころ、26人の平均点は60点、分散が625であった。試験の問
題作りは成功したといえるだろうか。
(解)
1.仮説の設定 「平均点が70点である」という仮説を、「平均点が70点で
ない」という仮説に対して検定するので、 H0: μ=70 vs. H1: μ≠70 という
仮説を設定する。
2.検定統計量 標本平均 𝑥 を用いて、
𝑥−𝜇
𝑡=
𝑠 𝑛−1
を考えると、これは自由度n-1のt分布にしたがう。
3.採択域と棄却域 検定仮説が正しいと仮定する。このとき、標本平均をも
とに計算したtが0から大きく離れていたならばこの仮定は誤りだったと考
える。tは自由度26-1=25のt分布にしたがうので、t0.95=2.060でる。有意
水準5%の仮説検定をおこなうなら、 −2.060 ≤ 𝑡 ≤ 2.060 のとき検定仮
説を採択し、 𝑡 < −2.060 または 𝑡 > 2.060 のとき対立仮説を採択する。
4.統計量の計算
𝑥−𝜇
60 − 70
−10 −10
𝑡=
=
=
=
= −2
5
𝑠 𝑛−1
625 26 − 1 25 5
となる。 −2.060 ≤ 𝑡 ≤ 2.060 なので検定仮説を採択する。よって問題作
りは成功したといえる。