基礎統計推理論 2015年度前期講義ノート

基礎統計推理論
2015 年度前期 講義ノート
度数 ¨ ¨ ¨ ある階級に属するデータの数。
0 序説
度数分布表 ¨ ¨ ¨ 度数を表にしたもの。
統計学の目的 ¨ ¨ ¨ 統計的推測 (標本を用いて母
相対度数 ¨ ¨ ¨ 各階級の度数をデータの総数で
集団の特徴をつかむ。)
割ったもの。すなわち,各階級の属するデータ
の割合。
標本 ¨ ¨ ¨ 母集団に関する情報をもつデータ (観
累積度数 ¨ ¨ ¨ ある階級以下の度数を合計したも
測値) の集まり。
の。
母集団 ¨ ¨ ¨ 観測値の源泉。
累積相対度数 ¨ ¨ ¨ ある階級以下の相対度数を合
母集団の特徴をあらわすパラメータ (母数) に
計したもの。すなわち,ある階級以下に属する
関する検定 ¨ 推定を行う。
データの割合。
母数の例 ¨ ¨ ¨ 平均 ¨ 分散。
度数分布表の作成手順
全数調査を行うことができれば,統計的推測
1. データの最大値と最小値を見つける。
を行う必要はない (母集団の特徴が既知になる
2. 階級の数と幅を決める。
から)。
3. 各階級の度数を求める。
4. 相対度数,累積度数,累積相対度数等を求
1 度数分布
める。
1.1 変数
連続型変数 (continuous variable) ¨ ¨ ¨ ある区間
表 1.3 20 個の物体の重さのデータ
内の任意の実数値を取りうる変数。例:身長,長
4.3 5.2 7.2 6.4 3.5 5.6 6.7 6.1 4.1 6.8
5.0 5.6 3.8 4.6 5.8 5.1 6.2 5.3 7.4 5.9
さ,時間など。
離散型変数 (discrete variable) ¨ ¨ ¨ 不連続な値し
表 1.4 度数分布表
かとらない変数。例: サイコロの出た目,各世
階級値 階級境界値 度数 相対度数 累積
累積
度数 相対度数
帯の人数など。
3.45
4.45
5.45
6.45
7.45
1.2 度数分布
階級境界値 ¨ ¨ ¨ 階級の境界を定める値。
階級値 ¨ ¨ ¨ 階級境界値の中点。
2.95„ 3.95
3.95„ 4.95
4.95„ 5.95
5.95„ 6.95
6.95„ 7.95
合計
1
2
3
8
5
2
20
0.10
0.15
0.40
0.25
0.10
1.00
2
5
13
18
20
0.10
0.25
0.65
0.90
1.00
表 2.1 度数分布表
1.3 度数分布のグラフ
度数分布をグラフにしたものをヒストグラム
(histogram) あるいは柱状図と呼ぶ。
図 1.1 20 個の物体の重さのヒストグラム
階級値
階級境界値
度数
m1
a0 „ a1
f1
m2
..
.
a1 „ a2
..
.
f2
..
.
mk
ak´1 „ ak
fk
度数合計
n
1
2
ただし,m1 “ a0 `a
, m2 “ a1 `a
,
2
2
ak´1 `ak
¨ ¨ ¨, mk “
.
2
となる。
2.95
3.95
4.95
5.95
6.95
7.95
表 1.4 の度数分布表から得られる加重平均値は
ヒストグラムの右裾 (左裾) が長い分布を右 (左)
x“
に歪んだ分布という。
1
p2 ˆ 3.45 ` 3 ˆ 4.45 ` 8 ˆ 5.45
20
`5 ˆ 6.45 ` 2 ˆ 7.45q “ 5.55
2 代表値
となる。
2.1 いろいろな平均
幾何平均
n 個のデータ x1 , x2 , ¨ ¨ ¨ , xn が与えられたと
する。
gx “
?
n
x1 ˆ x2 ˆ ¨ ¨ ¨ ˆ xn
算術平均値
2005 年から 2008 年までの消費者物価を y1 ,
n
1
1 ÿ
x “ px1 ` x2 ` ¨ ¨ ¨ ` xn q “
xi
n
n i“1
y2 , y3 , y4 とすれば,対前年度比はそれぞれ以
下のようになる。
表 1.2 のデータの場合,算術平均値は
xi “
x“
1
p4.3 ` 5.2 ` ¨ ¨ ¨ ` 5.9q “ 5.53
20
yi`1
, i “ 1, 2, 3
yi
x1 , x2 , x3 の幾何平均は
となる。
gx “
加重平均値
表 2.1 のような度数分布表が利用可能なとき,
?
3
x1 ˆ x2 ˆ x3 “
c
3
y4
y1
となり,y4 について解けば
加重平均値は
y4 “ y1 ˆ gx3
1
x “ pf1 m1 ` f2 m2 ` ¨ ¨ ¨ ` fk mk q
n
k
1 ÿ
“
fi mi
n i“1
となる。gx から 1 を引いた値は平均上昇率と
考えることができる。
2
2.4 標準化変量
2.2 範囲と四分位範囲
分布の中心を与える測度。
範囲 ¨ ¨ ¨ 最大値から最小値を引いたもの。
zi “
中央値 ¨ ¨ ¨ データを大きさの順に並べたとき
にちょうど真ん中にくる観察値。メディアン
xi ´ x
s
を標準化変量と呼ぶ。
(median) とも呼ばれる。データ数を n とする。
2.5 変動係数
n が奇数の時には pn ` 1q{2 番目の値が中央値
標準偏差を平均値で割った値を変動係数 (coef-
となる。n が偶数の時には n{2 番目と pn{2q`1
ficient of variation) と呼ぶ。
番目の値の算術平均を中央値とする。
2.6 相関係数
最頻値 ¨ ¨ ¨ 1 組のデータの集合の中で,最も
変数間の関係を表す測度。
度数の大きい観測値。モード (mode) とも呼ば
2 変 数 の デ ー タ の 組 px1 , y1 q, px2 , y2 q,¨ ¨ ¨,
れる。
pxn , yn q が与えられたとする。共分散は
2.3 標準偏差と分散
分布の広がり具合を与える測度。
sxy “
データ x1 , x2 , ¨ ¨ ¨, xn が与えられたとする。
分散
n
1 ÿ
pxi ´ xqpyi ´ yq
n i“1
で定義される。sxy ą 0 の時, x と y には正の
n
1 ÿ
pxi ´ xq2
s2 “
n i“1
相関があると言い,sxy ă 0 の時には負の相関
があると言う。また,相関係数は
あるいは
s2 “
r“
n
ÿ
1
pxi ´ xq2
n ´ 1 i“1
で定義される。ただし,sx , sy はそれぞれ x と
で計算する (下の式のほうがより重要であるこ
y の標準偏差をあらわす。´1 ő r ő 1 という
2
とは後述する)。分散 s の正の平方根をとった
性質を持つ。
もの s を,標準偏差 と呼ぶ。分散は以下のよう
3
に計算することもできる。
1
s “
n
2
“
1
n
˜
n
ÿ
x2i
i“1
n
ÿ
x2i
i“1
´ 2x
n
ÿ
確率
3.1 基礎概念
¸
2
xi ` nx
a が集合 A に属するなら,a を集合 A の要素ま
i“1
たは元といい,
´ x2
a P A または A Q a
表 2.1 のように,データが度数分布で与えられ
と書く。また,b が集合 A に属していないこ
ているときには分散は次のように計算される。
とを
k
1 ÿ
2
s “
fi pmi ´ xq2
n i“1
“
sxy
sx sy
b R A または A S b
k
1 ÿ
fi m2i ´ x2
n i“1
と書く。
3
図 3.1 集合とその要素: a P A, b R A
図 3.4 共通集合: A X B
A
A
B
a
b
空集合φ ¨ ¨ ¨ 1 つも要素を持たない集合。
全体集合Ω ¨ ¨ ¨ すべての要素からなる集合。
集合 A に属していて集合 B に属さない要素の
集合 A が集合 B のすべての要素を含んでいる
集まりを差集合といい
ならば,集合 B を集合 A の部分集合といい,
A´B
A Ą B または B Ă A
と書く。
と書く。
図 3.5 差集合: A ´ B
図 3.2 集合の包含関係: A Ą B
A
A
B
B
全体集合 Ω の中で A に属さない要素の集合
集合 A と集合 B のどちらか一方に属する要素
を補集合といい,
の集まりを和集合といい
Ac
A Y B または B Y A
と書く。
と書く。
図 3.6 補集合
図 3.3 和集合: A Y B
A
Ω
B
A
集合 A と集合 B のどちらにも属する要素の集
Ac
補集合を用いれば
まりを共通集合あるいは積集合といい
A ´ B “ A X Bc
A X B または B X A
と書く。
が成り立つ。
4
集合に関する公式
の標本点があるとする。このとき事象 A が起
結合則: pA Y Bq Y C “ A Y pB Y Cq
こる確率は
交換則: A Y B “ B Y A
P pAq “
分配則: A Y pB X Cq “ pA Y Bq X pA Y Cq
npAq
npAq
“
N
npΩq
以上の公式は Y と X を入れかえても成り立
である。事象 A に属する標本点の数 npAq を
つ。
場合の数という。
ド・モルガンの法則
pA Y Bqc “ Ac X B c
pA X Bqc “ Ac Y B c
確率の性質
1. 0 ő P pAq ő 1
Ω ´ pA Y Bq “ Ac X B c
Ω ´ pA X Bq “ Ac Y B c
2. P pAc q “ 1 ´ P pAq
3. A Ă B ùñ P pAq ő P pBq
3.2 標本空間
(1 の証明)
試行(trial) ¨ ¨ ¨ 繰返し可能な実験。
npφq ő npAq ő npΩq を npΩq で 割 っ て ,
標本点(sample point) ¨ ¨ ¨ 試行によって起こりう
npφq “ 0 を用いれば,
る結果。例えば,サイコロを投げた時起こりう
る結果は,1, 2, 3, 4, 5, 6 のいずれかの目が出る
0ő
ことである。
npAq
ő1
npΩq
事象(event) ¨ ¨ ¨ 標本点の集まり。
が得られる。
標本空間(sample space) ¨ ¨ ¨ すべての標本点の
(2 の証明)
集まり。全事象とも呼ばれ,通常 Ω で表され
npΩq “ npAq ` npAc q の両辺を npΩq で割る。
る。標本点は集合の要素,事象は集合,標本空
(3 の証明)
間は全体集合に対応する。
npAq ő npBq の両辺を npΩq で割る。
空事象(empty event) ¨ ¨ ¨ 何の結果も起こらない
という事象。φ で表され,空集合に対応する。
3.3.2 加法定理と乗法定理
余事象(complementary event) ¨ ¨ ¨ ある事象が起
加法定理
こらないという事象。補集合に対応する。
P pA Y Bq “ P pAq ` P pBq ´ P pA X Bq
和事象・積事象 ¨ ¨ ¨ それぞれ和集合・積集合に
対応する。
(証明)
排反(exclusive) ¨ ¨ ¨ A X B “ φ のとき,A と B
図 3.7 (次ページ) より
c
は排反であるという。A X A “ φ であるから,
npAq “ npA ´ Bq ` npA X Bq
A と Ac は排反である。
npBq “ npB ´ Aq ` npA X Bq
npA Y Bq “ npA ´ Bq ` npB ´ Aq
3.3 確率
3.3.1 確率の定義と基本的性質
`npA X Bq
確率 (ラプラスの算術的確率) 標本空間に N 個
であることが分かる。これより
の標本点があり,それらの起こることが同様に
確からしいとする。さらに,事象 A に npAq 個
npA Y Bq “ npAq ` npBq ´ npA X Bq
5
図 3.7
A
P pA X Bq “
B
npA X Bq
npΩq
であるから
npA X Bq
npBq
npA X Bq{npΩq
“
npBq{npΩq
P pA X Bq
“
P pBq
P pA|Bq “
ó
A´B
AYB
B´A
を変形すれば定理が得られる。
独立性
npA ´ Bq
npA X Bq
npB ´ Aq
P pA X Bq “ P pAqP pBq
||
AYB
が成り立つとき,事象 A と事象 B は独立であ
るという。
事象 A と事象 B が独立であるとき,乗法定理
より
npA Y Bq
P pA X Bq “ P pBqP pA|Bq “ P pAqP pBq
が得られ
が得られ,これを npΩq で割れば定理が得られ
る。
P pAq “ P pA|Bq
特に,事象 A と B が排反である場合,A X B “
φ より P pA X Bq “ 0 となるので,
が成り立つ。同様に P pBq “ P pB|Aq も成立
する。
P pA Y Bq “ P pAq ` P pBq
が成り立つ。
ベイズの定理 (Bayes’ theorem)
条件付き確率 ¨ ¨ ¨ 事象 B が起こったという条
A1 , A2 , ¨ ¨ ¨ , An が互いに排反な事象で,これら
件の下で事象 A が起こる確率。P pA|Bq であ
の事象のどれかは必ず起こるものとする (つま
らわす。
り,i ‰ j に対して Ai X Aj “ φ で,A1 Y A2 Y
¨ ¨ ¨ Y An “ Ω)。ある事象 B に対して P pB|Ai q
乗法定理
が与えられているとき
P pA X Bq “ P pBqP pA|Bq
P pAi qP pB|Ai q
P pAi |Bq “ řn
j“1 P pAj qP pB|Aj q
(証明)
P pBq “
npBq
npΩq
が成り立つ。
6
図 3.8 ベイズの定理
を確率関数(probability function) という。
確率関数には以下の性質がある。
A1
A3
A2
1. f pxi q ŕ 0, i “ 1, 2, ¨ ¨ ¨
n
ÿ
2.
f pxi q “ 1
i“1
この 2 つの性質を満たす関数は,どんな関数で
A1 X B
も確率関数と言う。
A3 X B
A2 X B
X ő x となる確率
B
図 3.8 において
F pxq “ P pX ő xq “
P pA1 X Bq
P pBq
P pA1 X Bq
“
P pA1 X Bq ` P pA2 X Bq ` P pA3 X Bq
r
ÿ
pi “
i“1
P pA1 |Bq “
r
ÿ
f pxi q
i“1
を分布関数 (distribution function) という。ただ
し,r は xr ő x ă xr`1 を満たす整数。
分布関数には以下の性質がある。
であり、P pAi X Bq “ P pBqP pAi |Bq であるこ
とを用いればベイズの定理が得られる。
F p´8q “ 0, F p8q “ 1
4 確率変数と確率分布
4.1.2 離散型確率分布
例:
4.1 確率変数
ある野球選手がヒットを打つ確率が 0.3 である
4.1.1 離散型確率変数
とする。
確率変数(random variable) ¨ ¨ ¨ どの値が実現す
ヒットを打つという事象を H とすれば,H c は
るか確実には分からないが,その値が出る確
ヒットを打たない事象になる。
率が分かっている変数。例: サイコロを振った
3 打席のうちヒットを打つ回数を X とする。
時,1, 2, 3, 4, 5, 6 のうちどの目が出るかは分か
第 1 打席 第 2 打席 第 3 打席 X
らないが,それぞれの目の出る確率は 1{6 であ
H
H
H
H
Hc
Hc
Hc
Hc
る。
離散型確率変数 ¨ ¨ ¨ 不連続な値しかとらない確
率変数。
x1 , x2 , ¨ ¨ ¨ , xn を離散型確率変数 X の実現値と
xi q とすると,X の確率分布は
x1
x2
¨¨¨
xn
計
P pX “ xi q
p1
p2
¨¨¨
pn
1
H
Hc
H
Hc
H
Hc
H
Hc
3
2
2
1
2
1
1
0
確率
0.3 ˆ 0.3 ˆ 0.3
0.3 ˆ 0.3 ˆ 0.7
0.3 ˆ 0.7 ˆ 0.3
0.3 ˆ 0.7 ˆ 0.7
0.7 ˆ 0.3 ˆ 0.3
0.7 ˆ 0.3 ˆ 0.7
0.7 ˆ 0.7 ˆ 0.3
0.7 ˆ 0.7 ˆ 0.7
上の表より
する。さらに,X “ xi となる確率を P pX “
X
H
H
Hc
Hc
H
H
Hc
Hc
P pX “ 0q “ 1 ˆ 0.7 ˆ 0.7 ˆ 0.7 “ 0.343
P pX “ 1q “ 3 ˆ 0.3 ˆ 0.7 ˆ 0.7 “ 0.441
P pX “ 2q “ 3 ˆ 0.3 ˆ 0.3 ˆ 0.7 “ 0.189
P pX “ 3q “ 1 ˆ 0.3 ˆ 0.3 ˆ 0.3 “ 0.027
となる。ただし n は無限大になることもある。
を得る。
f pxi q “ P pX “ xi q “ pi
7
2 項分布 (binomial distribution)
いう線分の面積
ある事象 A が起こる確率を p,その余事象 Ac
ża
P pX “ aq “ P pa ő X ő aq “
の起こる確率を qp“ 1 ´ pq とする。n 回の試行
となる。このことから
をを行ったとき,事象 A が x 回起こる確率は
f pxq “ P pX “ xq “
f pxqdx “ 0
a
P pa ő X ő bq “ P pa ă X ő bq
n!
px q n´x
x!pn ´ xq!
“ P pa ő X ă bq
“ P pa ă X ă bq
で与えられる。ただし,n! は n の階乗で,n! “
が成立する。
npn ´ 1qpn ´ 2q ¨ ¨ ¨ 1 を意味する。上の確率関
数を持つ分布を 2 項分布という。また,このと
離散型確率変数のときと同様、 X ő x となる
き X „ Bpn, pq とあらわす。
確率
żx
4.1.3 連続型確率変数
F pxq “ P pX ő xq “
連続型確率変数 ¨ ¨ ¨ 実現値が連続した値 (任意
f ptqdt
´8
を分布関数という。分布関数を用いれば
の実数値) をとる確率変数。連続型確率変数の
分布を連続型確率分布という。
P pa ă X ă bq “ F pbq ´ F paq
żb
ża
“
f pxqdx ´
f pxqdx
確率密度関数 (probability density function) ¨ ¨ ¨
確率を分配する規則を表す連続曲線。単に密度
´8
´8
żb
関数とも呼ばれる。
f pxqdx
“
連続型確率変数 X が開区間 pa, bq に入る確率
a
と書くことができる。分布関数には
は,この区間での確率密度関数と X 軸との間
の領域の面積
F p´8q “ 0, F p8q “ 1
という性質がある。
żb
P pa ă X ă bq “
f pxqdx
4.2 期待値
a
4.2.1 平均値
で表される。
離散型確率変数の期待値 (expectation, 平均値と
図 4.1
もいう) を以下のように定義する。
żb
Ppa ă X ă bq “
ErXs “
f pxqdx
n
ÿ
xi f pxi q
i“1
a
同様に連続型確率変数の期待値を
ż8
xf pxqdx
ErXs “
f pxq
a
b
´8
で定義する。ErXs はしばしば µ で表される。
X
一般に X の関数 gpXq の期待値を
確率密度関数には以下の性質がある。
$ ÿ
n
’
’
gpxi qf pxi q
’
&
i“1
ErgpXqs “
ż8
’
’
’
%
gpxqf pxqdx
ż8
f pxq ŕ 0,
f pxqdx “ 1
´8
X が特定の値 a をとるという確率は X “ a と
´8
8
(離散型)
(連続型)
で定義する。
“
n
ÿ
x2i f pxi q ´ 2µ
i“1
期待値について以下の定理が成立する。
n
ÿ
xi f pxi q ` µ2
i“1
n
ÿ
f pxi q
i“1
“ EpX 2 q ´ 2µErXs ` µ2
定理 4.1 a, b が定数であるとき
“ ErX 2 s ´ µ2
EraX ` bs “ aErXs ` b
定理 4.3:
(証明) 離散型確率変数の場合について証明する
EpaX ` bq “ aEpXq ` b “ aµ ` b
(連続型確率変数の場合も同様に証明できる)。
EraX ` bs “
“
n
ÿ
であるから
paxi ` bqf pxi q
i“1
n
ÿ
axi f pxi q `
i“1
n
ÿ
“a
n
ÿ
V paX ` bq “ ErtpaX ` bq ´ paµ ` bqu2 s
bf pxi q
i“1
n
ÿ
xi f pxi q ` b
i“1
“ ErtapX ´ µqu2 s
“ Era2 pX ´ µq2 s
“ a2 ErpX ´ µq2 s (定理 4.1 より)
f pxi q
i“1
“ a2 V rXs
“ aErXs ` b
4.2.2 分散,標準偏差
連続型確率変数の場合も同様に証明することが
確率変数 X の分散は以下のように定義される。
できる。
V pXq “ ErpX ´ µq2 s, µ “ ErXs
$ ÿ
n
’
’
pxi ´ µq2 f pxi q
(離散型)
’
&
i“1
“
ż8
’
’
’
%
px ´ µq2 f pxqdx
(連続型)
標準偏差 (standard deviation) ¨ ¨ ¨ 分散の非負の
平方根。すなわち
σpXq “
a
a
V pXq “ ErpX ´ µq2 s
確率変数 X から期待値 µ “ ErXs を引き、標
´8
準偏差 σ “ σpXq で割った変数
定理 4.2 µ “ ErXs とすれば
V pXq “ ErX 2 s ´ µ2
z“
定理 4.3 a, b が定数であるとき
X ´µ
σ
を確率変数 X の標準化 (基準化) (standardized)
2
された変数という。
V paX ` bq “ a V rXs
(定理 4.2, 4.3 の証明)
定理 4.4 Erzs “ 0, V rzs “ 1
定理 4.2:
(証明)
a “ 1{σ, b “ ´µ{σ とすれば z “ aX ` b とな
V pXq
る。よって定理 4.1 より
“ ErpX ´ µq2 s
n
ÿ
“
pxi ´ µq2 f pxi q
“
i“1
n
ÿ
ErXs µ
´
σ
σ
µ µ
“ ´
σ σ
“0
Erzs “
px2i ´ 2µxi ` µ2 qf pxi q
i“1
9
同様に、定理 4.3 より
となる。このような確率の系列を,確率変数 X
と Y の同時確率分布 (joint probability distribu-
V pzq “ a2 V pXq
σ2
“ 2
σ
“1
tion) という。
f pxi , yj q “ P pX “ xi , Y “ yj q “ pij
i “ 1, 2, ¨ ¨ ¨ , n, j “ 1, 2, ¨ ¨ ¨ , m
4.2.3 積率
a を定数,k を正の整数とするとき
を確率変数 X, Y の同時確率関数という
k
ErpX ´ aq s
表 4.6 同時確率分布
HH
Y
H
HH y1
X
H
を a の回りの k 次の積率またはモーメント
(moment) という。つまり,平均値 ErXs は 0(原
点) の回りの 1 次の積率,分散 V pXq “ ErpX ´
x1
x2
..
.
xn
ErXsq2 s は 平均値 ErXs の回りの 2 次の積率
である。
平均値の回りの k 次の積率を
計
mk “ ErpX ´ ErXsqk s
p11
p21
..
.
pn1
p¨1
y2
¨¨¨
ym
計
p12
p22
..
.
pn2
p¨2
¨¨¨
¨¨¨
p1m
p2m
..
.
pnm
p¨m
p1¨
p2¨
..
.
pn¨
1
¨¨¨
¨¨¨
同時確率分布は表 4.6 のようにまとめることが
で表すとき,
できる。pi¨ は,Y がどの値をとるかに依存せ
γ1 “
せんど
m4
m22
ず,X が xi という値をとる確率である。これを
確率変数 X の周辺分布 (marginal distribution)
とが
という。同様に p¨j を確率変数 Y の周辺分布
を 尖度 (kurtosis) あるいは 尖りといい,
γ2 “
わいど
という。X, Y の周辺分布は以下のようにして
m3
求められる。
3{2
m2
ゆが
を 歪度 (skewness) あるいは 歪 みという。左右
f pxi q “ P pX “ xi q “ pi¨ “
対称の確率分布の歪度は 0 となる。特に,第 5
章で扱う正規分布では,尖度,歪度ともに 0 と
f pyj q “ P pX “ yj q “ p¨j “
なる。
m
ÿ
j“1
n
ÿ
pij
pij
i“1
4.3 同時確率分布
f pxq, f pyq をそれぞれ X, Y の周辺確率関数と
4.3.1 同時確率分布と周辺分布
いう。確率の総和が 1 となることから、
例: 2 つのサイコロを投げたとき,出る目の数
をそれぞれ X, Y とする。このとき、X “ i か
n ÿ
m
ÿ
つ Y “ j (i, j “ 1, 2, ¨ ¨ ¨ , 6) となる確率は,X
i“1 j“1
と Y の出る目は独立だから (X の値は Y “ j
pij “
n
ÿ
i“1
pi¨ “
m
ÿ
p¨j “ 1
j“1
が成り立つ。
となる確率に影響を与えない)
2 つの連続型確率変数 X, Y についても同時確
P pX “ i, Y “ jq “ P pX “ iqP pY “ jq
1
“
36
率密度関数および周辺確率密度関数を考えるこ
とができるが,ここでは省略する。
10
4.3.2 条件付き分布
均値) を以下のように定義する。
表 4.6 において,Y が Y “ yj という値をとる
ErXs “
という条件の下で,X “ xi となる確率を考え
ると
“
f pxi |yj q “ P pX “ xi |Y “ yj q
P pX “ xi , Y “ yj q
“
P pY “ Yj q
f pxi , yj q
“
f pyj q
“
n ÿ
m
ÿ
xi pij
i“1 j“1
m
n
ÿ
ÿ
pij
xi
i“1
n
ÿ
j“1
xi pi¨
i“1
Y の期待値も同様に定義される。
連続型確率変数の同時確率分布についても,期
となる。f pxi |yj q を, Y “ yj を与えたときの
待値は 1 変数の場合と同様に定義できる。定
X “ xi の条件付き確率関数という。
理 4.5 „ 定理 4.9 は連続型確率変数の場合にも
X が xi という値をとるという事象と Y が yj
成立する。
という値をとるという事象が独立であるという
ことは
定理 4.5 確率変数の和の期待値 確率変数 X,
P pX “ xi , Y “ yj q “ P pX “ xi qP pY “ yj q
Y について
ErX ` Y s “ ErXs ` ErY s
と な る こ と で あ る 。こ れ は ,同 時 確 率 関 数
f px, yq と周辺確率関数 f pxq, f pyq を用いれば
が成り立つ。
(証明)
f pxi , yj q “ f pxi qf pyj q
ErX ` Y s “
が成立することであり,pij , pi¨ , p¨j を用いれば
pij “ pi¨ p¨j
“
n ÿ
m
ÿ
pxi ` yj qpij
i“1 j“1
n ÿ
m
ÿ
xi pij `
i“1 j“1
が成り立つことである。この関係が,すべての
n ÿ
m
ÿ
yj pij
i“1 j“1
“ ErXs ` ErY s
i, j について成り立つとき,確率変数 X と Y
は (統計的に) 独立であるという。
定理 4.6 確率変数の積の期待値 確率変数 X と
Y が 独立であるならば
同様のことを,連続型確率変数に関しても定
義できる。連続型確率変数 X, Y の同時確率密
ErXY s “ ErXsErY s
度関数を f px, yq とし,周辺確率密度関数をそ
が成り立つ。
れぞれ f pxq, f pyq とする。このとき f px, yq “
(証明)
f pxqf pyq が成立すれば,確率変数 X と Y は
(統計的に) 独立であるという。
ErXY s “
4.3.3 期待値
離散型確率変数 X, Y の同時確率分布が表 4.6
“
のように与えられているとき,X の期待値 (平
n ÿ
m
ÿ
i“1 j“1
n ÿ
m
ÿ
i“1 j“1
11
xi yj pij
xi yj pi¨ p¨j (独立性より)
“
n
ÿ
xi pi¨
i“1
m
ÿ
となる。しかし CovpX, Y q “ 0 であるからと
yj p¨j
いって, X と Y が独立であるとはいえない。
j“1
“ ErXsErY s
相関係数 (correlation coefficient) を
同時確率分布の分散は,1 変数の場合と同様に
ρpX, Y q “
定義される。
で定義する。確率変数 X と Y が独立である
V pXq “ ErpX ´ ErXsq2 s
n ÿ
m
ÿ
“
pxi ´ ErXsq2 pij
“
CovpX, Y q
σpXqσpY q
とき,
ρpX, Y q “ 0
i“1 j“1
n
ÿ
となる。しかし,ρpX, Y q “ 0 であっても,X
i“1
と Y が独立であるとはいえないということに
pxi ´ ErXsq2 pi¨
V pY q に つ い て も 同 様 に 定 義 さ れ る 。ま た,
a
a
V pXq, V pY q, を標準偏差といい, σpXq (ま
注意が必要である。
たは σX ), σpY q (または σY ) などで表す。
あるならば,
定理 4.8 確率変数の和の分散 ρpX, Y q “ 0 で
共分散 (covariance) を次式で定義する。
V pX ` Y q “ V pXq ` V pY q
CovpX, Y q
“ ErpX ´ ErXsqpY ´ ErY sqs
n ÿ
m
ÿ
“
pxi ´ ErXsqpyj ´ ErY sqpij
(証明)
V pX ` Y q
“ ErtpX ` Y q ´ pErXs ´ ErY squ2 s
i“1 j“1
“ ErtpX ´ ErXsq ` pY ´ ErY squ2 s
共分散の定義において,X “ Y とすれば通常
“ ErpX ´ ErXsq2 s ` ErpY ´ ErY sq2 s
`2ErpX ´ ErXsqpY ´ ErY sqs
の分散が得られる。
定理 4.7 CovpX, Y q “ ErXY s ´ ErXsErY s
“ V pXq ` V pY q
`2ErpX ´ ErXsqpY ´ ErY sqs
(証明)
CovpX, Y q
n ÿ
m
ÿ
“
pxi ´ ErXsqpyj ´ ErY sqpij
“
こ こ で ,ρpX, Y q
“
0 な ら ば ErpX ´
ErXsqpY ´ ErY sqs “ 0 であるから V pX `
Y q “ V pXq ` V pY q.
i“1 j“1
n ÿ
m
ÿ
定理 4.5 と定理 4.8 は n 個の確率変数の場合に
pxi yj ´ xi ErY s
拡張することができる。特に, n 個の確率変数
i“1 j“1
´ ErXsyj ´ ErXsErY sqpij
X1 , X2 , ¨ ¨ ¨ , Xn が互いに独立で,同一の平均
値 ErXi s “ µ と分散 V pXi q “ σ 2 を持つとき,
“ ErXY s ´ ErXsErY s
算術平均 X “
確率変数 X と Y が独立であるとき,定理 4.6
立する。
より ErXY s “ ErXsErY s となるので,
n
1 ÿ
Xi について次の定理が成
n i“1
定理 4.9 X1 , X2 , ¨ ¨ ¨ , Xn は互いに独立で,同
じ平均 µ と分散 V pXi q “ σ 2 を持つとする。
CovpX, Y q “ 0
12
ただし,exppxq “ ex で e は自然対数の底であ
すなわち,
る。X の平均 ErXs “ µ, 分散 V pXq “ σ 2 と
ErXi s “ µ, V pXi q “ σ 2 , i “ 1, 2, ¨ ¨ ¨ , n
なる。正規分布の分布関数は
n
1 ÿ
とすると,算術平均 X “
Xi について,
n i“1
ErXs “ µ, V pXq “
F pxq “ P pX ő xq
żx
“
f ptqdt
σ2
n
´8
żx
“
が成り立つ。
´8
(証明) 定理 4.5 と定理 4.8 を用いれば
«
ff
n
1 ÿ
ErXs “ E
Xi
n i“1
で表すことができる (ただし,積分値を解析的
に求めることはできないので,正規分布表を用
いて確率を求める)。平均 µ, 分散 σ 2 の正規分
布を N pµ, σ 2 q と表し,確率変数 X が正規分布
n
1 ÿ
“ Er Xi s
n i“1
“
N pµ, σ 2 q に従うことを
n
1 ÿ
ErXi s
n i“1
X „ N pµ, σ 2 q
と書く。正規分布の確率密度関数をグラフで表
1
nµ
n
“µ
“
すと,図 5.1 のようになる。この曲線を正規曲
線と呼ぶ。
図 5.1 正規分布の確率密度関数
˜
¸
n
1 ÿ
Xi
V pXq “ V
n i“1
˜
¸
n
ÿ
1
“ 2V
Xi
n
i“1
“
Npµ, σ2 q
n
1 ÿ
V pXi q
n2 i“1
1
nσ 2
n2
σ2
“
n
“
µ ´ 2σ µ ´ σ
µ
µ ` σ µ ` 2σ
X
正規分布には以下のような性質がある。
1. 正規曲線は正の値をとり,しかも,正規曲
5 正規分布と正規分布表
線の下側の面積は 1 となる。
5.1 正規分布の特性
2. 正規曲線は平均 x “ µ に関して左右対称
正規分布 (normal distribution) は推定,検定等
となる。
の基本となる連続型分布である。正規分布の確
3. 正規分布の平均,メディアン,モードはす
率密度関数は次式で与えられる。
«
f pxq “
«
ˆ
˙2 ff
1
1 t´µ
? exp ´
dt
2
σ
σ 2π
1
1
? exp ´
2
σ 2π
ˆ
x´µ
σ
べて等しく µ になる。
˙2 ff
4. 正規曲線は, µ ´ σ ă x ă µ ` σ では下に
凹となり, x ă µ ´ σ および x ą µ ` σ で
13
は下に凸となる。
図 5.2 正規分布の上側確率
Np0, 1q
平均 0, 分散 1 の正規分布を標準正規分布とい
い,N p0, 1q で表す。
第 4 章で説明した標準化を行うことによって,
PpZ ą zq “ α
任意の正規分布 N pµ, σ 2 q を標準正規分布に
変換することができる。X „ N pµ, σ 2 q とす
ると,
0
Z
z
図 5.3 正規分布の上側確率: α “ 0.025
Z“
X ´µ
σ
Np0, 1q
0.025
とおけば,確率変数 Z は ErZs “ 0, V rZs “ 1
となる。しかも,Z は正規分布に従うというこ
0
とが知られている (証明は省略)。
1.96
Z
また,任意の母集団 (正規母集団に限らない) か
例題 5.1 正規分布表を見れば,Z „ N p0, 1q の
らの標本平均 X を標準化した変数は,標本が
時,P pZ ŕ 1.64q “ 0.0505 であることが分か
大きくなるにしたがって,標準正規分布に収束
る (等号がついていることに注意)。
することが知られている (中心極限定理,第 6
例題 5.2
章参照)。
P pZ ă 1.96q “ 1 ´ P pZ ą 1.96q
“ 1 ´ 0.0250 “ 0.9750
5.2 正規分布表の使い方
確率変数 Z が標準正規分布にしたがっている
とする。Z が 1.96 より大きくなる確率 P pZ ą
図 5.4 例題 5.2
1.96q を求めるにはどうしたらよいか? ùñ 標
Np0, 1q
準正規分布の確率密度関数を Z ą 1.96 の範囲
で積分すればよい。
主要な確率分布の確率はあらかじめ計算されて
表となっているので,その表を用いればよい。
P pZ ą 1.96q を求めるためには正規分布表を
0
使えばよい。
付表 1 (教科書 P. 251) では P pZ ą zq となる確
率 (上側確率) が計算されている。P pZ ą zq “
α となるような z のことを 100α パーセント
点という。また, P p|Z| ą zq を両側確率とい
い, P p|Z| ą zq “ α となるとき, z のことを
100pα{2q パーセント点という (ただし z ą 0)。
14
1.96
Z
例題 5.3
図 5.8 例題 5.5
P pZ ă ´1.96q “ P pZ ą 1.96q “ 0.0250
“
図 5.5 標準正規分布は
0.25 1.96
平均 Z “ 0 に対して左右対称 (例題 5.3)
´
0.25
1.96
例題 5.6 X „ N p5, 22 q のとき,P p6 ă X ă 8q
Np0, 1q
を求めよ。
X „ N p5, 22 q なので,Z “ pX ´ 5q{2 とおけ
ば Z „ N p0, 1q となる。したがって
0
´1.96
P p6 ă X ă 8q
ˆ
˙
6´5
X ´5
8´5
“P
ă
ă
2
2
2
“ P p0.5 ă Z ă 1.5q
“ P pZ ą 0.5q ´ P pZ ą 1.5q
“ 0.3085 ´ 0.0668 “ 0.2417
Z
1.96
例題 5.4
考え方 (1)
P p´1.96 ă Z ő 1.64q
図 5.9 例題 5.6
“ P p´1.96 ă Z ă 0.0q ` P p0.0 ő Z ő 1.64q
“ P p0.0 ă Z ă 1.96q ` P p0.0 ă Z ă 1.64q
Np5, 22 q
“ p0.5 ´ P pZ ą 1.96qq
`p0.5 ´ P pZ ą 1.64qq
“ p0.5 ´ 0.0250q ` p0.5 ´ 0.0505q “ 0.9245
5
ó
6
8
Np0, 1q
図 5.6 例題 5.4 の考え方 (1)
“
´1.96
0
1.64
`
´1.96
0
0.5 1.5
0
1.64
例題 5.7 ある会社の従業員の通勤時間は平均
考え方 (2)
60 分,標準偏差 15 分の正規分布にしたがって
いる。この会社の 2.5% の従業員は通勤時間の
P p´1.96 ă Z ő 1.64q
長さに不満をもっている。彼等の通勤時間は何
“ 1.0 ´ P pZ ą 1.96q ´ P pZ ą 1.64q
“ 1.0 ´ 0.0250 ´ 0.0505 “ 0.9245
分以上か?
従業員の通勤時間を X とすると X
図 5.7 例題 5.4 の考え方 (2)
2
„
N p60, 15 q。Z “ pX ´ 60q{15 と す る と ,
“ 1 ´
´1.96
0
1.64
´1.96
Z „ N p0, 1q。
´
0
0
1.64
P pZ ą 1.96q “ 0.0250
例題 5.5
であるから,
P p0.25 ă Z ă 1.96q
“ P pZ ą 0.25q ´ P pZ ą 1.96q
“ 0.4013 ´ 0.0250 “ 0.3763
ˆ
P
15
˙
X ´ 60
ą 1.96 “ 0.0250
15
P pX ą 89.4q “ 0.0250
したがって,89.4 分以上の通勤時間の従業員が
また,統計量の pX1 , X2 , ¨ ¨ ¨ , Xn q を,その実
不満を持っていることになる。
現値 px1 , x2 , ¨ ¨ ¨ , xn q で置き換えたものを統計
値という。
6 標本分布
標本分布 (sampling distribution) ¨ ¨ ¨ 統計量の従
6.1 無作為抽出
う分布。
統計分析の目的 ¨ ¨ ¨ データ (標本 sample) を用
6.2 標本平均の分布
いて分析の対象とされている集団 (母集団 pop-
有限母集団 (finite population) ¨ ¨ ¨ 構成する要素
ulation) に関する数量的な性質を引き出す。母
が有限個である母集団。
集団から標本を取り出すことを標本抽出 (sam-
無限母集団 (infinite population) ¨ ¨ ¨ 構成する要
pling) という。
素が無限に存在する母集団。
無作為標本 ¨ ¨ ¨ 作為無く抽出された標本。母集
6.2.1 有限母集団からの標本抽出
団に関する特性を統計的に推論するには,無作
N 個の要素から構成される有限母集団の要素
為標本を用いなければならない。
を px1 , x2 , ¨ ¨ ¨ , xN q とすると,この母集団の母
母集団から取り出された無作為標本が n 個の
平均,母分散はそれぞれ
要素からなっているとき,n を標本の大きさと
いう (n 個の要素が集まって 1 つの標本を形成
µ“
する)。
N
N
1 ÿ
1 ÿ
xi , σ 2 “
pxi ´ µq2
N i“1
N i“1
で与えられる。
標本を,確率変数として考えるときには大文字
この母集団から大きさ n の標本を無作為抽出
を使って pX1 , X2 , ¨ ¨ ¨ , Xn q で表し,実現値を考
することを考える。1 つの要素を取り出したと
えるときには小文字を使って px1 , x2 , ¨ ¨ ¨ , xn q
き,その要素を母集団に戻してから次の標本
のように表すことにする。
抽出を行うか,戻さないで残りの標本から抽
統計量 (statistic) ¨ ¨ ¨ 取り出された標本観測値
出するかによって,得られる標本の性質は異
に依存した特性値。統計量は抽出された標本
なる。取り出した標本を母集団に戻さない抽
pX1 , X2 , ¨ ¨ ¨ , Xn q の関数として
出方法は非復元抽出 (sampling without replace-
ment) と呼ばれ,戻して抽出する方法は復元抽
T “ f pX1 , X2 , ¨ ¨ ¨ , Xn q
出 (sampling with replacement) と呼ばれる。
6.2.2 無限母集団からの標本抽出
のように表される。
サイコロを振り,出た目の数を記録していくと
統計量の例:
する。際限なくサイコロを振り続ければ,その
標本平均
集合は無限個の要素を持つ。これは無限母集団
X“
n
ÿ
と考えることができる。
1
Xi
n i“1
一般に,無限母集団から抽出された無作為標本
pX1 , X2 , ¨ ¨ ¨ , Xn q を考えれば,Xi は互いに独
標本 (不偏) 分散
S2 “
立な同一の確率分布に従う確率変数と考えられ
n
ÿ
る。
1
pXi ´ Xq2
n ´ 1 i“1
無限母集団から無作為に抽出された大きさ n
16
の標本から計算される標本平均 X に関して
となる。
例題 6.2 K 市の勤労者家計の資産水準の分布
ErXs “ µ
2
V pXq “ ErpX ´ µq2 s “
は正規分布に従い,その標準偏差は 360 万円で
σ
n
あるという。この母集団の平均を標本平均で推
が成り立つ。
定するとき,推定値の誤差が 10 万円より大き
6.3 中心極限定理
くならない確率を 0.8 にしたい。どのくらいの
無限母集団からの大きさ n の無作為標本に基
大きさの標本が必要であろうか。
づく標本平均を X とし,
(解) 標本の大きさ n は次の不等式を満足しな
Zn “
ければならない。
X ´µ
?
σ{ n
P p|X ´ µ| ő 10q “ 0.8
とする。Zn は平均 0,分散 1 を持つ確率変数
?
ここで,Zn “ pX ´ µq{p360{ nq は標準正規
となる。Zn に関して以下の定理が成り立つ。
分布に従い,
定理 6.1 中心極限定理 Zn の分布は,標本の大
P p|Zn | ő 1.282q “ 0.8
きさ n が大きくなるにつれて,標準正規分布
N p0, 1q に近づいていく。
が成り立つ。したがって
この定理はもとの母集団の分布型に関する仮定
ˆ
˙
360
P |X ´ µ| ő 1.282 ˆ ?
“ 0.8
n
を必要としない。もとの分布が連続型であろう
と離散型であろうと,平均と分散さえ存在すれ
が得られる。これより
ば成立する。
360
1.282 ˆ ? “ 10
n
σ
X “ µ ` Zn ˆ ?
n
から n “ 2130 が得られる。
6.4 正規母集団からの標本分布
であり,n が十分大きければ Zn は標準正規分
6.4.1 標本分散の標本分布:カイ 2 乗分布
布に従うので,X は N pµ, σ 2 {nq に従う。
定理 6.2 平均 µ, 分散 σ 2 の正規分布に従う母
例題 6.1 A 市の勤労者家計の年間所得は平均
集団 (正規母集団) からの大きさ n の無作為標
550 万円,標準偏差 250 万円の分布に従うとい
本を X1 , X2 , ¨ ¨ ¨ , Xn で表す。このとき,
うことが分かっている。100 世帯の標本を抽出
U“
するとき,その平均所得が 600 万円を超える確
˙2
n ˆ
ÿ
Xi ´ µ
i“1
率を求めなさい。
σ
は自由度 n のカイ 2 乗分布 (chi-square distri-
(解) 中心極限定理により,標本平均 X は近似
bution) に従う (U „ χ2 pnq と表される)。
的に N p550, 2502 {100q にしたがう。したがっ
て X が 600 を超える確率は
pXi ´ µq{σ, pi “ 1, 2, ¨ ¨ ¨ , nq は互いに独立に
N p0, 1q に従うので,定理 6.2 は,互いに独立
˙
ˆ
600 ´ 550
P pX ą 600q “ P Zn ą
25
“ P pZn ą 2q “ 0.0228
な標準正規確率変数の 2 乗和はカイ 2 乗分布に
従うことを示している。
17
定理 6.3 S 2 を,平均 µ,分散 σ 2 の正規母集団
は自由度 16 のカイ 2 乗分布に従うので
から抽出された大きさ n の標本 (不偏) 分散と
ˆ
P
する。このとき,
S2
ő2
σ2
“ 1 ´ 0.01 “ 0.99
は,自由度 n ´ 1 のカイ 2 乗分布 χ2 pn ´ 1q に
となる。
従う。
6.4.2 t 分布
平均 µ, 分散 σ 2 の正規母集団からの大きさ n
図 6.1 カイ 2 乗分布の密度関数
の無作為標本の標本平均は,平均 µ, 分散 σ 2 {n
の正規分布に従う。よって
自由度 1
自由度 2
自由度 3
自由度 4
自由度 6
0.5
“ P pU ő 16 ˆ 2q
“ P pU ő 32q
˙2
n ˆ
ÿ
pn ´ 1qS 2
Xi ´ X
U“
“
σ2
σ
i“1
0.6
˙
Zn “
0.4
X ´µ
?
σ{ n
は標準正規分布に従う。Zn には母分散 σ が含
0.3
まれている。母分散が未知の場合には
0.2
Tn “
0.1
0
0
2
4
6
8
10
X ´µ
?
S{ n
を計算することが考えられるが,Tn の分布は
12
どのようなものになるであろうか?
図 6.2 自由度 5 のカイ 2 乗分布の密度関数
定理 6.4 Z を標準正規分布に従う確率変数と
し,U を自由度 k のカイ 2 乗分布に従う確率
0.05
0
11.07
変数とする。もし,Z と U が独立ならば,
χ2
Z
Tk “ a
U {k
例題 6.3 神戸市灘区の勤労者家計の年間所得
は正規分布にしたがっていることが分かってい
は自由度 k の t 分布 (t-distribution) に従う。
るとする。母集団から 17 人を無作為に選び出
(Tk „ tpkq と表される。)
して標本分散を計算し,母分散を推定するとす
自由度が 1 の t 分布はコーシー分布と呼ばれ
る。標本分散が母分散の 2 倍を超えない確率は
る。コーシー分布は平均も分散も存在しない分
いくらか?
布である。
(解) 標本分散を S 2 , 母分散を σ 2 とすると求め
t 分布の確率密度関数は,自由度が増すにつれ
る確率は
2
2
ˆ
P pS ő 2 ˆ σ q “ P
て,正規分布に近づいていく。
˙
S2
ő2
σ2
ここで
U“
16 ˆ S 2
σ2
18
図 6.3 t 分布の密度関数
6.4.3 F 分布
定理 6.6 U を自由度 m のカイ 2 乗分布に従う
0.45
自由度 1
自由度 4
N(0,1)
0.4
確率変数,V を自由度 n のカイ 2 乗分布に従
う確率変数とする。さらに,U と V は互いに
0.35
独立に分布するものとする。このとき,
0.3
f(x)
0.25
0.2
Y “
0.15
0.1
U {m
V {n
は自由度 pm, nq の F 分布 (F -distribution) に
0.05
従う (Y „ F pm, nq と表される)。
0
-4
-3
-2
-1
0
x
1
2
3
4
図 6.5 F 分布の密度関数
図 6.4 自由度 10 の t 分布の密度関数
0.005
0.005
自由度 (1,1)
自由度 (1.3)
自由度 (1,5)
1.2
1
0
´3.169
3.169
t
0.8
0.6
定理 6.5 平均 µ, 分散 σ 2 の正規母集団からの
大きさ n の無作為標本を X1 , X2 , ¨ ¨ ¨ , Xn で表
0.4
す。また標本平均,標本分散をそれぞれ,X,
0.2
S 2 で表す。このとき,
Tn “
0
0
X ´µ
?
S{ n
0.5
1
F
1.5
2
図 6.6 自由度 (10,20) の F 分布の密度関数
は自由度 n ´ 1 の t 分布 tpn ´ 1q にしたがう。
(証明) Zn は標準正規分布に従う。また,
0.05
2
pn ´ 1qS
σ2
は自由度 n ´ 1 のカイ 2 乗分布に従う。さら
Un “
0
に,Zn と Un は独立に分布することを証明す
2.35
F
1 つの 正規母集団から抽出された 2 つの 独立
ることができる (証明は省略)。したがって,定
な無作為標本を考える。それぞれの標本の大き
理 6.4 より
さを n1 , n2 , 標本分散を S12 , S22 とすると
Zn
Tn “ a
Un {pn ´ 1q
c
X ´ µ M pn ´ 1qS 2 {σ 2
?
“
σ{ n
n´1
c
M
2
X ´µ
S
X ´µ
?
?
“
“
2
σ{ n
σ
S{ n
pn1 ´ 1qS12
σ2
pn2 ´ 1qS22
“
σ2
Un1 “
Un2
はそれぞれ自由度 n1 ´ 1 と n2 ´ 1 のカイ 2 乗
は,自由度 n ´ 1 の t 分布に従う。
分布に従う。また,2 つの標本は独立に抽出さ
19
れているので,2 つのカイ 2 乗分布も独立に分
の値を推定しなければならない。µ をある 1 つ
布している。このことから,
の値で推定することを点推定 (point estimation)
V “
と言う。
Un1 {pn1 ´ 1q
S 2 {σ 2
S2
“ 12 2 “ 12
Un2 {pn2 ´ 1q
S2 {σ
S2
µ の点推定を行うとき,通常は標本平均
n
1 ÿ
x“
xi
n i“1
は自由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。
定理 6.7 正規母集団からの 2 つの独立な無作為
を点推定値とする。標本平均 x は,標本実現
標本を考える。それぞれの標本の大きさを n1 ,
値 xi の関数となっているため,統計値である
n2 , 標本分散を S12 , S22 で表す。このとき,標本
と言うことができる。x に含まれる標本実現値
分散の比 S12 {S22 は自由度 pn1 ´ 1, n2 ´ 1q の F
xi を,対応する確率変数 Xi で置き換えた
分布に従う。
X“
例題 6.4 神戸市西区の勤労者家計の年間所得
は正規分布にしたがっているとする。この分布
n
1 ÿ
Xi
n i“1
を標本平均の推定量 (estimator) という。X は
の分散は未知なので,標本分散によって推定し
統計量である。
たい。そのために A くんと B さんが独立に標
一般に,無作為標本 X1 , X2 , ¨ ¨ ¨ , Xn が与えら
本を集めようとしている。A 君は標本の大きさ
れたときに,ある母数 (パラメータ) θ を推定
を 9 にし,B さんは標本の大きさを 16 にする
p 1 , X2 , ¨ ¨ ¨ , Xn q を推定
するための統計量 θpX
予定である。A 君の標本から計算された標本分
p 1 , x2 , ¨ ¨ ¨ , xn q を推定
量といい,その実現値 θpx
散が,B さんの標本から計算された標本分散の
値(estimate) という。6 章で見たように統計量
4 倍を超えない確率はいくらか?
の従う分布を標本分布という。推定量も統計量
(解) A 君,B さんの標本分散をそれぞれ S12 , S22
であるので,標本分布に従う。例えば,正規母
で表すと,求める確率は
集団 N pµ, σ 2 q からの大きさ n の無作為標本の
P pS12
ő4ˆ
S22 q
標本平均 X の標本分布は N pµ, σ 2 {nq であり,
?
その標準誤差(standard error) は σ{ n である。
である。また,定理 6.7 より V “ S12 {S22 は自
7.2 推定量の性質
由度 p8, 15q の F 分布に従い,
以下では,推定量の持つべき望ましい性質につ
P pS12 ő 4 ˆ S22 q “ P pS12 {S22 ő 4q “ 0.99
いて説明する。
7.2.1 不偏性
となる。
ある母数 θ の推定量を
7 推定
p 1 , X2 , ¨ ¨ ¨ , Xn q
θp “ θpX
7.1 推定と推定量
とすると
母集団の分布が平均 µ, 分散 σ 2 の正規分布で
p “θ
Erθs
あるとし,この母集団から大きさ n の無作為標
本 x1 , x2 , ¨ ¨ ¨ , xn が抽出されたとする。母集団
が成立するとき,θp を θ の不偏推定量(unbiased
の平均 (母平均) µ の値が未知であり,我々の関
estimator) という。また,不偏推定量の実現値
心が µ の値を知ることにあるならば,我々は µ
を不偏推定値(unbiased estimate) という。
20
もし,不偏性(unbiasedness) という性質が満た
7.2.2 一致性
されなければ,何度も推定を繰り返したとき
ある母数 θ の推定量 θp が
に,母数の真の値よりも大きな (あるいは小さ
lim P p|θp ´ θ| ŕ q “ 0
nÑ8
な) 値の推定値が多く得られる傾向がある。し
かし,不偏性が満たされるならば,母数の値よ
を,任意の ą 0 について満たすとき,θp を一
りも大きな推定値と小さな推定値がほぼ同じ割
致推定量 (consistent estimator) という。θp が θ
合で得られる。
の一致推定量であることを,θp が θ に確率収束
するといい,
p と
図 7.1 不偏推定量 pθq
plim θp “ θ
r
上への偏りのある推定量 pθq
と書く。
p
θ
推定量 θp が,θ の一致推定量であるための 1 つ
r
θ
の十分条件は,
θ
p “ θ, lim V pθq
p “0
lim Erθs
θ1
nÑ8
p “ θ, Erθs
r “ θ1 で θ ă θ1 である。
ただし,Erθs
であることである。ただし,これは必要条件で
はない。
例 7.1 標本平均 X の平均 (X の標本分布の平
例 7.3 標本平均 X に関しては
均) は母平均 µ であるから
lim ErXs “ lim µ “ µ
ErXs “ µ
nÑ8
nÑ8
が成立する。したがって,標本平均は母平均の
σ2
“0
nÑ8 n
lim V rXs “ lim
nÑ8
不偏推定量である。
であるから,X は µ の一致推定量である。よ
例 7.2 母分散の推定値として
S ˚2
nÑ8
って
n
1 ÿ
pXi ´ Xq2
“
n i“1
lim P p|X ´ µ| ŕ q “ 0, ą 0
nÑ8
が成立する。この式を書き換えると,
よりも標本分散
lim P p|X ´ µ| ă q “ 1, ą 0
nÑ8
n
1 ÿ
S2 “
pXi ´ Xq2
n ´ 1 i“1
となる。この式は,n が大きくなるにしたがっ
て X の標本分布が µ に集中していくことを意
のほうが望ましいと考えられるのは,S 2 が σ 2
味している。
の不偏推定量となっているからである。
図 7.2 n1 ă n2 ă n3 に対する X の標本分布
n´1 2
σ2
ErS s “
σ “ σ2 ´
n
n
˚2
となることが示され,n が有限である限り,S
Pp|X ´ µ| ă q
n3
2
n2
には ´σ 2 {n だけの偏りがある。S 2 は σ 2 の不
n1
偏推定量であるので,特に標本不偏分散と呼ば
れることがある。また,S 2 の正の平方根を標
µ
µ´
本標準偏差という。
21
µ`
母分散 σ 2 の推定量に関しては,S 2 も S ˚2 も
図 7.3 正規分布の上側確率が
一致推定量となる。
α{2 となる点 (zα{2 )
7.2.3 有効性
ここの面積が
PpZ ą zα {2q “ α{2
母数 θ に対する二つの推定量 θp と θr がともに
普遍性と一致性を満たすとする。このとき,θp
の分散の方が θr の分散よりも小さならば,θp の
方が θr よりも望ましい推定量といえる (θp の方
0
zα{2
が母数の回りに分布している度合いが大きいた
め,真の値に近い推定値を得られる確率が大き
zα{2 が求まれば,|pX ´ µq{σpXq| ă zα を解く
い)。θp の分散の方が θr の分散よりも小さいと
ことにより
き,θp を相対的に有効な推定量と言う。
P pX ´ zα{2 σpXq ă µ ă X ` zα{2 σpXqq
“1´α
不偏推定量の分散には下限があり,クラーメ
ル・ラオの不等式を用いて得ることができる。
このことから,µ が区間 pX ´ zα{2 σpXq, X `
もし,母数 θ のある不偏推定量の分散がクラー
zα{2 σpXqq に含まれる確率は 1 ´ α である。
メル・ラオの不等式の下限を達成するならば,
pX ´ zα{2 σpXq, X ` zα{2 σpXqq
その推定量は,θ のすべての不偏推定量の中で
もっとも小さい分散を持つことになる。このよ
を,母平均 µ の信頼係数 (または信頼度) 1 ´ α
うな推定量を有効推定量 (efficient estimator) と
の信頼区間 (confidence interval) といい,信頼
呼び,有効性 (efficiency) は推定量の持つべき
区間の上限と下限を信頼限界という。
望ましい性質の 1 つである。
例題 7.1 正規母集団 N pµ, 22 q から大きさ 16
7.3 区間推定
の標本をとって標本平均を計算したところ,
7.3.1 平均の区間推定:母分散が既知の場合
x “ 3.2 であった。µ の信頼係数 0.95 の信頼区
正規母集団 N pµ, σ 2 q の平均の区間推定につい
間を求めよ。
て考える。簡単化のため σ 2 は既知であると仮
(解) 信頼係数 0.95 (α “ 0.05) に対する zα{2 の
定する。
値は 1.96 である。また
大きさ n の無作為標本 X1 , X2 , ¨ ¨ ¨ , Xn の標本
σ
2
σpxq “ ? “ ? “ 0.5
n
16
平均 X の標本分布は N pµ, σpXqq である (ただ
?
し,σpXq “ σ{ n)。 よって
Zn “
であるから,信頼限界は
X ´µ
σpXq
x ˘ zα{2 σpxq “ 3.2 ˘ 1.96 ˆ 0.5
は標準正規分布に従う。したがって,正規分布
し た が っ て ,信 頼 係 数 0.95 の 信 頼 区 間 は
表から
p2.22, 4.18q である。
信頼係数の意味
ˇ
ˆˇ
˙
ˇX ´ µˇ
ˇ
ˇ
P p|Zn | ă zα{2 q “ P ˇ
ă zα{2
σpXq ˇ
“1´α
標本 X1 , X2 , ¨ ¨ ¨ , Xn の実現値が取られるまで
は,X は確率変数なので,
を満たす zα{2 の値を探すことができる。
pX ´ zα{2 σpXq, X ` zα{2 σpXqq
22
が µ を含む確率は確かに 1 ´ α である。しか
となる。よって,信頼係数 1 ´ α の信頼区間の
し,X の実現値が x であるとき,µ の信頼区
信頼限界は X ˘ tα{2 pkqpS{ nq となる。
間 px ´ zα{2 σpxq, x ` zα{2 σpxqq が µ を含む確
標本が大きいとき (数学的には n Ñ 8),t 分
率が 1 ´ α であると言うことはできない。例え
布は標準正規分布に収束することが知られてい
ば,例題 7.1 では信頼係数 0.95 の信頼区間は
る。このことから標本数が有限であっても,あ
p2.22, 4.18q であったが,P p2.22 ă µ ă 4.18q
る程度大きいなら,統計量 Tn があたかも標準
は 0.95 であると言うことはできない。2.22 ă
正規分布に従うとみなして差し支えない。この
µ ă 4.18 は成立するか,成立しないかのいず
とき,Tα{2 pkq の代わりに zα{2 を用いて信頼区
れかなので,P p2.22 ă µ ă 4.18q は 0 か 1 で
間が計算される。このように,標本がある程度
ある。
大きいときに,ある統計量が標準正規分布に従
?
2
正規母集団 N pµ, σ q から大きさ n の標本を抽
うとみなして推測を行うことを,正規分布によ
出する実験を 100 回繰り返し,100 個の信頼係
る近似 (あるいは単に正規近似) という。
数 0.95 の信頼区間を計算したとする。このと
例題 7.2 正規母集団 N pµ, σq から大きさ 9 の
き,およそ 95 個程度の信頼区間が真の µ の値
標本をとって標本平均と標本標準偏差を計算し
を含むと考えられる,と言うのが信頼係数 0.95
たところ,それぞれ x “ 3.2, s “ 2.1 であっ
の意味するところである。
た。µ の信頼係数 0.95 の信頼区間を求めよ。
7.3.2 平均の区間推定:母分散が未知の場合
(解) n “ 9, x “ 3.2, s “ 2.1, tα{2 pkq “ 2.306
母 分 散 σ 2 が 既 知 の と き は Zn “ pX ´
(自由度は k “ 8 ´ 1 “ 9) であるから,信頼係
?
µq{pσ{ nq „ N p0, 1q を用いて µ の信頼区間
数 0.95 の信頼限界は
が計算できた。しかし,実際には σ 2 は未知で
s
2.1
x ˘ tα{2 pkq ? “ 3.2 ˘ 2.306 ˆ ?
n
9
ある場合のほうが多い。σ 2 が未知の場合には
?
Zn “ pX ´ µq{pσ{ nq の σ を S で置き換えた
から計算される。よって信頼係数 0.95 の信頼
統計量
区間は p1.586, 4.814q となる。
Tn “
X ´µ
?
S{ n
例題 7.2 で tα{2pkq “ 2.306 を用いずに正規分
布による近似値 zα{2 “ 1.96 を用いた場合,信
が自由度 k “ n ´ 1 の t 分布に従う (定理 6.5)。
頼区間は p1.828, 4.572q となる。この近似はあ
したがって,t 分布表から
まり正確であるとはいえない。これは標本の大
ˇ
ˆˇ
˙
ˇX ´ µˇ
P p|Tn | ă tα{2 pkqq “ P ˇˇ ? ˇˇ ă tα{2 pkq
S{ n
“1´α
きさが 9 であり,あまり大きいとはいえないた
めである。もし,例題 7.2 で標本の大きさのみ
が異なり,n “ 25 であったとすると,t 分布に
よる信頼区間は p2.333, 4.067q,正規分布によ
を満たす t 分布の上側 100 ˆ α{2 パーセント点
る信頼区間は p2.377, 4.023q で,近似は比較的
tα{2 pkq の値を見つけることができる。この式
良好であると言える。
を µ について解くことにより
ˆ
S
S
P X ´ tα{2 pkq ? ă µ ă X ` tα{2 pkq ?
n
n
“1´α
母集団が正規分布に従わないときでも,標本
˙
が大きければ,中心極限定理により標本平均は
正規分布に収束する。したがって,標本が大き
23
上の式をを σ 2 について解くと
ければ,母集団の分布が正規分布でなく,分散
が未知である場合でも,正規近似によって母平
˜
P
均の信頼区間を計算することができる。
ぜんきんぶん ぷ
標 本 が 大 き い 場 合 の 近 似 分 布 を 漸近分布
pn ´ 1qS 2
pn ´ 1qS 2
ă σ2 ă 2
2
χα{2 pn ´ 1q
χ1´α{2 pn ´ 1q
¸
“1´α
(asymptotic distribution) といい,漸近分布に基
づいて推測を行うことを大標本法という。これ
したがって,σ 2 の信頼係数 1 ´ α の信頼区間は
に対し,標本が小さい場合の厳密な分布を小標
˜
本分布あるいは精密分布といい (例:t 分布),
小標本分布に基づいて推測を行うことを小標本
pn ´ 1qS 2
pn ´ 1qS 2
,
χ2α{2 pn ´ 1q χ21´α{2 pn ´ 1q
¸
で与えられる。
法という。
7.3.3 分散の区間推定
例題 7.3 正規母集団 N pµ, σ 2 q から大きさ 20
2
正規母集団 N pµ, σ q から抽出された大きさ n
の標本をとって標本分散を計算したところ,
の無作為標本に基づく標本分散を S 2 とすると,
s2 “ 17.2 であった。信頼係数 0.95 の信頼区間
を求めなさい。
n
ÿ
pn ´ 1qS 2
pXi ´ Xq2
“
σ2
σ2
i“1
(解) χ21´α{2 p19q “ 8.91, χ2α{2 p19q “ 32.85 で
あるから,信頼係数 0.95 の信頼区間は
は 自 由 度 n ´ 1 の カ イ 2 乗 分 布 に 従 う (定
ˆ
˙
17.2
17.2
19 ˆ
“ p9.95, 36.68q
, 19 ˆ
32.85
8.91
理 6.3)。自由度 n ´ 1 のカイ 2 乗分布の下側
および上側確率が α{2 となる点をそれぞれ
となる。
χ21´α{2 pn ´ 1q および χ2α{2 pn ´ 1q とすると
7.3.4 比率の区間推定
これまでは正規母集団の平均と分散に関する
˜
P χ21´α{2 pn ´ 1q ă
pn ´ 1qS 2
σ2
区間推定について説明してきた。ここでは,2
項分布の母数に対する区間推定について説明
¸
ă χ2α{2 pn ´ 1q
する。
“1´α
第 1 章の表 1.6 より,2008 年度の年間収入が
800 万円以上の勤労者世帯は,調査された 4271
が成立する。
世帯の 31.2% であることが分かる。いま,あ
る世帯の年間収入が 800 万円未満であるか,そ
図 7.4 自由度 n ´ 1 のカイ2乗分布の
れ以上であるかのみに注目し,全国の勤労者世
下側および上側確率が α{2 となる点
帯のうち何 % の世帯の年間収入が 800 万円以
pχ21´α{2 pn ´ 1q, χ21α{2 pn ´ 1qq
上であるかを推定したい。つまり,年間収入が
700 万円以上の勤労者世帯の,全国の勤労者世
帯に対する比率 p を推定したいとする。
i 番目の勤労者世帯の年間収入が 800 万円未
α{2
χ21´α{2 pn ´ 1q
α{2
χ2α{2 pn ´ 1q
満であれば Xi “ 0, 800 万円以上であれば
χ2
Xi “ 1 となるような確率変数 Xi を考える。n
24
世帯を調査して Xi の合計
řn
i“1
Xi を求める
と,この合計が年間収入が 800 万円以上の世帯
の数になる。R “
řn
i“1
˜
P
Xi とおくと,R は平
c
pp ´ zα{2
均 np, 分散 npq (ただし,q “ 1 ´ p) の 2 項分
ppqp
ă p ă pp ` zα{2
n
c
¸
ppqp
n
“1´α
布に従う確率変数である。
となるので,p の信頼係数 1 ´ α の (近似的な)
n
R
1 ÿ
pp “
“
Xi
n
n i“1
信頼区間は
˜
c
pp ´ zα{2
は母数 p の推定値であり,pp の標本分布の平均
は p, 分散は pq{n である。Erp
ps “ p であるか
ppqp
, pp ` zα{2
n
c
ppqp
n
¸
で与えられる。
ら pp は p の不偏推定量である。
p の信頼区間を求めるためには,2 項分布の確
例題 7.4 2008 年に 4271 世帯に対して調査を
率関数に基づいて計算を行わなければならな
行ったところ,年間収入が 800 万円以上の勤労
い。しかし,n が大きいとき,この計算は非常
者世帯は全体の 31.2% であることが分かった。
に煩雑である。ところが,pp は標本平均である
年間収入が 800 万円以上の勤労者世帯の比率
から,n が大きいとき,中心極限定理が適応で
の,信頼係数 0.95 の信頼区間を求めなさい。
き,正規近似によって信頼区間を求めることが
できる。
(解) n “ 4271, pp “ 0.312 であるから,漸近分
a
布の標準誤差は ppqp{n “ 0.00709 となる。信
pp の平均は p, 分散は pq{n であるから,pp の漸
頼係数 0.95 に対する zα{2 の値は 1.96 である
近分布は N pp, pq{nq となる。ところで,標準
から
a
誤差 pq{n は未知母数 p と q を含んでいるの
c
pp ˘ zα{2
で,標本のみから計算することができない。そ
ppqp
“ 0.312 ˘ 1.96 ˆ 0.00809
n
こで,未知母数 p に推定量 pp を代入して,pp の
か ら 信 頼 限 界 を 計 算 す る と ,信 頼 区 間 は
a
標準誤差を ppqp{n (ただし,qp “ 1 ´ pp) で近似
p0.298, 0.326q となる。
するという方法がとられることが多い。この方
8
法を用いれば,pp の漸近分布は N pp, ppqp{nq で
仮説検定
あると考えられる。
8.1 仮説検定の考え方
正規分布の標準化の公式により
次の例題を考える。
例題 8.1 ある型の乗用車の燃費は,従来車で
pp ´ p
Zn “ a
ppqp{n
は平均 17km{`, 標準偏差 2km{` の正規分布に
従うという。改良車が開発され,16 台の走行
が近似的に標準正規分布に従うので,zα{2 を
テストを行ったところ,平均は 18km{` であっ
標準正規分布の上側確率が α{2 となる点とす
た。改良車の燃費は従来車よりも良くなったと
ると
いえるか?ただし,改良車の標準偏差は,従来
ˇ
˜ˇ
¸
ˇ pp ´ p ˇ
ˇ
ˇa
P ˇ
ˇ ă zα{2 “ 1 ´ α
ˇ ppqp{n ˇ
者と同じ 2km{` であるとする。
改良車の燃費を表す確率変数を X とすると,X
は平均 µ, 分散 22 の正規分布に従う。したがっ
が近似的に成立する。これを p について解くと
25
て,第 i 番目の改良車の燃費を表す確率変数 (無
とでは X1 , X2 , ¨ ¨ ¨ , X16 „ N p17, 22 q である。
作為標本) を Xi とすると,X1 , X2 , ¨ ¨ ¨ , X16 „
したがって標本平均は
2
N pµ, 2 q となる。改良車の走行テストの行っ
たところ,X1 , X2 , ¨ ¨ ¨ , X16 の実現値の平均が
ˆ
˙
16
1 ÿ
22
X“
Xi „ N 17,
16 i“1
16
18km{` であった。この「18km{`」と言う結果
は,従来車の平均 17km{` よりも大きい。しか
し,この結果が本当に µ が 17km{` よりも大
となる。実際に走行試験を行った結果,X の
きくなったために生じたのか,それとも µ は
実現値は 18km{` である。上の式を用いて X
17km{` と変わらないが好条件によってたまた
が 18 よりも大きくなる確率を計算することに
ま生じたのかは仮説検定を行わなければ分から
よって,帰無仮説が正しいとき,18 という実現
ない。
値がどの程度起こりやすいかを知ることができ
る。実際に計算を行うと,
仮説検定では,まず帰無仮説 (null hypothesis)
と対立仮説 (alternative hypothesis) をたてる。
ˆ
P pX ŕ 18q “ P
従来車と改良車の燃費が同じであれば µ “ 17
であり,改良車の燃費が向上していれば µ ą 17
X ´ 17
18 ´ 17
?
?
ą
2{ 16
2{ 16
˙
“ P pZ ŕ 2q “ 0.0228
である。改良車の燃費が悪化していれば µ ă
17 であるが,そのようなことは無いと思われ,
実際,走行試験の結果は 18km{` で 17km{` よ
が得られる。この確率を p 値という。p 値が
0.0228 であると言うことは,H0 : µ “ 17 が
りも大きい。したがって,この問題では µ ă 17
正しいとすれば,X の実現値が 18 以上になる
の場合を考える必要は無いと判断される。そこ
確率は 0.0228 であると言うことになる。つま
で,次のように帰無仮説と対立仮説をたてる。
り,H0 が正しければ,同じ実験を 100 回行っ
帰無仮説 H0 : µ “ 17
たとしても,X が 18 以上になるのは 2 回程
対立仮説 H1 : µ ą 17
度である。このことから,走行テストの結果の
X “ 18 が H0 : µ “ 17 のもとでたまたま起
帰無仮説は「改良車と従来車の燃費は同じ」で
こったと考えるよりも,H1 : µ ą 17 が正しく
あることを意味し,対立仮説は「改良車の燃費
て X “ 18 が得られたと考えるほうが自然であ
は従来車より向上した」ことを意味する。
る。例えば,対立仮説が,真の µ “ 17.5 であっ
仮説検定では,一般に捨てたい仮説を帰無仮設
たとする。このとき,X ŕ 18 となる確率は
にする場合が多い。仮説検定を行って帰無仮説
を捨てるとき,帰無仮説を棄却する (reject) と言
ˆ
い,捨てずに採用することを採択する (accept)
P pX ŕ 18q “ P
という。この問題では,µ “ 17 が棄却された
X ´ 17.5
18 ´ 17.5
?
?
ą
2{ 16
2{ 16
˙
“ P pZ ŕ 1q “ 0.1587
とき燃費が向上したと言えるので,棄却したい
仮説は µ “ 17 であり,これが帰無仮設となる。
Xi を走行テストで使われる各車の燃費を表す
であり,X “ 18 という結果は十分起こりうる
確率変数 (無作為標本) とする。帰無仮説のも
と考えられる。
26
図 8.1 P pX ą 18q となる確率
右側検定と左側検定を片側検定という。また,
µ “ µ0 のようにパラメータの値が 1 点だけの
ここの面積が
PpX ą 18q “ 0.0228
仮説を単純仮説,µ ą µ0 のように 1 点だけで
ない仮説を複合仮説という。
15
16
17
18
19
仮説検定の方法
X
通常は次のようにして検定を行う。正規母集団
検定では p 値がある値よりも小さければ,帰無
N pµ, σ 2 q から抽出された大きさ n の無作為標
仮説が正しいと言う可能性は小さく,対立仮説
本を X1 , X2 , ¨ ¨ ¨ , Xn とすると
が正しいと判断される。この判断の基準となる
ˆ
X„N
確率の値を有意水準といい,通常 α で表す。有
意水準には,慣例として,0.01 (1%), 0.05 (5%),
µ,
σ2
n
˙
であるから,標準化すると
0.10 (10%) が用いられることが多い。α “ 0.05
と言うことは,帰無仮説が正しいと仮定したと
Z“
き,100 回の実験のうち 5 回程度しかその事象
X ´µ
? „ N p0, 1q
σ{ n
が起こらない場合に帰無仮説を棄却することを
となる。
意味する。有意水準 0.01 で帰無仮説が棄却さ
対立仮説が H1 : µ ą µ0 の場合を考える。実現
れた場合,その事象は 100 回の実験のうち 1 回
値が取られる前は Z は確率変数であり,帰無
程度しか起こらないので,有意水準 0.05 より
仮説が正しければ Z は標準正規分布に従うの
も強く棄却されたことになる。例題 8.1 では,
で,ErZs “ 0 である。しかし,対立仮説が正
帰無仮説の下で P pX ŕ 18q “ 0.228 であるか
しいときには
ら,有意水準 0.05 では帰無仮説は棄却され,有

X ´ µ0
?
ErZs “ E
σ{ n
„

X ´ µ ` µ ´ µ0
?
“E
σ{ n
„

µ ´ µ0
X `µ
?
?
“E
`
σ{ n
σ{ n
„
意水準 0.01 では帰無仮説は採択される。
8.1.1 正規母集団の検定:母分散が既知の場合
仮説検定を行うときには,目的に応じて帰無仮
説と対立仮説を立てる。母平均 µ が特定の値
µ0 に等しいかどうかを検定したい場合には,次
の 3 つの対立仮説が考えられる。
ErX ´ µs µ ´ µ0
?
?
`
σ{ n
σ{ n
µ ´ µ0
? ą0
“
σ{ n
“
H1 : µ ą µ0 (右側検定)
H1 : µ ă µ0 (左側検定)
H1 : µ ‰ µ0 (両側検定)
となる。したがって Z は,帰無仮説が正しく
µ に関して,µ0 より大きいか小さいかの情報が
ない場合,平均が正で分散が 1 の正規分布とな
無いときには両側検定が用いられる。何らかの
るため,Z の実現値が大きくなる可能性が高い
情報があり,帰無仮説が正しくないときには µ
(図 8.2 参照)。このことから,Z の実現値があ
が µ0 より大きい (小さい) ことが分かっている
る程度大きくなった場合に帰無仮説を棄却する
場合には,右側検定 (左側検定) が用いられる。
ことになる。
27
図 8.2 帰無仮説と対立仮説のもとでの
である。有意水準を α “ 0.05 とすると,棄却
Z の分布
点は zα “ 1.645 であり,検定統計値は棄却域
対立仮説の
もとでの分布
´
¯
µ´µ0
‘ ,1
N σ{
n
帰無仮説の
もとでの分布
Np0, 1q
´4 ´3 ´2 ´1
0
Z
1
2
3
4
に入る (図 8.3)。このことから,帰無仮説は有
意水準 0.05 で棄却される。
図 8.3 検定の棄却域
5
棄却域
帰無仮説が正しいとき,Z は標準正規分布に従
うので
α “ 0.05
ˆ
P pZ ą zα q “ P
X ´ µ0
? ą zα
σ{ n
˙
“α
´3
´2
´1
を満たす zα (標準正規分布の上側 100α% 点)
0
Z
採択域
1
2
1.645
3
の値を正規分布表から求めることができる。例
対立仮説が H1 : µ ă µ0 の場合には,H1 が正
えば α “ 0.05 のとき z0.05 “ 1.645 である。こ
しければ ErZs ă 0 であることがわかる。この
の α “ 0.05 は有意水準を表しており,Z の実
ことから,帰無仮説が正しくないとき Z の実現
現値が 1.645 よりも大きくなるのは,100 回の
値は小さくなる可能性が高い。したがって,Z
実験で 5 回程度である。したがって,
の実現値がある程度小さいときに帰無仮説を棄
Z“
却すればよい。帰無仮説が正しいとすれば,Z
X ´ µ0
?
σ{ n
は標準正規分布に従い,標準正規分布は原点に
の実現値が 1.645 よりも大きかったとすると,
対して左右対称であるから
帰無仮説のもとでは 100 回の実験で 5 回程度し
ˆ
か起こらない珍しいことが起こったことになる
˙
X ´ µ0
? ă ´zα
σ{ n
ˆ
˙
X ´ µ0
? ą zα “ α
“P
σ{ n
P pZ ă ´zα q “ P
ので,帰無仮説が正しくないと判断される。す
なわち,Z の実現値が 1.645 よりも大きければ,
帰無仮説は有意水準 0.05 で棄却される。z 軸
の,1.645 よりも右側の部分を棄却域 (critical re-
を満たす zα の値を正規分布表から求めるこ
gion),左側の部分を採択域 (acceptance region)
とができる。よって,右側検定の場合と同様
といい,1.645 を棄却点 (critical value) あるい
に,有意水準 α の検定の棄却点 ´zα , 棄却域
?
は臨界値という。また,Z “ pX ´ µq{pσ{ nq
tZ|Z ă ´zα u, 採択域 tZ|Z ŕ ´zα u が得ら
を検定統計量 (test statistic) といい,その実現
れる。
値を検定統計値という。一般に,対立仮説が
H1 : µ ą µ0 で有意水準が α のとき,棄却点は
対立仮説が H0 : µ ‰ µ0 であり,帰無仮説が正
zα で与えられ,棄却域は tZ|Z ą zα u,採択域
しくないときには,Z の実現値は大きくなりや
は tZ|Z ő za u となる。例題 8.1 の場合,検定
すいのか,小さくなりやすいのか分からない。
統計値は
このことから,両側検定では Z の実現値の絶
z“
対値がある程度大きいときに帰無仮説を棄却す
x´µ
18 ´ 17
?
? “
“2
σ{ n
2{ 16
る。帰無仮説が正しければ Z は標準正規分布
28
に従うので,
となり,棄却域を X で表すと
ˇ
ˆˇ
˙
ˇ X ´ µ0 ˇ
? ˇˇ ą zα{2
P p|Z| ą zα{2 q “ P ˇˇ
σ{ n
“α
σ
X ą µ0 ` zα ?
n
となる。
を満たす zα{2 の値を正規分布表から見つけ
ることができる (例えば,α “ 0.05 のとき,
同様に,対立仮説が H1 : µ ă µ0 の場合の棄却
域は
zα{2 “ 1.96)。絶対値を外すと,
σ
X ă µ0 ´ zα ?
n
P pZ ă ´zα{2 , Z ą zα{2 q
ˆ
˙
X ´ µ0
X ´ µ0
? ă ´zα{2 ,
? ą zα{2
“P
σ{ n
σ{ n
“α
となる。
また,対立仮説が H0 : µ ‰ µ0 のときは,棄却
域は
となる。よって,両側検定の棄却域は tZ|Z ă
´zα{2 , Z ą zα{2 u となる。
"
例題 8.2 ある乾電池の電圧が 1.5V から 0.8V
σ
σ
X ă µ0 ´ zα{2 ? , X ą µ0 ` zα{2 ?
n
n
となる。
に下がるまでの時間を調べるため,49 個の乾
電池で実験したところ,平均が x “ 68.4 分で
例題 8.1 の場合,µ0 “ 17, σ “ 2, n “ 16 であ
あった。この乾電池の放電特性が,既知の分
り,有意水準 α “ 0.05 のとき,zα “ 1.645 で
散 σ 2 “ 142 の正規分布 N pµ, 142 q に従うも
あるから,X で表した棄却域は
のとして,帰無仮説 H0 : µ “ 72 を対立仮説
σ
X ą µ0 ` zα ?
n
H1 : µ ‰ 72 に対して有意水準 0.05 で検定し
なさい。
2
“ 17 ` 1.645 ˆ ? “ 17.82
16
(解) α “ 0.05 で,両側検定であるから,正規
分布表により棄却域は tZ ă ´1.96, Z ą 1.96u
である。X の実現値は 18 であり,棄却域に入
となる。また,統計値は
るので,帰無仮説は有意水準 0.05 で棄却され
x ´ µ0
68.4 ´ 72
?
? “
z“
“ ´1.8
σ{ n
14{ 49
る。
例題 8.2 の場合には,µ0 “ 72, σ “ 14, n “ 49
となり,採択域に入るので,帰無仮説は有意水
であり,有意水準は α “ 0.05 であるから,
準 0.05 で採択される。
zα{2 “ 1.96 である。よって,X で表した棄却
棄却域を標準正規分布に基づいて設定するので
域は
はなく,X の分布に基づいて表すこともでき
σ
X ă µ0 ´ zα{2 ?
n
る。対立仮説が H1 : µ ą µ0 の場合には
ˆ
P
X ´ µ0
? ą zα
σ{ n
*
14
“ 72 ´ 1.96 ˆ ? “ 68.08
49
σ
X ą µ0 ` zα{2 ?
n
14
“ 72 ` 1.96 ˆ ? “ 75.92
49
˙
“α
より
ˆ
˙
σ
P X ą µ0 ` zα ?
“α
n
29
となり,X の実現値 x “ 68.4 は棄却域に入ら
図 8.4 第 1 種の誤りの確率 (α) と
ない。よって,帰無仮説は有意水準 0.05 で採
第 2 種の誤りの確率 pβq
α を小さくするために
f ˚ を右に動かすと β は
大きくなる
択される。
帰無仮説 H0 の
もとでの分布
β
検定の手順をまとめると以下のようになる。
α
対立仮説 H1 の
もとでの分布
f˚
A
採択域
1. 帰無仮説と対立仮説を立てる。
2. 有意水準を決め,対立仮説に応じた棄却域
R
棄却域
例題 8.3 64 個の標本が N pµ, σ 2 q から取られた
を決める。
ものであり,σ “ 16 が分かっている。標本平
3. 検定統計量の実現値が棄却域に入れば帰無
均を計算したところ x “ 82 であった。帰無仮
仮説を棄却し,入らなければ帰無仮説を採
説を H0 : µ “ 78, 対立仮説を H1 : µ “ 80 と
択する。
して有意水準が 0.05 であるときの検定力を求
8.2 2 種類の過誤
めなさい。
仮説検定を行うとき,分析者は帰無仮説が正し
(解) 対立仮説は一般には複合事象であるが,こ
いか正しくないかを知らない。分析者は,帰無
こでは簡略化のために単純事象を考えている。
仮説が正しいか否かに関係なく,検定統計値が
対立仮説で与えられる µ の値の方が,帰無仮説
棄却域に入れば帰無仮説を棄却し,入らなけれ
で与えられる µ の値よりも大きいので右側検
ば採択する。帰無仮説が正しくないときに帰無
定となる。
仮説を棄却すれば正しい行動であるが,帰無仮
検定力は以下の手順で求められる。
説が正しいのに棄却した場合は誤った行動であ
1. 帰無仮説を正しいものとして,X による棄
る。この誤りを第 1 種の過誤 (type I error) とい
却域を設定する。
う。例えば,有意水準が 0.05 のとき,帰無仮説
2. 1. で設定された棄却域に X が入る確率を,
が正しくても,100 回の実験で 5 回程度検定統
対立仮説が正しいものとして計算する。こ
計値は棄却域に入り,帰無仮説は誤って棄却さ
の確率が検定力となる。
れる。つまり,有意水準 α は第 1 種の過誤を犯
まず,X による棄却域を求めると
す確率を表している。このことから,第 1 種の
σ
X ą µ0 ` zα ?
n
過誤はアルファ・エラーとも呼ばれる。
逆に,帰無仮説が正しくないのに帰無仮説を採
16
“ 78 ` 1.645 ˆ ? “ 81.29
64
択してしまうという誤りを第 2 種の過誤 (type
II error) という。第 2 種の過誤はベータ・エ
となる。
ラーとも呼ばれ,第 2 種の過誤を犯す確率を β
次に,検定力は対立仮説が正しいときに帰無仮
であらわす。第 2 種の過誤を犯す確率が β で
説を棄却する確率であるから
あるので,第 2 種の過誤を犯さない確率,すな
1 ´ β “ P pX ą 81.29q
わち帰無仮説が正しくないときに帰無仮説を棄
却する確率は 1 ´ β で与えられ,この確率 1 ´ β
となる。ここで,X の分布は,対立仮説のもと
を検定力 (power) あるいは検出力という。
での分布 X „ N p80, 162 {64q であることに注
30
意が必要である。
きるだけ小さくする (検定力をできるだけ大き
標準化して確率を計算すると
ˆ
1´β “
くする) ような検定を選ぶという基準を,ネイ
X ´ 80
81.29 ´ 80
? ą
?
16{ 64
16{ 64
マン・ピアソンの検定基準という。右 (左) 側検
˙
定では,右 (左) 端に棄却域を設定すれば,ネイ
マン・ピアソンの検定基準を満たす検定が行え
“ P pZ ą 0.645q “ 0.26
る。両側検定では,ネイマン・ピアソンの検定
となる。よって検定力は 0.26 である。第 2 種
基準を満たす検定は行えないが,両端に棄却域
の過誤を犯す確率は 1 から検定力を引いたもの
を設定すればほぼ満足の行く検定ができるとい
であるから,β “ 1 ´ 0.26 “ 0.74 である。
われている。
図 8.5 帰無仮説と対立仮説のもとでの
例題 8.3 では対立仮説を単純仮説で表したが,
X の分布
通常は対立仮説は複合仮説である。例えば,対
立仮説が複合仮説 H1 : µ ą 78 であるとき,78
対立仮説の
もとでの分布
帰無仮説の
もとでの分布
より大きいすべての µ の値に対して検定力を
計算することができる。
検定力 1 ´ β
70
72
74
76
78
80 82
81.29
A
採択域
84
86
X
µ の真値は実際には未知であるが,µ の真値
が帰無仮説の値 78 と大きく離れていて 100 で
R
棄却域
あったとすると,検定力は
有意水準が 0.01 の時には,X による棄却域は
1 ´ β “ P pX ą 82.652q
ˆ
˙
X ´ 100
82.652 ´ 100
?
?
“P
ą
16{ 64
16{ 64
“ P pZ ą ´8.674q » 1
σ
X ą µ0 ` zα ?
n
16
“ 78 ` 2.326 ˆ ? “ 82.652
64
となる。したがって,検定力は
となり,帰無仮説はほとんど確実に棄却される。
1 ´ β “ P pX ą 82.652q
˙
ˆ
82.652 ´ 80
X ´ 80
? ą
?
“P
16{ 64
16{ 64
8.3 正規母集団の平均の検定:母分散が未知
“ P pZ ą 1.33q “ 0.0918
標本を X1 , X2 , ¨ ¨ ¨ , Xn , その標本平均を X と
の場合
正規母集団 N pµ, σ 2 q からの大きさ n の無作為
すると
となり,第 2 種の過誤を犯す確率は β “ 0.9082
となる。つまり,第 1 種の過誤を犯す確率を下
Z“
げると,第 2 種の過誤を犯す確率が上がること
X ´µ
? „ N p0, 1q
σ{ n
になる。第 1 種の過誤を犯す確率と第 2 種の
が成り立つ。σ が既知であれば,これまで説明
過誤を犯す確率の間にはトレード・オフの関係
した方法で仮説検定を行うことができる。σ が
があり,第 1 種の過誤を犯す確率を小さくし
未知の場合には,σ をその推定量
て,同時に第 2 種の過誤を犯す確率も小さくす
g
f
f
S“e
ることはできない。第 1 種の過誤の確率 (有意
水準) を一定値に固定して,第 2 種の過誤をで
31
n
1 ÿ
pXi ´ Xq2
n ´ 1 i“1
で置き換えると,定理 6.5 より
T “
ならば帰無仮説は有意水準 α で棄却される。
また,X に基づく棄却域は
X ´µ
? „ tpn ´ 1q
S{ n
S
X ă µ0 ´ tα{2 pn ´ 1q ? ,
n
S
X ą µ0 ` tα{2 pn ´ 1q ?
n
となる。このことを用いて母平均の検定を行う
ことができる。
帰無仮説が H0 : µ “ µ0 , 対立仮説が H1 : µ ą
となる。
µ0 の場合を考える。帰無仮説が正しいとき,
例題 8.4 ある型の乗用車の燃費の平均は,従
P pT ą tα pn ´ 1qq
ˆ
˙
X ´ µ0
? ą tα pn ´ 1q
“P
S{ n
“α
来車では 17km{` であった。改良車が開発さ
れ,16 台の走行テストを行ったところ,平均は
18km{`, 標本不偏分散は 4km{` であった。改
良車の燃費は従来車よりもよくなったといえる
が成立する。ただし,tα pn ´ 1q は自由度 n ´ 1
か。改良車の燃費は正規分布で近似できるもの
の t 分布の上側 100α パーセント点である。し
として,有意水準 0.05 で検定せよ。
たがって,母分散が未知のときの母平均の平均
(解) 帰無仮説を H0 : µ “ 17, 対立仮説を H1 :
の検定で用いられる検定統計量は
µ ą 17 とする。t 分布表から自由度 15,有意水
X ´ µ0
?
T “
S{ n
準 0.05 の棄却点を求めると,t0.05 p15q “ 1.753
であるので,棄却域は tT |T ą 1.753u となる。
であり,棄却域は tα pn ´ 1q より右側の部分
x “ 18, s “ 2, であるから,検定統計量の実現
(tT |T ą tα pn ´ 1qu) である。また,X に基づ
値は
いた棄却域は
t“
S
X ą µ0 ` tα pn ´ 1q ?
n
x ´ µ0
18 ´ 17
?
? “
“ 2 ą 1.753
s{ n
2{ 16
であり,検定統計量の実現値が棄却域に入るの
となる。
で,帰無仮説は有意水準 0.05 で棄却される。
同様にして,対立仮説が H1 : µ ă µ0 のときは
T “
例題 8.1 では母分散が既知であったので,正規
X ´ µ0
? ă ´tα pn ´ 1q
S{ n
分布表に基づいて棄却域が設定されていた。例
題 8.4 では母分散が未知であるので,検定統計
ならば帰無仮説は有意水準 α で棄却される。
量を計算する際にその推定値 s “ 2 が用いられ
また,X に基づく棄却域は
ており,t 分布によって棄却域が設定されてい
る。自由度が小さいときには, t 分布は正規分
S
X ă µ0 ´ tα pn ´ 1q ?
n
布よりも裾が広いので,t 分布に基づく棄却域
tT |T ą 1.753u は,標準正規分布に基づく棄却
となる。
域 tZ|Z ą 1.645u よりも狭くなる。
対立仮説が H1 : µ ‰ µ0 のときは,母分散が既
例題 8.5 ある年のわが国の製造業における労
知のときと同様に考えて,
働者の週当たり平均労働時間は 41 時間であっ
ˇ
ˇ
ˇ X ´ µ0 ˇ
ˇ
? ˇ ą tα{2 pn ´ 1q
|T | “ ˇ
S{ n ˇ
た。数年後に,労働時間が短縮されているかを
32
見るために,25 人の製造業労働者を無作為に
か,2 つの異なった銘柄の電球の平均寿命に
抽出して週当たり労働時間を調べたところ,平
差があるか,などである。2 つの正規母集団を
均 40.7 時間,標準偏差 0.9 時間であった。週当
N pµ1 , σ12 q, N pµ2 , σ22 q とすると,これらの母平
たり労働時間が正規分布で近似できるものとし
均が等しいかどうかを検定したいので,帰無仮
て,労働時間が短縮されたと言えるかどうかを
説は H1 : µ1 ´ µ2 “ 0 である。対立仮説は,次
有意水準 0.01 で検定せよ。また,標本を増や
の 3 つの中から状況に応じて選ばれる。
して 144 人の製造業労働者について調べたと
H1 : µ1 ´ µ2 ą 0 (右側検定)
ころ,平均 40.5 時間,標準偏差 0.8 時間であっ
H1 : µ1 ´ µ2 ă 0 (左側検定)
H1 : µ1 ´ µ2 ‰ 0 (両側検定)
た。有意水準 0.01 で検定せよ。
(解) 帰無仮説を H0 : µ “ 41, 対立仮説を H1 :
µ ă 41 とする。t 分布表から自由度 24,有意
水準 0.01 の棄却点を求めると,´t0.01 p24q “
そ れ ぞ れ の 母 集 団 か ら 大 き さ n1 お よ び
´2.492 であるので,棄却域は tT |T ă ´2.492u
n2 の 無 作 為 標 本 X11 , X12 , ¨ ¨ ¨ , X1n1 お よ び
となる。x “ 40.7, s “ 0.9 であるから,検定統
X21 , X22 , ¨ ¨ ¨ , X2n2 を抽出し,それぞれの標
計量の実現値は
本平均を X 1 および X 2 とすると
t“
˙
ˆ
n1
1 ÿ
σ12
X1 “
X1i „ N µ1 ,
n1 i“1
n1
˙
ˆ
n
2
1 ÿ
σ22
X2 “
X2i „ N µ2 ,
n2 i“1
n2
x ´ µ0
40.7 ´ 41
?
? “
“ ´1.667 ą ´2.492
s{ n
0.9{ 25
となり,棄却域に入らない。よって,帰無仮説
は有意水準 0.01 で採択される。
t 分布表には n “ 144 の場合は載っていない
となる。ここでの標本は無作為抽出なので,
が,n “ 144 は大きいので,検定統計量が標
X 1 と X 2 は独立である。よって定理 4.5 と定
準正規分布 (t 分布表で自由度が 8 の場合) に
理 4.8 から
従うとみなして差し支えない。標準正規分布
表から,有意水準 0.01 の棄却点を求めると,
´t0.01 p8q “ ´2.326 であるので,棄却域は
tT |T ă ´2.326u となる。x “ 40.5, s “ 0.8 で
となる。2 つの正規分布に従う確率変数の和と
あるから,検定統計量の実現値は
t“
ErX 1 ´ X 2 s “ ErX 1 s ´ ErX 2 s “ µ1 ´ µ2
σ2
σ2
V rX 1 ´ X 2 s “ V rX 1 s ` V rX 2 s “ 1 ` 2
n1
n2
差は正規分布従う (正規分布の再生性という)
40.5 ´ 41
?
“ ´7.5 ă ´2.326
0.8{ 144
ので,X 1 ´ X 2 も正規分布に従う。したがって
X1 ´ X2 „ N
となり,棄却域に入るので,帰無仮説は有意水
準 0.01 で棄却される。この場合には,有意水
˙
ˆ
σ2
σ2
µ1 ´ µ2 , 1 ` 2
n1
n2
となる。
準 0.01 で労働時間は短縮したといえる。
8.4 平均値の差の検定
σ12 , σ22 が既知の場合
2 つの母集団の平均に有意な差があるか関心
帰無仮説 H0 : µ1 ´ µ2 “ 0 が正しいとき
がある場合がしばしばある。例えば,北海道
˙
ˆ
σ22
σ12
`
X 1 ´ X 2 „ N 0,
n1
n2
と九州の勤労者世帯の平均収入に差がある
33
となるので,標準化すると検定統計量は
ともに大きくないならば,平均の差を厳密に検
定することはできない。したがって,n1 と n2
X1 ´ X2
Z“a 2
„ N p0, 1q
σ1 {n1 ` σ22 {n2
がともに大きい場合を考える。
帰無仮説と対立仮説は σ12 , σ22 が既知の場合と
となる。したがって,対立仮説が H1 : µ1 ´
µ2 ą 0 のとき,棄却域は tZ|Z ą zα u であり,
H1 : µ1 ´ µ2 ă 0 のとき tZ|Z ă ´zα u であ
同様である。σ12 , σ22 は未知であるので,不偏推
定量
る。また,H1 : µ1 ´ µ2 ‰ 0 のとき 棄却域は
tZ|Z ă ´zα{2 , Z ą zα{2 u となる。
例題 8.6 あるデパートで,店員とアルバイト学
S12 “
n1
ÿ
1
pX1i ´ X 1 q2
n1 ´ 1 i“1
S22 “
n2
ÿ
1
pX2i ´ X 2 q2
n2 ´ 1 i“1
生が同じ商品の包装をしたところ,1 時間の作
で置き換えることを考える。よって,検定統計
業によって下のような結果が得られた。
人数
平均包装数
店員
5
64
アルバイト学生
9
56
量は
X1 ´ X2
Z“a 2
S1 {n1 ` S22 {n2
店員の方がアルバイト学生よりも包装作業に熟
となる。この検定統計量は,n1 と n2 がとも
練しているとみなしてよいかどうかを,有意水
に大きいとき,中心極限定理により標準正規分
準 0.05 で検定せよ。ただし,店員の包装数は
布に近づいていく。つまり,Z の漸近分布が
平均が µ1 , 分散が 30.5 の正規分布で近似でき,
N p0, 1q となる。このことから,n1 と n2 がと
アルバイト学生の放送数は 平均が µ2 , 分散が
もに大きいときには,σ12 と σ22 が既知の場合と
75.6 の正規分布で近似できるものとする。
同様にして,標準正規分布に基づいて棄却域を
(解) 帰無仮説は H0 : µ1 ´ µ2 “ 0, 対立仮説は
設定することができる。
H1 : µ1 ´µ2 ą 0 とする。有意水準 0.05 の棄却
n1 と n2 がともに大きいときには,母集団が正
域は tZ|Z ą z0.05 “ 1.645u となる。x1 “ 64,
規分布に従っていなくても,正規近似を行うこ
σ12 “ 30.5, n1 “ 5 および x2 “ 56, σ22 “ 75.6,
とができる。しかし,n1 と n2 がともに大きく
n2 “ 9 であるから,検定統計量の実現値は
無いときには,この検定統計量の分布は正規分
布でも t 分布でもない。
x1 ´ x2
z“a 2
σ1 {n1 ` σ22 {n2
64 ´ 56
“a
30.5{5 ` 75.6{9
“ 2.101 ą 1.645
例題 8.7 A 地方と B 地方で勤労者世帯の収入
に差があるかを見るために,次のような無作為
標本を得た。
となり,棄却域に入るので,帰無仮説は有意水
準 0.05 で棄却される。よって,店員のほうが
作業に熟練していると判断される。
σ12 , σ22 が未知の場合
σ12 と σ22 が未知で σ12
標本の大きさ (n1 )
平均 (xi )
標準偏差 (si )
154
120
615
606
40
32
A
B
有意水準 0.05 で,有意な差があるかどうか検
定せよ。
‰
σ22
(解) A 地方を添え字 1, B 地方を添え字 2 で表
の場合,n1 と n2 が
34
す。A 地方の勤労者世帯の方が B 地方の勤労
となる。定理 6.3 より
者世帯よりも平均収入が高いかどうかは分から
pn1 ´ 1qS12
„ χ2 pn1 ´ 1q,
σ12
pn2 ´ 1qS22
„ χ2 pn2 ´ 1q
σ22
ないので,差があるかどうかを検定するものと
する。このとき,帰無仮説と対立仮説は
H0 : µ1 ´ µ2 “ 0, H1 : µ1 ´ µ2 ‰ 0
が成り立つ。また,2 つの母集団から抽出され
となる。
た標本は無作為標本なので,S12 と S22 は独立で
n1 と n2 はともに大きいので,正規分布に基
ある。
づいて棄却域を設定することができる。有意
2 つの正規母集団の分散が等しいかどうかを検
水準が 0.05 で,対立仮説は両側なので,棄却
定するので,帰無仮説は H0 : σ12 “ σ22 である。
点は z0.025 “ 1.96 である。よって棄却域は
まず,対立仮説が H1 : σ12 ą σ22 の場合を考え
tZ|Z ă ´1.96, Z ą 1, 96u となる。
る。帰無仮説が正しいときには,S12 と S22 の
n1 “ 154, x1 “ 615, s1 “ 40, n2 “ 120, x2 “
実現値が大きく離れることはあまり無いので,
606, s2 “ 32 であるから,検定統計量の実現
S12 {S22 の実現値は 1 に近くなりやすい。逆に
値は
対立仮説が正しいときには,S12 の実現値が S22
よりも大きくなりやすいので,S12 {S22 の実現値
ˇ
ˇ
ˇ
ˇ
x
´
x
ˇ
ˇ
1
2
z “ ˇa 2
ˇ
ˇ s1 {n1 ` s22 {n2 ˇ
ˇ
ˇ
ˇ
ˇ
ˇ a 615 ´ 606
ˇ
“ˇ
ˇ
ˇ 402 {154 ` 322 {120 ˇ
“ 2.069 ą 1.96
が 1 よりもある程度大きくなったときに帰無仮
説を棄却するという検定が考えられる。
定理 6.6 より
pn1 ´ 1qS12 M
pn1 ´ 1q
S12 {σ12
σ12
V “
“
M
S22 {σ22
pn2 ´ 1qS22
pn2 ´ 1q
2
σ2
で棄却域に入る。よって,帰無仮説は有意水準
0.05 で棄却される。したがって,A 地域と B
地域の勤労者世帯の平均収入には有意な差があ
は自由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。し
るといえる。
たがって H0 : σ12 “ σ22 のもとでは S12 {S22 が自
8.5 等分散の検定
由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。よって
2 つの母集団の分散に有意な差があるかどう
S12 {S22 が H0 : σ12 “ σ22 , H1 : σ12 ą σ22 に対す
かに興味がある場合がある。2 つの正規母集団
る検定統計量になる。
N pµ1 , σ12 q と N pµ2 , σ22 q を考える。それぞれの
帰無仮説が正しいとき
母集団から大きさ n1 , n2 の標本を無作為に抽
ˆ
P
出したとすると,それぞれの標本不偏分散 S12 ,
S22 は
˙
S12
ą Fα pn1 ´ 1, n2 ´ 1q “ α
S22
が成立するので,有意水準 α の棄却域は
S12
S12
ą Fα pn1 ´ 1, n2 ´ 1q
S22
n1
ÿ
1
pX1i ´ X 1 q2
“
n1 ´ 1 i“1
S22 “
n2
ÿ
1
pX2i ´ X 2 q2
n2 ´ 1 i“1
となる。ただし,Fα pn1 ´ 1, n2 ´ 1q は自由度
pn1 ´ 1, n2 ´ 1q の F 分布の上側 100α パーセ
35
ント点である。
例題 8.8 表 8.2 は日経平均株価指数の上昇率
対立仮説が H1 : σ12 ă σ22 で,帰無仮説が正
しくない場合には
S22
の方が
S12
(年率 %) のデータである。この表を用いて,バ
よりも大きく
ブル期以降 (1990 年 „) の方が,バブル期以前
なりやすいと考えられる。したがって,H1 :
(„1989 年) よりも,株価の変動が大きくなって
σ12 ą σ22 のときと逆に考えると,有意水準 α の
いるかどうかを有意水準 0.05 で検定せよ。た
棄却域は
だし,上昇率は正規分布に従い,各年で独立で
あると仮定する。
S22
ą Fα pn2 ´ 1, n1 ´ 1q
S22
(解 ) バブル期以前の分散を σ12 , バブル期以降
となる。
の分散を σ22 とし,帰無仮説を H0 : σ12 “ σ22 ,
対立仮説が H1 : σ12 ‰ σ22 の時には,σ12 ą σ22
対立仮説を H1 : σ12 ă σ22 とする。F 分布表か
であるのか σ12 ă σ22 であるのか分からない。
ら,自由度 pn2 ´1, n1 ´1q “ p19, 15q, 有意水準
したがって,この場合の有意水準 α の棄却域は
0.05 の棄却点を求めると,F0.05 p19, 15q “ 2.34
であるから,棄却域は tF |F ą 2.34u となる。
S12
ą Fα{2 pn1 ´ 1, n2 ´ 1q
S22
x1 “ 15.55, x2 “ ´3.625
または
S22
S12
であることから,
ą Fα{2 pn2 ´ 1, n1 ´ 1q
s21 “ 197.4, s22 “ 539.0
となる。
となる。検定統計値は
539.0
s22
“
“ 2.73 ă 2.34
s21
197.4
表 8.2 株価上昇率 (年率 %)
年
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
上昇率
-11.4
14.2
14.5
-2.5
23.4
9.5
8.3
7.9
4.4
23.4
16.7
13.6
42.6
15.3
39.9
29.0
-38.7
-3.6
年
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2006
2007
2008
上昇率
であるから,棄却域に入る。よって,帰無仮説
-26.4
2.9
13.2
0.7
-2.6
-21.2
-9.3
36.8
-27.2
-23.5
-18.6
24.5
7.6
40.2
6.9
-11.1
-42.1
19.0
は有意水準 0.05 で棄却される。すなわち,バ
ブル期以前と以降では,変動が大きくなったと
いえる。
8.6 比率の検定
ここでは,ある属性を持つ集合の母集団に占め
る割合や比率に関する仮説を検定することを考
える。例えば,労働人口に占める失業率,政党
や内閣の支持率など,割合・比率に関心がもた
れることは非常に多い。
母集団のうちで,ある属性を持つものの割合を
p で表す。無作為に抽出された大きさ n の標
本を X1 , X2 , ¨ ¨ ¨ , Xn とし,その属性を持てば
Xi “ 1, 持たなければ Xi “ 0 とする。例えば,
何人かの人にアンケートを行い,i 番目の人が
36
ある政党を支持すれば Xi “ 1, 指示しなければ
ならば,帰無仮説は有意水準 α で棄却される。
Xi “ 0 とする。このとき
ただし,zα は標準正規分布の上側 100α パーセ
ント点である。
R “ X1 ` X2 ` ¨ ¨ ¨ ` Xn
同様に,対立仮説が,H1 : p ă p0 のとき
とすると,R はその属性を持つものの個数とな
pp ´ p0
a
ă ´zα
p0 q0 {n
る。100 人にアンケートを取り,30 人がある政
党を支持したとき,Xi , pi “ 1, 2, ¨ ¨ ¨ 100q のう
ち,30 個が 1 で,残り 70 個が 0 を取る。した
ならば,帰無仮説は有意水準 α で棄却される。
がって R “ 30 となる。無作為に抽出された標
また,対立仮説が,H1 : p ‰ p0 のとき
本のうち R 個がその属性を持つので,p の点推
pp ´ p0
pp ´ p0
a
ă ´zα{2 または a
ą zα{2
p0 q0 {n
p0 q0 {n
定量として
n
R
1 ÿ
pp “
“
Xi
n
n i“1
ならば,帰無仮説は有意水準 α で棄却される。
が考えられる。これは標本平均であるので,n
目が 64 回出た。このサイコロは 1 の目が出や
がある程度大きいとき,中心極限定理より
すいと判断してよいか。有意水準 0.05 で検定
例題 8.9 サイコロを 340 回ふったところ,1 の
せよ。
pp ´ p
a
„ N p0, 1q
pq{n
(解) ここでは,1 の目が出やすいことを疑って
いるので,帰無仮説と対立仮説はそれぞれ
が成り立つ。ただし,q “ 1 ´ p である。
帰無仮説を H0 : p “ p0 とし,対立仮説が
1
“ 0.167
6
1
H1 : p ą “ 0.167
6
H0 : p “
H1 : p ą p0 のときは右側検定,H1 : p ă p0 の
ときは左側検定,H1 : p ‰ p0 のときは両側検
定をつかう。
帰無仮説が正しいときには,p “ p0 であるから
となる。また n が大きいので,正規分布で近
pp ´ p0
Z“a
„ N p0, 1q
p0 q0 {n
似してよいと考えられる。有意水準が 0.05 の
とき,棄却域は tZ|Z ą 1.645u である。pp “
が成立する。ただし,q0 “ 1 ´ p0 である。こ
65{340 “ 0.191 であるから,検定統計値は
の式は,帰無仮説のもとでの検定統計量 Z “
pp ´ p0
z“a
p0 q0 {n
0.191 ´ 0.167
“a
0.167 ˆ 0.833{340
“ 1.187 ă 1.645
a
pp
p ´ p0 q{ p0 q0 {n の漸近分布が N p0, 1q であ
ることを表している。(区間推定では,p の値が
未知なので,分母にある p, q の値がその推定値
pp, qp で置き換えられる。しかし,検定において
は,帰無仮説によって p の値 p0 が与えられる
となり,棄却域に入らない。よって帰無仮説は
ので,p, q は p0 , q0 で置き換えられる。)
有意水準 0.05 で採択される。よって,特に 1
対立仮説が,H1 : p ą p0 のとき
の目が出やすいとはいえない。
pp ´ p0
a
ą zα
p0 q0 {n
37