9章 カイ2乗検定

カ イ 2乗 検定
9-1
カ イ 2乗 検 定
一 般 に,帰 無仮説 の 下 で あ る検 定統計 量 が χ2分 布 に従 う場合 ,こ の検 定 を
カ イ 2乗 検定 とい う名 で よぶ ことが 多 い 。カイ 2乗 検 定 には,適 合度検定 や分
割表 での独立性 の検定 な どが ある。
9…
2
適合度検 定
母 集 団 は互 い に排 反 な た個 の 級 Cl,C2,° …,Cた に分 れ て い る とし,こ の母
集 団 か ら 1個 の標 本 を とる とき,そ れが Cl,C2,°
,Cた に入 る確 率 を 夕1,夕 2,
ん(ェ タ′
=1)と す る。い ま,母 集 団 か ら η個 の標 本 を とる とき,そ れ ら
0,Cた
が Cl,…
に入 る観 測度 数 を πl,π 2,… °
,多 た(ュ πJ=π )と すれ ば,こ れ ら
°
級 に入 る期待度 数 はπl=π 少1,多 2=の 2,… ,2た =の たとな る。
… 0,夕
観測度数
期待度数
この とき
,
帰 無仮 説 島 :母 集 団 の 各級 の 確 率 (ま た は確 率 分布 )は
κ=夕 た
0
夕1=夕 lo,夕 2=夕 20, °…
,夕
である
の検 定 に ,検 定統 計 量 として
131
9
132
2=二
χ
カイ 2乗 検定
=』
が 使 われ る。この統計量 は 多が大 き く,各
%Jが 5以 上 で あれ ば 島 の下 で近
2分
似 的 に 自由度 ν=カ ー1の χ 布 に従 う。この検 定 を適 合度検 定 とい う。有 意
水準が α%の この検定 の棄却域 は
u-k-lAx
2>χ
′
(た -1)
χ
で与 えられる
.
期待度数の計算 で,母 集団の未知母数
を推定する ことが必要な場合 には,推 定
O
χ:(ん -1)
され る母数 が ε個 な らば,こ の ときのカイ 2乗 検定 の棄却域 は
2>χ
′
(ヵ ―ε-1)
χ
となる。
9-3
独 立 性 の検 定
π個 の標本 を 2つ の属性 ∠,3に よって,次 の よ うな 2元 表 に分割 す る.こ
こで ,π ′
Jは 級
(∠
J,島 )に 入 る標 本 の個 数 で ,こ の表 は r× s分 割 表 とよばれ
る.分 類 に用 い る属性 は定性的 な もので も定量的 な もので もよい
e
γ×s分 割表
η γ2
%。
1
%。
2
1個 の標 本 が 級
Tlts
ηl.
Tlzs
η20
π rs
πr.
・・・ 2・ s
(∠
π J.
π
π
"'
..'
一
一
π
llzz
御 s
Σ月
一
r
ΣH 一
/l,n
ll'zt
計
〓
lltt
Bs
衡 ″
ΣH
B2
, π
′
¨
2
計
Bl
中
力月
羽一
S
ス ス .︰ 4
沢
η
J,島 )に 入 る確 率 を 夕JJ,級 ∠Jに 入 る確 率 を 沙 ,級 BJ
J。
,3が 独 立
に入 る確 率 を 夕.Jと す る。ここで検 定 す べ き仮 説 は,2つ の 属性 ∠
で ある とい う仮説 ,す なわち P(五
〃o:夕 ″=夕
J。
・
夕
J
J∩ BJ)=P(∠ J)P(3J)で ,こ れ は
(グ =1,2,…・,γ
,
0,s)
;ノ =1,2,…
で表 され る.〃0が 真 の下 で級 (4J,島 )に 入 る標本 の期待度数 π′
Jは
多 ″ =け
で与 え られ る.よ って,〃。を検定 す る統計量 は
,
例
題
s
Σ月
r
ΣH
〓
2χ
_り
し″
133
)2
η J.π .J
π
で ,π が 十 分 大 き い な らば,〃 0が 真 の と き,こ れ は近 似 的 に 自由 度 ν=(γ
-1)(s-1)の χ2分 布 に従 う。よって,こ の カイ 2乗 検 定 の有 意水準 α%の 棄
去日
珂tは
2>χ
多((γ -1)(s-1))
χ
2× 2分 害Jtt
γ=s=2の 場合 を 2× 2分 割表 とい う。この とき χ2は ,次 の
式 にな る。
2=
(α
+b)(ε +グ )(α +ε )(b+グ
2×
沢
32
αtt
b
グ
ε十グ
b+グ
αtt σ
計
計
b
α ε
1
42
)
2分 割表
Bl
ス
イエーツの補 正
- bc)'
n(ad
χ
η
2× 2の 分害J表 で期待度数 が小 さい場合 には χ2分 布 へ の
近似 をよくするために,÷ だけず らして
2=Σ Σ
J=lJ=1
χ
(lπ
一
π
″
ガ
ト÷
)2
π
JJ
を使 うのが よい とされて い る。これ をイエー ツの補 正 とい う。
例
題
例題 1 (一 様分布の適合度検定)
観測者 が測 定器具 の 目盛 りを読 む とき,最 後 の桁 の数字 は 目測 で判読 さ
れ る。その際 ,特 定 の数字 を好 む傾 向 の あ る ことが 指適 され て い る。い ま
,
200個 の数字 について,次 の結果 が得 られた.こ の観 測者 は特 別 な数字 を
好 む傾 向が あるだ ろうか .5%有 意水準 で検定 せ よ。
最後 の桁 の数字
観測度数
0123
32
16
456789
18
19
17
25
11
計
16
30
16
200
134
解
9
カィ 2乗 検定
この場合 の帰無仮説 として は「観測者 は特別 な数字 を好 む傾 向 を もたな
い」 を とるのが 適 当 で ,観 測者 が 最後 の桁 の 数字 を グと読 む確 率 を 夕Jと す る
と,こ の仮説 は
島。
=夕 1=… =夕 9=士
:夕
で表 される。鳳)が 真 であれば,期 待度数 は明 らかに
Tt,t: ltb to:200"
+
_ 20
で あるか ら,観 測度数 ηJと 期待度数 πJを 表 に して示す と
0123456789
よって
32
16
18
19
17
25
11
16
30
16
20
20
20
20
20
20
20
20
20
20
,
=
ノ=平
ν=10-1=9,α
+…
十
=0。 05.χ
2分
=社
・十
6
布表 よ り χ 5(9)=16.92.ゆ えに,棄 却域 は
2>16.92
χ
デー タか ら求 めた χ2の 値
20。
`.。
6は 棄却域 に入 るか ら,〃0は 棄却 され る。
したが って,こ の 観 測者 には特 別 な数字 を好 む傾 向が あ る とい え る。実 際
この観測者 は 0と 8を 好 む よ うで ある。
例題
2 (適 合度検定
)
人 間 の血 液 型 は 4種 類 で ,そ の構 成比 率 は ,2:夕 2+2夕 σ:γ 2+2α γ:2夕 γ
で あ る とい う。ただ し 夕+α +γ =1.い ま,あ る職 業 につ い て い る 770人
の血 液型 を調 べ て
,
180, 360, 132, 98
なる観測度数 を得 た。これ よ り,仮 説 「 この職業人 の血 液型 の分布 は,夕
0。
4,α =0。 4,γ =0。 2で 定 まる構成比率 を もつ」 を検定せ よ
解
.
仮 説 が正 しい として
4種 類 の血 液 型 の期 待 度 数 を求 めれ ば
2=770× 0.42=123.2
πl=π σ
π2=π (夕 2+2夕 α)=770× (0.42+2×
0。
4× 0.4)=369。 6
=
,
例
題
%3=π (γ 2+2σ γ)=770× (0.22+2× 0.4× 0.2)=154。
0
π4=π (2夕 γ)=770× (2× 0.4× 0.2)=123。 2
観 測 度 数 と比 較 す る と
,
ノ=
+
+
+
=34.73
α=0。 05,ν
=4-1=3.χ 2分 布表 よ り χ
5(3)=7.81.よ って棄却域 は
2>7.81
χ
2の は
に入
ってい
るか
ら
値
棄却域
χ
,仮 説 は棄却 され る。したが って この職 業人
`.。
の血 液型 の分布 は仮説 が与 える構成比 率 とは異 なる もので ある。
(ポ
アソン分布 の適合度検定 )
大気 中 に浮遊 す るある微小 な物質 の量 を推定 す るた め,空 間内 にい くつ
かの 点 を選 び,そ の 点 の まわ りの単位 体 積 内 の 粒 子 数 を計 測 す る。い ま
300点 を選 んで観測 した結果 ,つ ぎのデ ー タが得 られた。
(a)粒 子 の数 の平均 と分散 を求 め よ。
(b)こ のデー タにポア ソン分布 をあてはめ,そ の適合性 を調 べ よ
.
0 1 2 3 4 5 6以
38 75 8954 20 19 5
粒子の数
観測度数
(a)
解
上
計
300
粒子数 を″ 度数 を /と す る と,平 均 は
,
F=Σ
分散 は
s2=Σ
∬Jん
π
0×
38+1× 75+… ・+6× 5
=警 ≒2。 07
ノん_∬ 2=02× 38+12× 75+… +62× 5,=(警
)2≒
2。
04
平均 と分散 が ほぼ等 しい ので ,粒 子 の数 の分布 として ポア ソン分布 が予 想 さ
れる
.
9
136
カイ 2乗 検定
(b)粒 子の数 は ス=2.07の ポアソン分布 に従 う とい う帰無仮 説 の下 で,期
待度数 を次のように求 める。
計
値 ″
J子 ■
確率 〆
斜
0.13
0.26
0.27
期待度数 =300× 確率
39
78
81
観測度数
38
75
89
0。 19
0.10
0.04
0.01
57
30
12
3
300
54
20
19
5
300
1.0
これ か ら
ノ=
+…
十
=)"
・十
2=9.39は この値 を超 えないか ら
りχ 5(6)=12.59.χ
仮説は採択である。よって このデータはポアソン分布 に適合 している。
α=0.05,ν
=7-1=6よ
`.。
(2×
2分 割 表 )
ある会社 の社員 60名 に,タ バ コをす うかすわないか と,パ チ ンコをす
るか しないか を調査 した。その結果 は次のようであつた。タバ コをす うこ
ととパ チ ンコをする ことは独立 か どうかを 5%有 意水準 で検定せ よ
.
パ チ ンコ をす る
タバ コをす う
すわない
解
しな い
9
3
18
30
この 問題 の 帰 無仮 説 は,島 :タ バ コ とパ チ ン コ とは独 立 ,で あ る.島
の下 での期待度数 は
パ チ ンコ
27×
12/60=5.4
33× 12/60=6.6
27×
48/60=21.6
33× 48/60=26.4
イ エー ツの補 正 を施 して カ イ 2乗 検定 を行 う
.
例
137
題
観測度数 π
期待度数 π′
J
l
(lη J-2fl― o.5)2
ηJ― 物 │― o.5
π ′
9
5。
4
3.6
3
6.6
3.1
0.445
3.1
0.364
18
21.6
-3.6
-3.6
30
26.4
3.6
3.1
1,780
3.1
1,456
計
4.045
α=0。 05,ν =1よ りχ&05(1)=3.84で あるか ら,棄 却域 は χ2>3.84。 よって
帰
無仮説は棄却 される。したがってタバ コ とパ チンコは独立ではない
.
例題
5(2× 4分 割表
)
アメ リカでの調査 による と,息 子が父親 の職業 と同 じ職 業 を選 ぶか どう
か を調 べ て,次 の結果 を得 た。
父親 の職業
息子の職業
医者
銀行員
教員
弁護士
計
父 親 と 同 じ職 業
父親 と異 なる職業
34
166
27
123
28
152
19
81
522
計
200
150
108
「息子 の職業選択 と親 の職業 とは独立 で あ る」 とい う仮 説 を 5%有 意水準
で検定せ よ
.
解
これは 2× 4分 割表 での独立性の検定の問題である。
各枡の期待度数 を求めると
,
‰
= =鴫
物 3=
πa=
物
=Щ
=晰
= =nL
よつて期待度数の表 は
z
物 2=
=%ム
物 4=
=Щ
物が
=24&
解が
=認
Ю
9
138
34.3
165。
7
25。 7
30。
9
17.1
124.3
149。 1
82.9
カイ 2乗 検定
これ か ら
‐…+
十
=
ノ=耳
=0。 64
5(3)=7.81で あ るか ら,仮 説 は棄 却 され な い。
自由度 ν=(2-1)(4-1)=3,χ
したが って 息子 の職 業選択 に親 の職業 は関係 しない。
`Ю
9章 の 問 題
9。
1
乱数 サイを 200回 実際 に振 つて,次 の結果 を得 た .こ の乱数 サ イ は正
しい と認 め られ るか。
目の数
度数
0 1 2 3 4 5 6 7 8 9
計
26 27 20 13 19 19 15 19 27 15
200
次 の表 は 100個 の 乱 数 の 標 本 で あ る とい わ れ て い る。0か ら 9ま で の
各 数字 の 度 数 は その期 待 度 数 と有 意 に異 な るか 。5%有 意 水 準 で 検 定 せ よ。
9.2
35230
66852
50395
59228
28896
48780
00845
39797
86339
57380
92264
95450
41210
66273
91350
52137
02829
62316
46155
16031
9。
3
次 の表 は 10騎 馬 兵 団 の 20年 間 の記 録 で ,馬 に け られ て 死 ん だ 兵 士
の 数 で あ る。 これ は Bortkewitchに よって 集 め られ ,Fisherが 引 用 した 有 名
な例 で あ る。 これ に適 当 な ポ ア ソ ン分布 をあて は め ,そ の 適 合 性 を論 ぜ よ。
死者 の数
兵団数
0 1 2 3 4
109 65 22 3
計
1
200
9.4
流行性 感 冒 の予 防注射 の効 果 を調 べ るた め,流 行性 感 冒 にかか つた
人 とかか らなか つた人 について ,そ れ ぞれ予防注射 を したか ,し なか つたか を
きき,次 の結果 を得 た.こ の予 防注射 は流行性感 冒 の予 防 に効 果 が あ る とい え
るか◆1%有 意水準 で検定 せ よ。