2×2分割表での独立性の検定

分割表の独立性の検定
寺尾 敦
青山学院大学社会情報学部
[email protected]
ここで学習すること
• テキスト第10章「カイ2乗分布」の内容から,
分割表の独立性の検定について速習する.
• このスライドで学習する内容はテスト範囲に
含まれる.第10章にあるその他の内容はテス
ト範囲から外す.
2元分割表(1/2)
• いくつかのカテゴリから構成される,2つの質
的変数(qualitative variable).テキスト表5
(p.225)では,
– 学歴(大学卒・高校卒・小中学卒)
– 結婚に関する適応性(非常に低い・低い・高い・
非常に高い)
• 各個体について,これら2変数の測定を行い,
結果を分割表(contingency table)に整理する.
クロス表(cross table)とも呼ぶ.
2元分割表(2/2)
• 2変数間に因果関係が想定される場合には,
原因と想定される変数(例:学歴)を表の縦方
向に,結果と想定される変数(例:結婚適応
性)を横方向に配置する.
• 表の各セルには,そのカテゴリの組み合わせ
にあてはまる個体の数を記入する.これを観
測度数(observed frequency)と呼ぶ.
– 各個体は,いずれかひとつのセルに分類される.
分割表の独立性
• 表5での問題意識:学歴と,結婚に対する適
応性の間には,何らかの関係があるのか?
それとも,これら2変数は独立なのか?
• 独立である(これが検定の帰無仮説となる)と
すると,学歴にかかわらず,適応性の分布は
同一になるはずである.テキスト表5では,
46:67:111:176 という人数比率.
– 適応性のどのカテゴリにおいても学歴の分布が
同一と考えてもよい.232:116:52
期待度数
• 2つの変数が独立の場合に,分割表のセル
それぞれに属する個体の,期待度数
(expected frequency)を計算することができる.
– 例:テキスト表5「大学卒」の「非常に低い」
46
232
232 
 46 
 27
400
400
分割表の独立性の検定
• 2つの変数が独立であるとすれば,観測度数
と期待度数の差は小さいと考えられる.
• 帰無仮説(2変数は独立)が正しい時,次のカ
イ2乗検定統計量は,近似的に,
自由度 (r-1)×(c-1) のカイ2乗分布に従う.
2
r:変数1のカテゴリ数
(oij  eij )
2
c:変数2のカテゴリ数
 
eij
oij:セル ij の観測度数
1i  r
1 j c
eij:セル ij の期待度数

例題(テキストp.225,表5)
2
2
2
2
(
18

27
)
(
29

39
)
(
11

14
)
(
20

23
)
 2 (6) 

 

27
39
14
23
 20.68
自由度:(3-1)×(4-1) = 2×3 = 6
カイ2乗分布表(テキストp.298,表VII)より,
有意水準5%での,自由度6のカイ2乗分布の
棄却限界値は,12.5916
したがって,このカイ2乗値は有意であり,
学歴と結婚適応性との間には関連があると言える.
検定での注意
• 期待度数が5に満たないセルがあると,カイ2乗
分布への近似が悪い.そのようなセルがある場
合には,カテゴリをまとめるか,別の検定法(例:
Fisherの正確確率検定.この講義では扱わない)
を用いる必要がある.
• 自由度は,分割表の周辺度数(合計値)を固定
したとき,自由に値を決めることのできるセルの
数である.
• カイ2乗検定の棄却域は,対立仮説が何であれ,
常に分布の右端にのみ設定される.
2×2分割表
• 2×2分割表では,カイ2乗統計量を以下の
式で計算することができる.
N (o11o22  o12 o21 )
 
o1  o2  o1  o2
2
Oi・ は i 行目の合計
O・j は j 列目の合計
2
例題
• 次のような分割表
カテゴリA1 カテゴリA2 計
カテゴリB1
15
7
22
カテゴリB2
25
17
42
計
40
24
64
2
64

(
15

17

25

7
)
 2 (1) 
 0.46
22 42 40 24