スライド 1

2
クロス表とχ 検定
記述統計と推測統計の違い

記述統計


サンプルデータそのものの集計
推測統計

サンプルデータから母集団の傾向を推測する
クロス表を作成しよう

クロス表とは

質的変数同士を組み合わせて、度数を集計するのに
使う表(この集計をクロス集計ともいう)
文系
理系
男
120
280
女
240
160
※セルに入っているのは度数(平均値ではないことに注意)
※要素の数に合わせて2×2のクロス表とかのように呼ぶ
χ2検定
期待度数
(偏りなし)
男
観測度数
(実際のデータ)
文系
理系
200
200
文系 理系
男
120
280
女
240
160
比較
女
200
200
比較

各セルの期待度数に偏りがあるかを調べる

→2×2のクロス表の場合には…..
推測統計と検定

(目的)仮説を検証すること



仮説は、傾向に基本的に違いがあるということ
サンプルから計算する差だけで、母集団にも差があ
ると言えるかどうかを決める
検定の考え方:帰無仮説を立てて、仮説とどちら
が支持される可能性が高いかを考える

帰無仮説は逆方向の仮説であることに注意
仮説と帰無仮説

先の例の場合は
帰無仮説
:男女の間で[ 文系か理系かを選択する割合に差はない ]
 仮説
:男女の間で[ 文系か理系かを選択する割合に差がある ]


結論は、仮説を選択するのか、帰無仮説を選択
する(仮説を棄却する)のか、どちらか(二択)
検定の基本的な考え方
有罪
有罪
ある事件
の裁判
「彼が犯人である可能性が
「彼が犯人である」
非常に高い」
無罪
無罪
「彼は犯人ではない」
「彼が犯人である可能性は
ゼロではないが、非常に低い」
検定の基本的な考え方
仮説の支持
仮説
結果は
二択
「男性と女性には差がある」
仮説の棄却
帰無仮説
「男女間には差がある
とは言えない」
(※帰無仮説の支持とは書かない)

どちらの可能性(確率)が高いかで決める
χ2検定の手順


1. 帰無仮説を立てる
2.χ2値を計算する
※2×2のクロス表の場合
n11
n21
n.1
n12
n22
n.2
n1.
n2.
k
l n 2


ij
2
χ  N  
 1
 i 1 j 1 ni n j



N n11n22 - n12 n21 
χ 
n.1n.2n1.n2.
2
2
800120160- 240 280
χ 
 72.7
400 400 360 440
2
2
χ2検定の手順

3.χ2分布の表を見ながら臨界値を算出する


表のどこを見ればよいか:自由度と有意水準の交叉
した値を臨界値(基準)とする
自由度(df)=[セル数-1]×[セル数-1]

2×2のクロス表ではdf =1
χ2分布の表
自由度
χ2分布表で見てみると…
95%(偶然に生じる誤差の範囲)
帰無仮説を採用
5%(偏りがある)
帰無仮説を棄却
=仮説を採用
0
(理論値とのズレが
全くない場合)
2.71
10%
3.84
5%
有意水準
6.63
1%
72.7
χ2検定の手順

有意水準の意味



帰無仮説を棄却するかどうかを決める基準(偶然に生起す
る確率がどの程度あるか。危険率とも呼ぶ)
χ2値が大きくなる
→偶然に生起するという可能性が小さくなる
(たまたまの結果ではなく、偏りが偶然ではない)
→帰無仮説が支持される可能性は非常に小さいので、
仮説の方を採用する
「χ2値が大きい」では基準があいまいなので、一定の基準(
全体の5%や1%)を設けておく(これが有意水準。p<.05や
p<.01と書く)

4. 結果の解釈



χ2値が表の値よりも大きい場合には、帰無仮説の棄
却(仮説の支持)
χ2値が表よりも小さければ帰無仮説の支持(仮説の
不支持)
有意水準を5%とした場合には、調査を行うと、仮説
は95%の確率で支持される可能性があることになる

100名中95名ではなく、100回中95回程度支持される
おまけ1

どこに差があるか ~残差分析


タテかヨコかが3セル以上の場合には全体で偏りがあ
ることは分かっても、どこが偏っているのかは分から
ない
どの程度偏りがあるかを示す値
|残差|
1.65 以上
1.96 以上
2.58 以上
p<.10
p<.05
p<.01
おまけ2

効果サイズとクラマーのV


社会調査などではサンプル数が多いので、分析結果
は有意になりやすい
どの程度関連性があるかを示す値(0≦V≦1)を示す
ことが多い(大きいほど関連あり)
V
χ
2
N  mink - 1, l - 1