2 クロス表とχ 検定 記述統計と推測統計の違い 記述統計 サンプルデータそのものの集計 推測統計 サンプルデータから母集団の傾向を推測する クロス表を作成しよう クロス表とは 質的変数同士を組み合わせて、度数を集計するのに 使う表(この集計をクロス集計ともいう) 文系 理系 男 120 280 女 240 160 ※セルに入っているのは度数(平均値ではないことに注意) ※要素の数に合わせて2×2のクロス表とかのように呼ぶ χ2検定 期待度数 (偏りなし) 男 観測度数 (実際のデータ) 文系 理系 200 200 文系 理系 男 120 280 女 240 160 比較 女 200 200 比較 各セルの期待度数に偏りがあるかを調べる →2×2のクロス表の場合には….. 推測統計と検定 (目的)仮説を検証すること 仮説は、傾向に基本的に違いがあるということ サンプルから計算する差だけで、母集団にも差があ ると言えるかどうかを決める 検定の考え方:帰無仮説を立てて、仮説とどちら が支持される可能性が高いかを考える 帰無仮説は逆方向の仮説であることに注意 仮説と帰無仮説 先の例の場合は 帰無仮説 :男女の間で[ 文系か理系かを選択する割合に差はない ] 仮説 :男女の間で[ 文系か理系かを選択する割合に差がある ] 結論は、仮説を選択するのか、帰無仮説を選択 する(仮説を棄却する)のか、どちらか(二択) 検定の基本的な考え方 有罪 有罪 ある事件 の裁判 「彼が犯人である可能性が 「彼が犯人である」 非常に高い」 無罪 無罪 「彼は犯人ではない」 「彼が犯人である可能性は ゼロではないが、非常に低い」 検定の基本的な考え方 仮説の支持 仮説 結果は 二択 「男性と女性には差がある」 仮説の棄却 帰無仮説 「男女間には差がある とは言えない」 (※帰無仮説の支持とは書かない) どちらの可能性(確率)が高いかで決める χ2検定の手順 1. 帰無仮説を立てる 2.χ2値を計算する ※2×2のクロス表の場合 n11 n21 n.1 n12 n22 n.2 n1. n2. k l n 2 ij 2 χ N 1 i 1 j 1 ni n j N n11n22 - n12 n21 χ n.1n.2n1.n2. 2 2 800120160- 240 280 χ 72.7 400 400 360 440 2 2 χ2検定の手順 3.χ2分布の表を見ながら臨界値を算出する 表のどこを見ればよいか:自由度と有意水準の交叉 した値を臨界値(基準)とする 自由度(df)=[セル数-1]×[セル数-1] 2×2のクロス表ではdf =1 χ2分布の表 自由度 χ2分布表で見てみると… 95%(偶然に生じる誤差の範囲) 帰無仮説を採用 5%(偏りがある) 帰無仮説を棄却 =仮説を採用 0 (理論値とのズレが 全くない場合) 2.71 10% 3.84 5% 有意水準 6.63 1% 72.7 χ2検定の手順 有意水準の意味 帰無仮説を棄却するかどうかを決める基準(偶然に生起す る確率がどの程度あるか。危険率とも呼ぶ) χ2値が大きくなる →偶然に生起するという可能性が小さくなる (たまたまの結果ではなく、偏りが偶然ではない) →帰無仮説が支持される可能性は非常に小さいので、 仮説の方を採用する 「χ2値が大きい」では基準があいまいなので、一定の基準( 全体の5%や1%)を設けておく(これが有意水準。p<.05や p<.01と書く) 4. 結果の解釈 χ2値が表の値よりも大きい場合には、帰無仮説の棄 却(仮説の支持) χ2値が表よりも小さければ帰無仮説の支持(仮説の 不支持) 有意水準を5%とした場合には、調査を行うと、仮説 は95%の確率で支持される可能性があることになる 100名中95名ではなく、100回中95回程度支持される おまけ1 どこに差があるか ~残差分析 タテかヨコかが3セル以上の場合には全体で偏りがあ ることは分かっても、どこが偏っているのかは分から ない どの程度偏りがあるかを示す値 |残差| 1.65 以上 1.96 以上 2.58 以上 p<.10 p<.05 p<.01 おまけ2 効果サイズとクラマーのV 社会調査などではサンプル数が多いので、分析結果 は有意になりやすい どの程度関連性があるかを示す値(0≦V≦1)を示す ことが多い(大きいほど関連あり) V χ 2 N mink - 1, l - 1
© Copyright 2024 ExpyDoc