帰無仮説

2012.10.23 木下直人

カイ二乗検定(カイ自乗検定)
◦ 「観測されたデータの分布は、理論値の分布とほぼ同じと
みなせるか?」(→誤差なのか誤差じゃないのか)



例題)
M社とK社のポテトとチキンの売上げが以下の表のよ
うになった。
ポテト
チキン
M社
435
165
K社
265
135
このとき、M社のチキンの売上げがK社のチキンの売
上げに比べて伸び悩んでいるかどうかを調べたい。

ポテト
チキン
M社
435
165
K社
265
135
単純に売上げの個数だけを見るとM社の方が沢山
売っているように見えるが…
◦ ポテトの売上数を基準にしてみると
 M社:165÷435≒38%
 K社:135÷265≒51%
◦ K社の方が多く売り出しているように捉えられる。

→もっと統計学的に。


仮説
「チキンとポテトの売上げの割合に関して
M社とK社との間に差はない」
…何故「差はない」とするのか?

「差がある」という仮説は、「大きな差がある」「小さな差
がある」といったように、無限に仮説を立てることができ
る。
◦ その一つ一つについて検討するのは不可能に近い。

一方、「差がない」という仮説は、その一つの可能性だ
けについて検討すればよい。

このように「差がない」と立てる仮説を帰無仮説と呼ぶ。
◦ 仮説を肯定する時は採択する、否定する時は棄却すると呼ぶ。

帰無仮説が
◦ 採択される→「差がない」
◦ 棄却される→「差がない」とは言えない=「差がある」

「差がない」=両社でポテトとチキンが同じ割合で売れる。
ポテト
チキン
合計
M社
?
?
600
K社
?
?
400
合計
700
300
1000
ポテト
チキン
合計
M社
?
?
600
K社
?
?
400
合計
700
300
1000
全体の合計に対する各社の売上げ個数の割合は
M社:600÷1000
K社:400÷1000
よって、ポテトが同じ割合で売れるとする場合、
M社:700×600÷1000 = 420
K社:700×400÷1000 = 280
帰無仮説に基づく表
期待度数
ポテト
チキン
合計
M社
420
180
600
K社
280
120
400
合計
700
300
1000
観測度数
実際のデータ
ポテト
チキン
M社
435
165
K社
265
135
M社では ポテトは実際の方が多い(435>420)
チキンは実際の方が少ない(165<180)
K社では ポテトは実際の方が少ない(265<280)
チキンは実際の方が多い(135>120)
→この違いに意味はあるのか?
(本来同じ数値が出てもおかしくないところが
たまたま違う数値が出てしまっただけなのか、
本来違う数値が出るべきところが
そのまま違う数値として出てきたのか)
Σ
2
(観測度数ー期待度数)
_________________
期待度数
Σ
2
(観測度数ー期待度数)
_________________
=
期待度数
2
(435-420)
_______
420
2
(265-280)
_______
280
+
+
2
(165-180)
_______
180
+
2
(135-120)
______
120
=
0.536 + 1.250 + 0.804 + 1.875
=
4.464
これがχ2乗値
Σ
2
(観測度数ー期待度数)
_________________
期待度数
期待度数と観測度数が完全に一致すればカイ二乗値は0
逆にずれが大きくなればなるほどカイ二乗値は大きな値に

自由に動かせる数値の数
◦ ex.)白球と赤球を計10個取ってくる
→白の数値を動かすと赤の数値もそれに伴う
=自由度1(=2ー1)
M社とK社の表の場合
「M社 or K社」 → 1
「ポテト or チキン」 → 1
何か一つの値が決まれば他の値全てが決まる。
一般に行と列のある二次元の表では
自由度=(行数−1)×(列数−1)
3.84
ここから右側の確率分布は5%以下


仮説を採択するか棄却するかの基準にする確率
一般的に0.05(5%)とされることが多い
◦ 基準を厳しくする時は0.01(1%)にすることも
カイ二乗値は4.46 → 有意水準5%より小さい
=滅多に起こらない
帰無仮説「チキンとポテトの売上げの割合に関して
M社とK社との間に差はない」
は、滅多に起こらない。
→帰無仮説を棄却。
=売上げに差がある。
ここで表の行数と列数を合わせる(10×10まで)
表の値などを入力(観測度数)
今回はここにチェックを入れる
ここにチェックを入れる
ここにチェックを入れる
↑ カイ二乗値
↑ 自由度
← 期待度数の表
↑ これが有意水準より低ければ
帰無仮説は棄却される。


実際にこういった形でデータを貰う。
性別とYes/No式の質問
(Yes→1,No→0)
男女に差があるか?
コピー
データのインポート
チェックを入れる
チェックを入れる
集計した表

横浜、川崎、鎌倉の三都市合わせて600人にアンケートを
とってみました(という体で)。

あなたの好きな音楽は何ですか?
◦ 1.ハウス
◦ 2.トランス
◦ 3.ドラムンベース

アンケートを取った結果がエクセルファイルのようなデータ
だった場合、各都市における解答に差は見られるか?