2012.10.23 木下直人 カイ二乗検定(カイ自乗検定) ◦ 「観測されたデータの分布は、理論値の分布とほぼ同じと みなせるか?」(→誤差なのか誤差じゃないのか) 例題) M社とK社のポテトとチキンの売上げが以下の表のよ うになった。 ポテト チキン M社 435 165 K社 265 135 このとき、M社のチキンの売上げがK社のチキンの売 上げに比べて伸び悩んでいるかどうかを調べたい。 ポテト チキン M社 435 165 K社 265 135 単純に売上げの個数だけを見るとM社の方が沢山 売っているように見えるが… ◦ ポテトの売上数を基準にしてみると M社:165÷435≒38% K社:135÷265≒51% ◦ K社の方が多く売り出しているように捉えられる。 →もっと統計学的に。 仮説 「チキンとポテトの売上げの割合に関して M社とK社との間に差はない」 …何故「差はない」とするのか? 「差がある」という仮説は、「大きな差がある」「小さな差 がある」といったように、無限に仮説を立てることができ る。 ◦ その一つ一つについて検討するのは不可能に近い。 一方、「差がない」という仮説は、その一つの可能性だ けについて検討すればよい。 このように「差がない」と立てる仮説を帰無仮説と呼ぶ。 ◦ 仮説を肯定する時は採択する、否定する時は棄却すると呼ぶ。 帰無仮説が ◦ 採択される→「差がない」 ◦ 棄却される→「差がない」とは言えない=「差がある」 「差がない」=両社でポテトとチキンが同じ割合で売れる。 ポテト チキン 合計 M社 ? ? 600 K社 ? ? 400 合計 700 300 1000 ポテト チキン 合計 M社 ? ? 600 K社 ? ? 400 合計 700 300 1000 全体の合計に対する各社の売上げ個数の割合は M社:600÷1000 K社:400÷1000 よって、ポテトが同じ割合で売れるとする場合、 M社:700×600÷1000 = 420 K社:700×400÷1000 = 280 帰無仮説に基づく表 期待度数 ポテト チキン 合計 M社 420 180 600 K社 280 120 400 合計 700 300 1000 観測度数 実際のデータ ポテト チキン M社 435 165 K社 265 135 M社では ポテトは実際の方が多い(435>420) チキンは実際の方が少ない(165<180) K社では ポテトは実際の方が少ない(265<280) チキンは実際の方が多い(135>120) →この違いに意味はあるのか? (本来同じ数値が出てもおかしくないところが たまたま違う数値が出てしまっただけなのか、 本来違う数値が出るべきところが そのまま違う数値として出てきたのか) Σ 2 (観測度数ー期待度数) _________________ 期待度数 Σ 2 (観測度数ー期待度数) _________________ = 期待度数 2 (435-420) _______ 420 2 (265-280) _______ 280 + + 2 (165-180) _______ 180 + 2 (135-120) ______ 120 = 0.536 + 1.250 + 0.804 + 1.875 = 4.464 これがχ2乗値 Σ 2 (観測度数ー期待度数) _________________ 期待度数 期待度数と観測度数が完全に一致すればカイ二乗値は0 逆にずれが大きくなればなるほどカイ二乗値は大きな値に 自由に動かせる数値の数 ◦ ex.)白球と赤球を計10個取ってくる →白の数値を動かすと赤の数値もそれに伴う =自由度1(=2ー1) M社とK社の表の場合 「M社 or K社」 → 1 「ポテト or チキン」 → 1 何か一つの値が決まれば他の値全てが決まる。 一般に行と列のある二次元の表では 自由度=(行数−1)×(列数−1) 3.84 ここから右側の確率分布は5%以下 仮説を採択するか棄却するかの基準にする確率 一般的に0.05(5%)とされることが多い ◦ 基準を厳しくする時は0.01(1%)にすることも カイ二乗値は4.46 → 有意水準5%より小さい =滅多に起こらない 帰無仮説「チキンとポテトの売上げの割合に関して M社とK社との間に差はない」 は、滅多に起こらない。 →帰無仮説を棄却。 =売上げに差がある。 ここで表の行数と列数を合わせる(10×10まで) 表の値などを入力(観測度数) 今回はここにチェックを入れる ここにチェックを入れる ここにチェックを入れる ↑ カイ二乗値 ↑ 自由度 ← 期待度数の表 ↑ これが有意水準より低ければ 帰無仮説は棄却される。 実際にこういった形でデータを貰う。 性別とYes/No式の質問 (Yes→1,No→0) 男女に差があるか? コピー データのインポート チェックを入れる チェックを入れる 集計した表 横浜、川崎、鎌倉の三都市合わせて600人にアンケートを とってみました(という体で)。 あなたの好きな音楽は何ですか? ◦ 1.ハウス ◦ 2.トランス ◦ 3.ドラムンベース アンケートを取った結果がエクセルファイルのようなデータ だった場合、各都市における解答に差は見られるか?
© Copyright 2024 ExpyDoc