データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久 1 本章の概要 モザイク図、クロス集計表により2変量の関係を調 べる 比率に着目して、変量間の関連を調べる 統計量による要約とその解釈 仮説検定の考え方 集団の一部を調べて全体を推測する 偶然誤差の回避 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 2/46 1.クロス集計表と仮説検定(1) 今までの話は、得られたデータを要約、グラフに して各自で考察した ビッグクラス.jmp, 車の調査.jmp 食好み,衆議院選挙得票 結論はまちまち 車の調査.jmpは、すでに調査した米国303人 (標本)に対する自家用車の集計からの考察 その考察を、標本が偏りなく取られたとして、 全米、あるいは、ある州の状況の推測として利用 できないか? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 3/46 1.クロス集計表と仮説検定(2) ƒ`ƒƒ [ ƒg N ほとんどの人が、 ・Sportyは年代が上がるほど 購入されない ・Familyは年代が上がるほど 割合が多い ・Workの割合は年代と関連しない 1 type Family 2 type by AgeGroup Sporty 3 この303人に対する データの見方は一致している Work 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 4/46 1.クロス集計表と仮説検定(3) 標本抽出 303人 グラフ化 計測 母 集 団 標本 データ 統計処理 アクション 情報 評論 偶然誤差 の排除 考察 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 5/46 1.1 クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、もっと 大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 仮説検定 6/46 1.2 社会調査データの分析 分析の流れ 調査対象の決定;定義、制約など 標本の抽出 測定と集計 カテゴリ変量間の関連を視覚的に把握する 数値で確認する グラフ、モザイク図(どちらをX,Yにするか重要) クロス集計表、出現比率も調べる 仮説検定で確認 カイ二乗検定で、偶然誤差の排除 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 7/46 2 モザイク図とクロス集計表(1) JMPの登場、再び車の調査.jmpを利用 1.車の調査.jmpをロードする 2.二変量の関係を選択 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 8/46 2 モザイク図とクロス集計表(2) 1.既婚/未婚 をクリック 5.Y目的変数をクリック 3.Yに指定される 7.OKを クリック 4.タイプ をクリック 2.x説明変数をクリック 3. xに指定される 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 9/46 2 モザイク図とクロス集計表(3) 1.00 ƒ [ƒN ƒ^ƒCƒv 0.75 0.50 0.25 0.00 既婚と未婚では 選ぶタイプが違う ƒt ƒ@ƒ~ ƒŠ [ ƒXƒ| [ƒc Šù ¥ –¢ ¥ 帯の太さが, 既婚・未婚の割合 を表している Šù ¥ /– ¢ ¥ Šù ¥ / –¢ ¥ ƒ^ƒCƒv “x ” ƒXƒ| [ƒc ƒt ƒ@ƒ~ ƒŠ [ ƒ [ƒN ‘S‘Ì % —ñ% s% Šù ¥ 45 119 32 14. 85 39. 27 10. 56 45. 00 76. 77 66. 67 22. 96 60. 71 16. 33 –¢ ¥ 55 36 16 18. 15 11. 88 5. 28 55. 00 23. 23 33. 33 51. 40 33. 64 14. 95 100 155 48 33. 00 51. 16 15. 84 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 196 64. 69 107 35. 31 クロス集計表で 読むと数値的に 理解できる 303 10/46 Šù ¥ /– ¢ ¥ 2 モザイク図とクロス集計表(4) “x ” ƒXƒ| [ƒc ‘S‘Ì % —ñ% s% Šù ¥ 45 14. 85 45. 00 22. 96 –¢ ¥ 55 18. 15 55. 00 51. 40 100 33. 00 ƒ^ƒCƒv ƒt ƒ@ƒ~ ƒŠ [ ƒ [ƒN 119 39. 27 76. 77 60. 71 36 11. 88 23. 23 33. 64 155 51. 16 32 10. 56 66. 67 16. 33 16 5. 28 33. 33 14. 95 48 15. 84 196 64. 69 107 35. 31 303 全体に対するパーセント 119/303*100 縦方向に見たパーセント 119/155*100 横方向に見た比率 119/196*100 和が100% 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 11/46 3 クロス表の検定 3.1仮説検定の論理 2つの仮説 背理法 3.2有意水準とp値 3.3検定結果からの結論の導き方 有意水準とリスク 命題の支持と真とは違う 3.4クロス表の検定 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 12/46 3.1 仮説検定の論理(1) 母集団全体で推測されること(命題)を標本から得 られたデータから統計的に判断する 2つの仮説を用意する 帰無仮説:H0捨てたい仮説 命題がまったく生じないという状態を考える 未婚既婚と車のタイプは関連がまったくない 対立仮説:H1帰無仮説と反対の仮説 命題の程度は分からないが、帰無仮説が誤りならば、必ず対立 仮説は正しい 背理法 捨てたい仮説が生じる状態を想定して、その状態から データ (標本)が得られる確率で判断する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 13/46 3.1 仮説検定の論理(2) 命題:犬は白い いくら、白い犬をたくさん連れて来ても、命 題を証明できない しかし1匹、黒い(白くない)犬を連れてくれ ば、命題を否定できる これが背理法 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 14/46 3.1 仮説検定の論理(3) 2000年度はチョコレート実験をやりました 命題:同程度の甘さのチョコレートA,Bでは、食べる順番で 甘さの感じ方が違う Hoでない 対立仮説H1 母集団 程度が分からないので 帰無仮説Ho 食べる順番で甘さの感じ方が 変わらない Hoにそう 母集団 背反事象 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 標本 どっちの経路から 標本が得られたか 判定する 15/46 3.2 有意水準とp値(1) ここでは 有意水準αとは、帰無仮説を捨てるための基準と なる確率 通常、5%、1%などを使う コイントスで続けて何回表が出たらいかさまと感じるか P値は、帰無仮説Hoが真として標本が、 そのような母集団から得られる上側確率 αとp値から帰無仮説を捨てるかどうか決める 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 16/46 3.2 有意水準とp値(2) 10000人(非常に多数という意味)を母集団として、 チョコレート実験は、仮にこのような結果 (提示する順番に関係ない)だとする 統計の神様 A~B B~A 計 の世界 Aが甘い 3106 3283 6389 Bが甘い 計 1755 4861 1856 5139 3611 10000 ここから、標本として、72人抜き取って A~B Aが甘い Bが甘い 計 18 17 35 B~A 28 9 37 計 46 26 72 実際の 実験結果 が標本として得られる上側確率を計算 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 17/46 3.2 有意水準とp値(3) まず、有意水準α=0.05とする •ªŠ„•\ ƒ‚ƒUƒCƒN} “x ” 1 ‘S‘Ì% —ñ% s% 1 1.00 2 —ñ1 — ñ2 0.75 2 0.50 —ñ2 2 18 25.00 51.43 39.13 17 23.61 48.57 65.38 35 48.61 28 38.89 75.68 60.87 9 12.50 24.32 34.62 37 51.39 46 63.89 26 36.11 P値、 .05より小さい 帰無仮説を棄却 72 ŒŸ’è 0.25 1 0.00 1 2 —ñ1 —vˆö ƒ‚ƒf ƒ‹ Œë · ‘S‘Ì( C ³ Ï‚Ý) N ŒŸ’è –Þ“x”ä Pearson Ž©—R“x(-1)*‘Î ” –Þ“x R2 æ (U) 1 2.318867 0.0465 70 47.559948 71 49.878816 72 ƒJƒC2 æ p’l(Prob>ChiSq) 4.638 0.0313 4.583 0.0323 Fisher‚Ì ³ ŠmŒŸ’è ¶ ‰E —¼‘¤ ŒŸ’è Šm—¦‘ã‘ւ̉¼ à’l 0.0286—ñ1=1‚Ì ê ‡‚Ìp’l(—ñ2=2)‚Í A —ñ1=2‚Ì ê ‡‚æ‚è‚à‘å‚«‚¢ 0.9918—ñ1=2‚Ì ê ‡‚Ìp’l(—ñ2=2)‚Í A —ñ1=1‚Ì ê ‡‚æ‚è‚à‘å‚«‚¢ 0.0491Šm—¦(— ñ2=2)‚Í A —ñ1‚ÌŠÔ‚ÅˆÙ‚È‚é ƒJƒbƒp •W €Œë · -0.24043 0.109659 ƒJƒbƒp‚͈ê’v“x‚Ì‘ª“ x B 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 18/46 予防率の違いの検定、どうしたらよいの でしょうか? タミフル群 プラセボ群 2人 / 155人 1.3% 13人 / 153人 8.5% 二項分布 二項分布 0.30 0.15 0.25 0.20 0.10 0.15 0.10 0.05 0.05 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0.00 0 0.00 19/46 3.3 検定結果からの結論の導き方(1) 帰無仮説が棄却された 帰無仮説が棄却できない(p値が5%より大) 積極的に命題(対立仮説)の正当性を主張 対立仮説を捨てれない 標本の数やデータの品質に依存 つまり、いまあるデータからは分からない 検定結果と命題が真であるかは別、 知見にあった(一般常識に照らして)結論する 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 20/46 3.3 検定結果からの結論の導き方(2) 命題を立てる 仮説の設定 帰無仮説 対立仮説 有意水準αを設定 検定を実行 α>p値 帰無仮説を 棄却 α<p値 帰無仮説を 棄却できない 標本数、分析方法の見直し 結論 命題は正しい 命題は 正しくない 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 再調査 21/46 3.4 クロス集計の検定(1) 車の調査.jmpに戻る 帰無仮説Ho 対立仮説H1 未既婚の別と車種の好みとは無関係 未既婚の別と車種の好みとは関係がある 有意水準を決めるα=.05 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 22/46 3.4 クロス集計の検定(2) Testのブロックを見る ŒŸ’è —v ˆ ö ƒ‚ƒf ƒ‹ Œë · ‘S‘Ì( C ³ Ï ‚Ý) N Ž©—R“x(- 1)*‘Î ” – Þ“x R2 æ(U ) 2 13.38280 0.0441 299 289.81268 301 303.19548 303 ŒŸ’è ƒJ ƒC2 æ p’l(Prob>ChiSq) –Þ“x”ä 26.766 <.0001 Pearson 26.963 <.0001 未既婚と車種は統計的に 関係がある PearsonのProb>ChiSq を見る .0001以下であることが 分かる つまり、万に1回も 無関係であるような 標本は得られない データが教えてくれた 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 23/46 課題 食好み.JMPをダウンロードしなさい. このデータは,仮に20前後の日本の若者の食の嗜好を代 表するものであるとします 出身地域と性別で分類したとき,食品の好みが違うものが あるかを調べよ. この結果は,あなたが,先に提出した課題(第4章)で感じた ことと一致していたかどうかを考察しなさい. 統計的検定について,感じたことを述べなさい. 以上のことをリポートにまとめて,提出しなさい 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 24/46 データの揺らぎ、臨床データの揺らぎ 高橋 行雄 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 25/46 1.クロス集計表と仮説検定 標本抽出 303人 グラフ化 計測 母 集 団 標本 データ 統計処理 アクション 情報 評論 偶然誤差 の排除 考察 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 26/46 クロス集計表 カテゴリーにそって、得られたデータ カテゴリカルデータ 2つのカテゴリカルデータの関連を見る モザイク図、クロス集計表 目的は、標本ではなく、その背後にある、 もっと大きな集団、たとえば、全米市場 市場のシェアと、販売戦略の作成 間違いは許されない;統計の神様にお願いする 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 仮説検定 27/46 予防率の違いの検定、 どうしたらよいのでしょうか? タミフル群 プラセボ群 2人 / 155人 1.3% 13人 / 153人 8.5% 二項分布 二項分布 0.30 0.15 0.25 0.20 0.10 0.15 0.10 0.05 0.05 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0.00 0 0.00 28/46 伝統的な有意差検定 ŒŸ’è —v ˆ ö ƒ‚ƒf ƒ‹ Œë · ‘S‘Ì ( C ³ Ï ‚Ý) N –ò Ü •ªŠ„ •\ —\–hŒø‰ Ê “x ” 0 1 ƒ^ƒ~ƒtƒ‹ 2 153 155 ƒv ƒ‰ ƒZƒ{ 13 140 153 15 293 308 ŒŸ’è –Þ“x ”ä Pearson Ž© —R “x(- 1)*‘Î ” – Þ“x R 2 æ (U ) 1 4.789088 0.0799 306 55.170318 307 59.959406 308 ƒJ ƒC 2 æ p’l(Prob>C hiSq) 9. 578 0.0020 8. 631 0.0033 Fis h er‚Ì ³ ŠmŒŸ’è ¶ ‰E —¼‘¤ŒŸ’è 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 Šm—¦ 0. 0028 0. 9997 0. 0032 29/46 臨床試験の計画 実験結果はどのくらい揺らぐのか 2005年度の○○製薬の社員全員 5016名 インフルエンザ・ワクチンの予防試験(仮想) 2 群に分けプラセボと実薬の接種 プラセボの予防率が 10 % 新ワクチンの予防率が 5 % 各群 200例の比較試験をしたとする 各群の予防率はいかに? 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 30/46 「揺らぎ」は、統計学の原点 浜田本、p16、エンドウの 実験、表 3 2項分布、p19、式(1) 揺らぎを体験してみよう プラセボの真の予防率は 10% JMPで 2項乱数を使ってみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 31/46 実験結果は、予防効果は何例? 「実験結果」に、 2項乱数を選択 nは、実験数 pは、真の予防率 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 32/46 クラスのメンバーの結果は? 発表結果をJMPのシートに入力 分布をJMPで書いてみる 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 33/46 100回実験をしてみよう テーブル変数の利用 各群の予防人数を2項乱数で計算 人数の追加は、メニューの「行」の「追加」で 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 34/46 実験結果の揺らぎ d ‚ Ë ‡ ‚ í‚ ¹ƒv ƒ ƒ bƒ g Y‚ Ì d ‚ Ë ‡ ‚ í‚ ¹ 0.15 Y 0.10 0.05 0.00 0 Y 1:ƒv ƒ‰ ƒZƒ{ 10 20 30 40 50 60 ŽÀŒ±” Ô † 70 80 90 100 2: ŽÀ– òƒ ƒ N ƒ`ƒ“ 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 35/46 100回の実験の揺らぎの分布 ˆê •Ï —Ê‚ Ì •ª•z 1:ƒvƒ‰ ƒZƒ{ ƒ‚ [ƒ ƒ “ ƒg •½‹Ï 0. 1002 •W € • Î · 0.0181314 •½‹ Ï‚Ì •W € Œ ë · 0.0018131 •½‹ Ï‚Ì ã ‘¤9 5% M— ŠŒÀŠE0.1037977 •½‹ Ï‚Ì ‰ º‘¤ 95 % M— ŠŒÀŠE 0.0966023 N 100 . 02 . 04 . 06 . 08 . 10 . 12 . 14 . 16 2:ŽÀ– òƒ ƒ N ƒ`ƒ“ ƒ‚ [ƒ ƒ “ ƒg •½‹Ï 0.049 •W € • Î · 0.01367 •½‹ Ï‚Ì •W € Œ ë · 0. 001367 •½‹ Ï‚Ì ã ‘¤9 5% M— ŠŒÀŠE0.0517124 •½‹ Ï‚Ì ‰ º‘¤ 95 % M— ŠŒÀŠE 0.0462876 N 100 . 02 . 04 . 06 . 08 . 1 . 12 . 14 . 16 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 36/46 メンデルの実験の場合 種の形で ‐19 から +19 の外になる 回数をカウントしてみよう (図 2) 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 37/46 オッズ比の信頼区間 浜田本、p136 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 38/46 「モデルのあてはめ」 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 39/46 ロジスティック回帰分析 –¼‹ `ƒ ƒ W ƒXƒeƒ BƒbƒN ‚ Ì‚ ‚ Ä‚ Í‚ ߃C ƒxƒ“ ƒg_01 “x ”: n ƒ‚ƒfƒ‹‘ S‘Ì ‚ ÌŒŸ’è ƒ‚ƒf ƒ‹ (- 1)*‘Î ” – Þ“x Ž© —R “x ƒJ ƒC 2 æ p’l(Prob>C hiSq) · 0.917071 1 1.834142 0.1756 Š® ‘S 52.359822 k ¬ 53.276893 R 2 æ (U ) 0. 0172 ƒI ƒuƒU ƒx [ ƒ Vƒ‡ƒ“ (‚Ü‚½‚Í d ‚Ý‚Ì ‡ Œ v) 200 オッズ比はオプションで指定 Œù”z‚É‚æ‚éŽû‘© ƒpƒ ‰ƒ [ ƒ ^ „ ’ è’ l € „ ’è ’l •W € Œ ë · ƒJ ƒC 2 æ p’l(Prob>C hiSq) ƒIƒbƒY”ä Ø •Ð -2. 9444379 0.4588312 41.18 <.0001 . –ò Ü_01 0.74721332 0.5671307 1.74 0.1877 2.11110883 „ ’è ’l‚ÍŽŸ‚Ì ‘Î ” ƒ Iƒbƒ Y ‚É‘Î ‚· ‚é‚à‚Ì‚Å‚· F 0/ 1 Œø‰ Ê‚ É‘ ΂ ·‚ éW al dŒŸ’è —v ˆ ö ƒp ƒ‰ ƒ [ ƒ ^ ” Ž© —R “xW a ldƒJƒ C 2 æp’l(Prob>C hiSq) –ò Ü_01 1 1 1.73589283 0.1877 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 40/46 オッズ比の信頼区間 浜田本の p142 の計算式を参照 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 41/46 100回の臨床実験 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 42/46 オッズ比の95%信頼区間 Y‚ Ì d ‚ Ë ‡ ‚ í‚ ¹ 2.5 2.0 Y 1.5 1.0 0.5 0.0 0 10 20 30 40 50 60 ŽÀŒ±” Ô † 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 70 80 90 100 43/46 症例数を変えた実験 症例数を 1 群 400 例にしてみよう オッズ比の 95%信頼区間が1を超える実験の 数は何回発生するのだろうか 症例数を 1 群 100 例にしてみよう オッズ比の 95%信頼区間が1を超える実験の 数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 44/46 画期的なワクチン 予防率を 相対リスク(RR)で 30%と期待 テーブル変数を 0.30 としなさい 症例数を150としてみよう オッズ比の 95%信頼区間が1を超える実験の 数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 45/46 安価なワクチン しかし、予防効果は相対リスクで 60% 症例数を 300 としてみよう オッズ比の 95%信頼区間が1を超える実験の 数は何回発生するのだろうか 第10章 クロス集計表と仮説検定 廣野元久 &高橋行雄 46/46
© Copyright 2024 ExpyDoc