第2章 データ分析の進め方

データ分析入門(10)
第10章 クロス集計表と仮説検定
廣野元久
1
本章の概要

モザイク図、クロス集計表により2変量の関係を調
べる



比率に着目して、変量間の関連を調べる
統計量による要約とその解釈
仮説検定の考え方


集団の一部を調べて全体を推測する
偶然誤差の回避
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
2/46

1.クロス集計表と仮説検定(1)

今までの話は、得られたデータを要約、グラフに
して各自で考察した


ビッグクラス.jmp, 車の調査.jmp
食好み,衆議院選挙得票
結論はまちまち

車の調査.jmpは、すでに調査した米国303人
(標本)に対する自家用車の集計からの考察

その考察を、標本が偏りなく取られたとして、
全米、あるいは、ある州の状況の推測として利用
できないか?
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
3/46
1.クロス集計表と仮説検定(2)
ƒ`ƒƒ
[ ƒg
N
ほとんどの人が、
・Sportyは年代が上がるほど
購入されない
・Familyは年代が上がるほど
割合が多い
・Workの割合は年代と関連しない
1
type
Family
2
type by AgeGroup
Sporty
3
この303人に対する
データの見方は一致している
Work
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
4/46
1.クロス集計表と仮説検定(3)
標本抽出
303人
グラフ化
計測
母
集
団
標本
データ
統計処理
アクション
情報
評論
偶然誤差
の排除
考察
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
5/46
1.1 クロス集計表



カテゴリーにそって、得られたデータ
カテゴリカルデータ
2つのカテゴリカルデータの関連を見る
モザイク図、クロス集計表
目的は、標本ではなく、その背後にある、もっと
大きな集団、たとえば、全米市場
市場のシェアと、販売戦略の作成
間違いは許されない;統計の神様にお願いする
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
仮説検定
6/46
1.2 社会調査データの分析
分析の流れ




調査対象の決定;定義、制約など
標本の抽出
測定と集計
カテゴリ変量間の関連を視覚的に把握する


数値で確認する


グラフ、モザイク図(どちらをX,Yにするか重要)
クロス集計表、出現比率も調べる
仮説検定で確認

カイ二乗検定で、偶然誤差の排除
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
7/46
2 モザイク図とクロス集計表(1)

JMPの登場、再び車の調査.jmpを利用
1.車の調査.jmpをロードする
2.二変量の関係を選択
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
8/46
2 モザイク図とクロス集計表(2)
1.既婚/未婚
をクリック
5.Y目的変数をクリック
3.Yに指定される
7.OKを
クリック
4.タイプ
をクリック
2.x説明変数をクリック
3. xに指定される
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
9/46
2 モザイク図とクロス集計表(3)
1.00
ƒ
[ƒN

ƒ^ƒCƒv
0.75
0.50
0.25
0.00
既婚と未婚では
選ぶタイプが違う
ƒt ƒ@ƒ~ ƒŠ
[
ƒXƒ| 
[ƒc
Šù
¥
–¢ ¥

帯の太さが,
既婚・未婚の割合
を表している
Šù
¥ /– ¢
¥
Šù
¥ / –¢
¥
ƒ^ƒCƒv
“x 
” ƒXƒ| 
[ƒc
ƒt ƒ@ƒ~ ƒŠ
[ ƒ
[ƒN

‘S‘Ì %
—ñ%
s%

Šù
¥
45
119
32
14. 85
39. 27
10. 56
45. 00
76. 77
66. 67
22. 96
60. 71
16. 33
–¢ 
¥
55
36
16
18. 15
11. 88
5. 28
55. 00
23. 23
33. 33
51. 40
33. 64
14. 95
100
155
48
33. 00
51. 16
15. 84
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
196
64. 69
107
35. 31
クロス集計表で
読むと数値的に
理解できる
303
10/46
Šù
¥ /– ¢
¥
2 モザイク図とクロス集計表(4)
“x 
” ƒXƒ| 
[ƒc
‘S‘Ì %
—ñ%
s%

Šù
¥
45
14. 85
45. 00
22. 96
–¢ 
¥
55
18. 15
55. 00
51. 40
100
33. 00
ƒ^ƒCƒv
ƒt ƒ@ƒ~ ƒŠ
[ ƒ
[ƒN

119
39. 27
76. 77
60. 71
36
11. 88
23. 23
33. 64
155
51. 16
32
10. 56
66. 67
16. 33
16
5. 28
33. 33
14. 95
48
15. 84
196
64. 69
107
35. 31
303
全体に対するパーセント
119/303*100
縦方向に見たパーセント
119/155*100
横方向に見た比率
119/196*100
和が100%
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
11/46
3 クロス表の検定

3.1仮説検定の論理
2つの仮説
 背理法


3.2有意水準とp値


3.3検定結果からの結論の導き方


有意水準とリスク
命題の支持と真とは違う
3.4クロス表の検定
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
12/46
3.1 仮説検定の論理(1)


母集団全体で推測されること(命題)を標本から得
られたデータから統計的に判断する
2つの仮説を用意する
帰無仮説:H0捨てたい仮説
命題がまったく生じないという状態を考える
未婚既婚と車のタイプは関連がまったくない
対立仮説:H1帰無仮説と反対の仮説
命題の程度は分からないが、帰無仮説が誤りならば、必ず対立
仮説は正しい

背理法

捨てたい仮説が生じる状態を想定して、その状態から データ
(標本)が得られる確率で判断する
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
13/46
3.1 仮説検定の論理(2)
命題:犬は白い
 いくら、白い犬をたくさん連れて来ても、命
題を証明できない
 しかし1匹、黒い(白くない)犬を連れてくれ
ば、命題を否定できる

これが背理法
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
14/46
3.1 仮説検定の論理(3)
2000年度はチョコレート実験をやりました
命題:同程度の甘さのチョコレートA,Bでは、食べる順番で
甘さの感じ方が違う
Hoでない
対立仮説H1
母集団
程度が分からないので
帰無仮説Ho
食べる順番で甘さの感じ方が
変わらない
Hoにそう
母集団
背反事象
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
標本
どっちの経路から
標本が得られたか
判定する
15/46
3.2 有意水準とp値(1)


ここでは
有意水準αとは、帰無仮説を捨てるための基準と
なる確率




通常、5%、1%などを使う
コイントスで続けて何回表が出たらいかさまと感じるか
P値は、帰無仮説Hoが真として標本が、
そのような母集団から得られる上側確率
αとp値から帰無仮説を捨てるかどうか決める
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
16/46
3.2 有意水準とp値(2)
10000人(非常に多数という意味)を母集団として、
チョコレート実験は、仮にこのような結果
(提示する順番に関係ない)だとする
統計の神様
A~B
B~A
計
の世界
Aが甘い
3106
3283
6389
Bが甘い
計
1755
4861
1856
5139
3611
10000
ここから、標本として、72人抜き取って
A~B
Aが甘い
Bが甘い
計
18
17
35
B~A
28
9
37
計
46
26
72
実際の
実験結果
が標本として得られる上側確率を計算
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
17/46
3.2 有意水準とp値(3)

まず、有意水準α=0.05とする
•ªŠ„•\
ƒ‚ƒUƒCƒN}
“x
”
1
‘S‘Ì%
—ñ%
s%

1
1.00
2
—ñ1
— ñ2
0.75
2
0.50
—ñ2
2
18
25.00
51.43
39.13
17
23.61
48.57
65.38
35
48.61
28
38.89
75.68
60.87
9
12.50
24.32
34.62
37
51.39
46
63.89
26
36.11
P値、
.05より小さい
帰無仮説を棄却
72
ŒŸ’è
0.25
1
0.00
1
2
—ñ1
—vˆö
ƒ‚ƒf ƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x(-1)*‘΍
” –Þ“x
R2
æ (U)
1
2.318867 0.0465
70
47.559948
71
49.878816
72
ƒJƒC2
æ p’l(Prob>ChiSq)
4.638
0.0313
4.583
0.0323
Fisher‚̍
³ ŠmŒŸ’è
¶

‰E
—¼‘¤ ŒŸ’è
Šm—¦‘ã‘ւ̉¼
à’l
0.0286—ñ1=1‚̍
ê
‡‚Ìp’l(—ñ2=2)‚͍
A —ñ1=2‚̍
ê
‡‚æ‚è‚à‘å‚«‚¢
0.9918—ñ1=2‚̍
ê
‡‚Ìp’l(—ñ2=2)‚͍
A —ñ1=1‚̍
ê
‡‚æ‚è‚à‘å‚«‚¢
0.0491Šm—¦(— ñ2=2)‚͍
A —ñ1‚̊ԂňقȂé
ƒJƒbƒp •W
€Œë
·
-0.24043 0.109659
ƒJƒbƒp‚͈ê’v“x‚Ì‘ª“ x
B
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
18/46
予防率の違いの検定、どうしたらよいの
でしょうか?
タミフル群
 プラセボ群
2人 / 155人 1.3%
13人 / 153人 8.5%

二項分布
二項分布
0.30
0.15
0.25
0.20
0.10
0.15
0.10
0.05
0.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0.00
0
0.00
19/46
3.3 検定結果からの結論の導き方(1)

帰無仮説が棄却された


帰無仮説が棄却できない(p値が5%より大)




積極的に命題(対立仮説)の正当性を主張
対立仮説を捨てれない
標本の数やデータの品質に依存
つまり、いまあるデータからは分からない
検定結果と命題が真であるかは別、

知見にあった(一般常識に照らして)結論する
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
20/46
3.3 検定結果からの結論の導き方(2)
命題を立てる
仮説の設定
帰無仮説
対立仮説
有意水準αを設定
検定を実行
α>p値
帰無仮説を
棄却
α<p値
帰無仮説を
棄却できない
標本数、分析方法の見直し
結論
命題は正しい
命題は
正しくない
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
再調査
21/46
3.4 クロス集計の検定(1)
車の調査.jmpに戻る
 帰無仮説Ho



対立仮説H1


未既婚の別と車種の好みとは無関係
未既婚の別と車種の好みとは関係がある
有意水準を決めるα=.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
22/46
3.4 クロス集計の検定(2)

Testのブロックを見る
ŒŸ’è
—v ˆ ö
ƒ‚ƒf ƒ‹
Œë 
·
‘S‘Ì( 
C
³
Ï ‚Ý)
N
Ž©—R“x(- 1)*‘Î 
” – Þ“x
R2
æ(U )
2
13.38280 0.0441
299
289.81268
301
303.19548
303
ŒŸ’è
ƒJ ƒC2
æ p’l(Prob>ChiSq)
–Þ“x”ä
26.766
<.0001
Pearson 26.963
<.0001
未既婚と車種は統計的に
関係がある
PearsonのProb>ChiSq
を見る
.0001以下であることが
分かる
つまり、万に1回も
無関係であるような
標本は得られない
データが教えてくれた
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
23/46
課題






食好み.JMPをダウンロードしなさい.
このデータは,仮に20前後の日本の若者の食の嗜好を代
表するものであるとします
出身地域と性別で分類したとき,食品の好みが違うものが
あるかを調べよ.
この結果は,あなたが,先に提出した課題(第4章)で感じた
ことと一致していたかどうかを考察しなさい.
統計的検定について,感じたことを述べなさい.
以上のことをリポートにまとめて,提出しなさい
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
24/46
データの揺らぎ、臨床データの揺らぎ

高橋 行雄
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
25/46
1.クロス集計表と仮説検定
標本抽出
303人
グラフ化
計測
母
集
団
標本
データ
統計処理
アクション
情報
評論
偶然誤差
の排除
考察
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
26/46
クロス集計表
カテゴリーにそって、得られたデータ
カテゴリカルデータ
 2つのカテゴリカルデータの関連を見る
モザイク図、クロス集計表
 目的は、標本ではなく、その背後にある、
もっと大きな集団、たとえば、全米市場

市場のシェアと、販売戦略の作成
間違いは許されない;統計の神様にお願いする
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
仮説検定
27/46
予防率の違いの検定、
どうしたらよいのでしょうか?
タミフル群
 プラセボ群
2人 / 155人 1.3%
13人 / 153人 8.5%

二項分布
二項分布
0.30
0.15
0.25
0.20
0.10
0.15
0.10
0.05
0.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0.00
0
0.00
28/46
伝統的な有意差検定
ŒŸ’è
—v ˆ ö
ƒ‚ƒf ƒ‹
Œë ·
‘S‘Ì ( 
C
³
Ï ‚Ý)
N
–ò Ü

•ªŠ„ •\
—\–hŒø‰ Ê
“x ”
0
1
ƒ^ƒ~ƒtƒ‹
2
153
155
ƒv ƒ‰ ƒZƒ{ 13
140
153
15
293
308
ŒŸ’è
–Þ“x ”ä
Pearson
Ž© —R “x(- 1)*‘Î 
” – Þ“x
R 2
æ (U )
1
4.789088
0.0799
306
55.170318
307
59.959406
308
ƒJ ƒC 2
æ p’l(Prob>C hiSq)
9. 578
0.0020
8. 631
0.0033
Fis h er‚̍
³ ŠmŒŸ’è
¶

‰E
—¼‘¤ŒŸ’è
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
Šm—¦
0. 0028
0. 9997
0. 0032
29/46
臨床試験の計画

実験結果はどのくらい揺らぐのか
2005年度の○○製薬の社員全員 5016名
 インフルエンザ・ワクチンの予防試験(仮想)
 2 群に分けプラセボと実薬の接種

 プラセボの予防率が
10 %
 新ワクチンの予防率が 5 %

各群 200例の比較試験をしたとする

各群の予防率はいかに?
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30/46
「揺らぎ」は、統計学の原点

浜田本、p16、エンドウの 実験、表 3


2項分布、p19、式(1)
揺らぎを体験してみよう
プラセボの真の予防率は 10%
 JMPで 2項乱数を使ってみる

第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
31/46
実験結果は、予防効果は何例?
「実験結果」に、
2項乱数を選択
nは、実験数
pは、真の予防率
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
32/46
クラスのメンバーの結果は?
発表結果をJMPのシートに入力
分布をJMPで書いてみる
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
33/46
100回実験をしてみよう
テーブル変数の利用
各群の予防人数を2項乱数で計算
人数の追加は、メニューの「行」の「追加」で
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
34/46
実験結果の揺らぎ
d
‚ ˁ
‡ ‚ í‚ ¹ƒv ƒ
ƒ bƒ g
Y‚ ́
d ‚ ˁ
‡ ‚ í‚ ¹
0.15
Y
0.10
0.05
0.00
0
Y
1:ƒv ƒ‰ ƒZƒ{
10
20
30
40
50
60
ŽÀŒ±” ԍ
†
70
80
90
100
2: ŽÀ– òƒ
ƒ N ƒ`ƒ“
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
35/46
100回の実験の揺らぎの分布
ˆê •Ï —Ê‚ Ì •ª•z
1:ƒvƒ‰ ƒZƒ{
ƒ‚ 
[ƒ 
ƒ “ ƒg
•½‹Ï
0. 1002
•W 
€ • ΍
·
0.0181314
•½‹ Ï‚Ì •W 
€ Œ ë
·
0.0018131
•½‹ Ï‚Ì 
ã ‘¤9 5%
M— ŠŒÀŠE0.1037977
•½‹ Ï‚Ì ‰ º‘¤ 95 %
M— ŠŒÀŠE
0.0966023
N
100
. 02 . 04 . 06 . 08 . 10 . 12 . 14 . 16
2:ŽÀ– òƒ
ƒ N ƒ`ƒ“
ƒ‚ 
[ƒ 
ƒ “ ƒg
•½‹Ï
0.049
•W 
€ • ΍
·
0.01367
•½‹ Ï‚Ì •W 
€ Œ ë
·
0. 001367
•½‹ Ï‚Ì 
ã ‘¤9 5%
M— ŠŒÀŠE0.0517124
•½‹ Ï‚Ì ‰ º‘¤ 95 %
M— ŠŒÀŠE
0.0462876
N
100
. 02 . 04 . 06 . 08 . 1 . 12 . 14 . 16
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
36/46
メンデルの実験の場合
種の形で ‐19 から +19 の外になる
回数をカウントしてみよう (図 2)
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
37/46
オッズ比の信頼区間

浜田本、p136
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
38/46
「モデルのあてはめ」
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
39/46
ロジスティック回帰分析
–¼‹ `ƒ
ƒ W ƒXƒeƒ BƒbƒN ‚ Ì‚ ‚ Ä‚ Í‚ ߃C ƒxƒ“ ƒg_01
“x 
”: n
ƒ‚ƒfƒ‹‘ S‘Ì ‚ ÌŒŸ’è
ƒ‚ƒf ƒ‹ (- 1)*‘Î 
” – Þ“x
Ž© —R “x ƒJ ƒC 2
æ p’l(Prob>C hiSq)
·
0.917071
1
1.834142
0.1756
Š® ‘S
52.359822
k
¬

53.276893
R 2
æ (U )
0. 0172
ƒI ƒuƒU ƒx 
[ ƒ Vƒ‡ƒ“ (‚Ü‚½‚Í 
d ‚Ý‚Ì 
‡ Œ v)
200
オッズ比はオプションで指定
Œù”z‚É‚æ‚éŽû‘©
ƒpƒ ‰ƒ 
[ ƒ ^
„ ’ è’ l
€

„ ’è ’l

•W 
€ Œ ë
· ƒJ ƒC 2
æ p’l(Prob>C hiSq)
ƒIƒbƒY”ä
Ø
•Ð
-2. 9444379 0.4588312 41.18
<.0001
.
–ò 
Ü_01 0.74721332 0.5671307
1.74
0.1877 2.11110883
„ ’è ’l‚ÍŽŸ‚Ì ‘Î 

” ƒ Iƒbƒ Y ‚É‘Î ‚· ‚é‚à‚Ì‚Å‚· 
F 0/ 1
Œø‰ Ê‚ É‘ ΂ ·‚ éW al dŒŸ’è
—v ˆ ö
ƒp ƒ‰ ƒ
[ ƒ ^

” Ž© —R “xW a ldƒJƒ C 2
æp’l(Prob>C hiSq)
–ò 
Ü_01
1
1
1.73589283
0.1877
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
40/46
オッズ比の信頼区間
浜田本の p142 の計算式を参照
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
41/46
100回の臨床実験
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
42/46
オッズ比の95%信頼区間
Y‚ ́
d ‚ ˁ
‡ ‚ í‚ ¹
2.5
2.0
Y
1.5
1.0
0.5
0.0
0
10
20
30
40
50
60
ŽÀŒ±” ԍ
†
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
70
80
90
100
43/46
症例数を変えた実験

症例数を 1 群 400 例にしてみよう


オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
症例数を 1 群 100 例にしてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
44/46
画期的なワクチン

予防率を 相対リスク(RR)で 30%と期待


テーブル変数を 0.30 としなさい
症例数を150としてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
45/46
安価なワクチン

しかし、予防効果は相対リスクで 60%

症例数を 300 としてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
46/46