データ解析基礎 6.クロス集計表の関係分析

データ解析基礎
6.クロス集計表の関係分析
keyword
クロス集計表
(教科書:47ページ~54ページ,77ページ~81ページ)
観測度数と期待度数
相対度数
独立性
1
復習:統計データの構造
 データ解析では調査項目のことを変量と呼ぶ.
 質的変量
 名義尺度:名前,性別
 順序尺度:好きなもの順位など
 量的変量(連続的変量)
 間隔尺度:温度,成績など
 比例尺度:距離,重量,金額など
2
復習:質的変量の集計
ID
1
2
3
4
5
6
7
8
・・・
793
頭部損傷 ヘルメット着用
有り
着用
無し
着用
無し
非着用
有り
着用
無し
着用
有り
非着用
有り
非着用
無し
着用
・・・
・・・・
有り
非着用
 質的変量のデータをど
うまとめるか?
 単純集計
 クロス集計
3
単純集計とクロス集計
 単純集計とは・・・
 複数の項目(変量)について調査が行われた場
合,一つ一つの項目を切り離して捉え,それら
の度数分布を求めるもの
 クロス集計とは・・・
 二つ以上の項目に着目し,各項目の取る値の
すべての組合せについて,その数(度数)を数え
上げ,表にまとめたもの.
 質的変数(項目)間の関係を探ることが出来る.
4
復習:単純集計
頭部損傷の集計表
頭部損傷
有
235
無
558
合計
793
ヘルメット着用の有無の集計表
ヘルメット着用
着用
147
非着用
648
合計
793
5
復習:クロス集計表
頭部損傷とヘルメット着用の有無のクロス集計表
頭部損傷
有
無
合計
ヘルメット着用の有無
着用
非着用
17
218
130
428
147
646
合計
235
558
793
例えば,
(頭部損傷=有,ヘルメット着用=着用) ⇒ 17人
(頭部損傷=無,ヘルメット着用=非着用) ⇒ 428人
6
クロス集計表:用語
頭部損傷とヘルメット着用の有無のクロス集計表
頭部損傷
有
無
合計
ヘルメット着用の有無
着用
非着用
17
218
130
428
147
646
合計
235
558
793
項目
セル
周辺度数
7
単純集計とクロス集計
-出世は実力によるけど,その速度は人並み
 NHKで放送されたクイズ番組での質問
 質問1
「あなたのこれまでの昇進の主な要因は何です
か」
 質問2
「あなたのこれまでの昇進の速度は周囲に比べ
て速いですか遅いですか」
に対して,回答の集計は次の表になった.
8
単純集計とクロス集計
-出世は実力によるけど,その速度は人並み
表1:中堅サラリーマン100人が答えた自分の昇進についての自己評価
あなたのこれまでの昇進の主な要因
は何ですか
実力
年功
60
30
上司の引
き立て
10
あなたのこれまでの昇進の速度は周
囲に比べて速いですか遅いですか
人並み
50
速い
35
遅い
15
合計
100
合計
100
回答結果の批評として・・・
 「自分の出世は実力によるけど,その速度は人並みと考
えている人が多い」
 質問1と質問2で回答数が一番多かった項目を重ね合わ
せた結果が上の批評をなった.本当か?
9
単純集計とクロス集計
-出世は実力によるけど,その速度は人並み
 質問1と質問2からクロス集計表を作成した場合を想定し
て,観測度数(セル)の発生パターンを考えてみた.
表2:2つの質問項目の間で推測される関連の構造(例)
「自分の出世は実力,その速度は
人並みと考えている人が多い」とい
えるか?
昇進の要因
昇進の速度
合計
人並み
速い
遅い
実力
20
25
15
60
年功
30
0
0
30
上司の引き立て
0
10
0
10
合計
50
35
15
100
10
単純集計とクロス集計
-出世は実力によるけど,その速度は人並み
 アナウンサーが犯した誤り
 質問1の最頻度の項目と質問2の最頻度の項目
の交わった場所⇒
(質問1,質問2)の最頻度と考えていた
 最頻度項目
1. (昇進の主要因)→実力 この論理は現実に成り立
2. (昇進の速度)→人並み たない!!
 1.&2.から(質問1,質問2)→(実力,人並み)
 項目相互間の独立性の問題に関連する
11
項目相互間の独立性(従属性)
 統計的独立とは・・・
クロス集計表において,2つの項目間の間にまった
く関係のない状態
 量的な項目間の場合・・・「相関係数がない」に相当
 クロス集計表を解析する際に,統計的独立性を調
べることは重要
 個々の項目について度数分布をいくら眺めても見
えない情報も,クロス集計表から得られれることが
ある
12
例題:クロス集計表の構造
 32人について,関東出身者と関西出身者のうど
んつゆの好みについてのデータを調べ,クラス
集計表を作成した.
出身地とつゆの好
みには,何か関連が
ありように見える
が・・・
表:出身地とめんつゆの好みの関係
好み
出身地
醤油系
だし系
計
16
4
20
関東
4
26
30
関西
20
30
50
計
13
例題:クロス集計表の構造
 出身地とうどんつゆの好みにまったく関係がない
(統計的独立である)場合のクロス集計表
表:出身地とめんつゆの好みの関係
出身地
関東
関西
計
好み
醤油系
だし系
8
12
12
18
20
30
計
20
30
50
このクロス集計表のセルを期待度数と呼ぶ
14
例題:クロス集計表の構造
 出身地とめんつゆの好みが完全に従属している場
合(統計的に独立でない場合)のクロス集計表
表:出身地とめんつゆの好みの関係
出身地
関東
関西
計
好み
醤油系
だし系
20
0
0
30
20
30
計
20
30
50
このクロス集計表のセルを期待度数と呼ぶ
15
統計的独立の構造1
統計的独立性が成り立つ=
各行内でみた度数の分布(割合)が一定である
表:出身地とめんつゆの好みの関係
出身地
関東
関西
計
好み
醤油系
だし系
8
12
12
18
20
30
関東: 8:12=2:3
関西:
計 12:18=2:3
20
30
50
16
統計的独立の構造2
統計的に完全従属性が成り立つ=
対角成分が1以上で非対角成分が0,または
非対角成分が0で非対角成分が1以上
表:出身地とめんつゆの好みの関係
出身地
関東
関西
計
好み
醤油系
だし系
20
0
0
30
20
30
計
20
30
50
「関東」ならば「醤油系」,「関西」ならば「だし系」
17
クロス集計表の構造-2
統計的仮説
1. [従属性]出身地によりつゆの好みで好き嫌
いの傾向がある.
2. [独立性]出身地とつゆの好みは関係ない.
3. [均一性]出身地に関係なく,つゆの好みに傾
向がある.
18
クロス集計表の構造-2
仮説1-独立性
a : b  c : d または a : c  b : d
仮説2-従属性
a : b  c : d または a : c  b : d
仮説3-均一性
a
c
b
d

,

ab cd
ab cd
出身地
関東
関西
合計
好み
醤油系
だし系
a
b
c
d
a+c
b+d
出身地
関東
関西
合計
好み
醤油系
だし系
a
b
c
d
a+c
b+d
合計
a+b
c+d
n
合計
a+b
c+d
n
19
三元クロス集計表の解析
 調査項目が3つある場合は,三元クロス集計表に
よる解析が不可欠であるが,一般にはあまり認識
されていない.
 社会調査では,単純集計の解析後に2元集計表の
解析で項目間の関係を調べて終わっているものが
ある.
 3つの項目が関与している現象の中に,2つの項目
間のクロス集計表を眺めても,それだけでは見え
てこない関係がある.
20
例題:低学歴層ほど保守的?
 「高年齢層ほど保守的であると同時に,低学歴層ほど
保守的」ということが次のクロス集計表から言えるか?
表1:年齢と保守性のクロス集計表
年齢
低
中
高
合計
弱
80
10
0
90
保守性
中
10
70
20
100
強
10
20
80
110
合計
100
100
100
300
表2:学歴と保守性のクロス集計表
学歴
低
高
合計
弱
47
43
90
保守性
中
72
28
100
強
91
19
110
合計
210
90
300
21
例題:低学歴層ほど保守的?
 仮説「1)高年齢層ほど保守的であると同時に,2)低学
歴層ほど保守的」を検証するためには,三元クロス集
計表を用いなければならない!!
表: 学歴と年齢,保守性のクロス集計表
年齢
学歴 低
高
低
40
40
弱
中
7
3
高
0
0
保守性
中
低
中
高
5
49
18
5
21
2
低
5
5
高
中
14
6
高
72
8
22
例題:低学歴層ほど保守的?
80
60
40
20
0
保守性
低 中
高 低
弱
中
中
高
低
高
中
高 学歴
低
高 年齢
23
例題:低学歴層ほど保守的?
 仮説「高年齢層ほど保守的であると同時に,低
学歴層ほど保守的」を検証
 「保守性」の層(弱,中,強)によって,「年齢」と
「学歴」のクロス集計表が統計的に同じであるか
否かを検証
24
例題:低学歴層ほど保守的?
保守性=弱
学歴
低
40
低
40
高
80
合計
保守性=中
学歴
低
5
低
5
高
10
合計
年齢
中
7
3
10
年齢
中
49
21
70
高
0
0
0
高
18
2
20
合計
47
43
90
合計
72
28
100
保守性=高
学歴
低
5
低
5
高
10
合計
年齢
中
14
6
20
高
72
8
80
合計
91
19
110
「保守性」の層ごとで,
「学歴」と「年齢」の傾向が違うようで
ある.
「保守性」の層ごとで,「学歴」と「年
齢」には関連性があると考えられる.
25
例題:低学歴層ほど保守的?
統計的仮説検定をおこない,項目間の相互
関連性を検証
モデル選択
学歴は保守性に直接影響し
ない!!
学歴
保守性
年齢
26
死刑判決の例
殺人を犯した被告の死刑判決に対する人種の影響を調査した
結果である.
以下の表は 674 人は,1976~1987年にフロリダで殺人罪として
起訴された人で,複数の殺人を犯した人も含まれている.
表:死刑判決と加害者のクロス集計表
加害者
白人
黒人
死刑執行
あり
なし
53
430
15
176
ありの割合
0.11
0.08
人種による違いはないように見えるが・・・
27
死刑判決の例
表:死刑判決と被害者,加害者のクロス集計表
被害者
白人
黒人
被告
白人
黒人
白人
黒人
白人
黒人
死刑判決
あり
なし
53
414
11
37
0
16
4
139
53
430
15
176
ありの割合
0.11
0.23
0.00
0.03
0.11
0.08
割合的には,人種による違いはあるようである.
ただし,犯罪の内容がわからないので,実際に人種による差
別があったかどうかはわからない.
28
サリドマイド病とは・・・
 サリドマイド剤と呼ばれる睡眠・鎮静剤が,(旧)西ドイツの
グリューネンタル社によって開発され,1957年以降,世界
各国で販売されました.
 日本での主な販売会社の大日本製薬は「クセにならない
安全なイソミン錠」などのうたい文句で売られました.
 同剤を妊娠初期に服用した母親から,手足などに異常の
ある子供が次々に誕生しました.
 その数は,世界15カ国で合計6千人以上と推定されていま
す.この事実をつきとめたレンツ博士の報告により,世界
の大部分の国では販売が中止されました.
 日本では,大日本製薬が「レンツ報告は科学性に乏しい」
などとして,その後9ヶ月間売り続け,被害者を倍に増やし
てしまった.
29
サリドマイド問題
(レンツ博士らが行った調査結果の一部)
 以下の表は,いわゆる奇形児を産んだ母親にサリ
ドマイド剤(TH)剤を服用したかどうかを聞き取り調
査した結果である.
 両群(2つのグループ)の母親のTH剤服用率に差
があるか? ⇒ 統計的問題
母親のサリドマイド剤服用と奇形児のクロス集計表
TH剤服用
TH剤非服用
合計
奇形
90
22
112
非奇形
2
186
188
合計
92
208
300
30
サリドマイド問題
 データの採り方・・・
奇形児を産んだ母親と非奇形児を産んだ母親
にサリドマイド剤(TH)剤を服用したかどうかを
聞き取り調査
 このデータをどう読むか?
母親のサリドマイド剤服用と奇形児のクロス集計表
TH剤服用
TH剤非服用
合計
奇形
90
22
112
非奇形
2
186
188
合計
92
208
300
31
サリドマイド問題
TH剤服用
TH剤非服用
合計
奇形
0.98
0.11
0.37
非奇形
0.022
0.894
0.627
TH剤服用
TH剤非服用
合計
奇形
0.80
0.20
1.00
非奇形
0.01
0.99
1.00
合計
1.00
1.00
1.00
32
まとめ
 単純集計とクロス集計
 単純集計:各調査項目ごとで度数などを調べ
る
 クロス集計:二つ以上の項目に着目し,項目間
の関係を探る.
 クロス集計表の構造
 項目相互間の独立性(従属性)
33