第一講:シンプソンのパラドックス http://mcobaya.web.fc2.com/kisotokei

タイプ2:解釈1:A と B に直接の関連はなく、
第一講:シンプソンのパラドックス
○因果関係
http://mcobaya.web.fc2.com/kisotokei/index_ut.
第三の要因 C を通した間接的な関連がある。
htm
<[email protected]>
年齢と死亡率の間、年齢と喫煙率の間に強い相関があるので、
例1:イギリスのウィッカム地方の女性住民の 20 年にわたる
喫煙と死亡率の間に「見せかけの相関」がある。
追跡調査(1972-74 年開始)
交絡
年齢と喫煙率に負の相関(一方が増えると他方は減る関係)、年
(K.J.Rothman, 2004,『ロスマンの疫学』)篠原出版新社
喫煙者
非喫煙者
総数
齢と死亡率に正の相関がある。このため、喫煙率と死亡率の間
死亡
139
230
369
には見せかけの負の相関が発生し、喫煙率と死亡率の間の相関
生存
443
502
945
を覆い隠してしまう。
総数
582
732
1314
「第三の要因との相関の存在により、二つの現象の間に直接的
死亡リスク
0.239
0.314
0.281
な相関が無いにもかかわらず、見かけ上の相関が発生すること」
非喫煙者は高い死亡率(タバコは健康によい?)
もしくは「1第三の要因との相関の存在により、二つの現象の
種明かし:喫煙と死亡率の関係ウィッカムのデータ(年齢別)
間に直接的な相関が有るにもかかわらず、見かけ上の相関が消
女性高齢者は喫煙者が少ない(時代)。
失もしくは逆の相関が発生すること」を交絡(confounding)と
年齢
生存状況
18-24
総数
25-34
35-44
45-54
55-64
65-74
喫煙者
呼ぶ。
総数
55
62
117
第三の要因 C(ここでは年齢)を交絡要因(confounding factor)
死亡リスク
0.04
0.02
0.03
と呼ぶ。健康データでは性別や年齢は交絡要因となりやすい。
総数
124
157
281
死亡リスク
0.02
0.03
0.03
総数
109
121
230
死亡リスク
0.13
0.06
0.09
総数
130
78
208
死亡リスク
0.21
0.15
0.19
総数
115
121
236
死亡リスク
0.44
0.33
0.39
36
129
165
0.81
0.78
0.79
13
64
77
1
1
1
総数
死亡リスク
75-
非喫煙者
総数
死亡リスク
タイプ1と2のどちらが現実に正しいかの判断方法:年齢がほ
ぼ同じグループにデータを分割することにより第三の要因(こ
こでは年齢)の影響を一定とし、その上で喫煙と死亡率の関連
を見ればよい。
グループ内で交絡要因の値が一定になるようにデータを分割
することを層化(stratification)と呼ぶ。(層化する stratification) 地
層は strata→stratum の複数形.
●二つの減少に関連がある場合の因果関係の解釈
○因果関係
タイプ1:A と B に直接の関連がある場合、A が
例2:(出典:佐藤俊哉「交絡」『科学』2008 年 4 月)
原因で B が結果かその逆。
喫煙が原因となり、その結果として死亡率が低下する。原因結
果の向きは自然だが、変化の方向が医学的知識と矛盾。
タモキシフェン
再発
再発無
合計
非再発率
使用
464
2085
2549
0.81796
非使用
424
1928
2352
0.81972
888
4013
4901
タモキシフェンという抗癌剤の効果の調査データでは、この抗
癌剤を使用した方が再発率が高いという意外な結論が出た。
「1982 年から1990 年にかけて日本の9施設で手術を受けた乳
死亡率の低い人が喫煙する。死亡率の低い(健康な)人が喫煙し、
がん患者4901 名について,手術後にタモキシフェンという女
死亡率の高い人(病気がち)の人が禁煙するという因果関係は
性ホルモンによく似た乳がんの治療薬を使用したかどうかと,
不自然。
その後の乳がんの再発との関係を1996 年まで追跡して調べた
1
結果の一部である.」
●層化で交絡の処理がうまくいかない場合:
リンパ節転移あり
再発
再発無
合計
非再発率
使用
368
847
1215
0.6971
○その1
非使用
253
507
760
0.6671
なりすぎるため、「相関」が検出しにくくなる場合。(経済問
621
1354
1975
交絡要因が多く、層化を行なうとサンプルが小さく
題、社会問題で多い)
○その2 要因が観測できない場合:「能力」や「意欲」
リンパ節転移なし
再発
再発無
合計
非再発率
例:クラスサイズの効果の推定では、クラス運営に何らかの「問
使用
96
1238
1334
0.928
題」が発生した場合に、少人数クラスになるケースが多いが、
非使用
171
1421
1592
0.892
267
2659
2926
「転移」の有無で層化を行なうと、いずれの場合も薬剤使用は
再発率を下げる。タモキシフェンは病状がよくないときに用い
られるので、利用時は再発率が高いが、効果は高い。
データ上では知りえない(らしい)
例:少人数クラスの効果:]利用データ TIMSS2007:IEA(国際
教育到達度評価学会)が進めている TIMSS(Trends in
International Mathematics and Science Study) と呼ばれる算数・数
学及び理科の到達度に関する国際的な調査)TIMSS2007 年の
「少人数クラスの生徒は数学得点低い!」
薬剤使
用
正の相関
再発率低下
想定される交絡要因:
中2:クラスサイズと数学平均得
点
負の見せかけの相関
負の相関
親の所得、親の学歴、公立か私立か。。
580
570
560
550
正の相関
健康状態
35人以上 35人未満 30人未満
例3:カリフォルニア大学バークレイ-校では男性の合格率が高
く、女性に不利な選抜を疑われた。しかし、学部別にデータを
分割すると、ほとんどの学部で女性の合格率が男性の合格率を
宿題1:次の数値を用いて、X,Y,Z に具体的な現象をあてはめ
上回っていた。(次表参照)この一見、矛盾した結果は、女性
て架空のparadoxの話を作れ(Z の変数について層化すると、
が合格率の低い学部に多く志願していたことが原因。出典:P.J.
X,Yには関連がないのに、全体ではX,Y には関連がある)
Bickel, E.A. Hammel and J.W. O'Connell (1975). "Sex Bias in
Graduate Admissions: Data From Berkeley". Science 187(4175):
宿題2:数値例に少し手を加え、層化前「Yの時にはXになりや
すい」、層化後「Yの時にはXになりにくい」
という数値例を作れ。注意:YであるときXになる割合と非Yの
398–404.
ときのXになる割合を実際に計算し、表にすること。
層化前
Y
非 Y
合計
X
58
42
100
非X
42
58
100
合計
100
100
200
University of California, Berkeley 学部別合格率
出願者数
男性
8442
44%
女性
4321
35%
男性
合格率
Zであるか非Zであるかによって層化
女性
学部
志願者
合格率
志願者
合格率
A
825
62%
108
82%
B
560
63%
25
68%
C
325
37%
593
34%
D
417
33%
375
35%
E
191
28%
393
24%
F
272
6%
341
7%
Z
Y
非Y
X
49
21
非 X
21
合計
70
2
非Z
Y
非 Y
70
X
9
21
30
9
30
非 X
21
49
70
30
100
合計
30
70
100