タイプ2:解釈1:A と B に直接の関連はなく、 第一講:シンプソンのパラドックス ○因果関係 http://mcobaya.web.fc2.com/kisotokei/index_ut. 第三の要因 C を通した間接的な関連がある。 htm <[email protected]> 年齢と死亡率の間、年齢と喫煙率の間に強い相関があるので、 例1:イギリスのウィッカム地方の女性住民の 20 年にわたる 喫煙と死亡率の間に「見せかけの相関」がある。 追跡調査(1972-74 年開始) 交絡 年齢と喫煙率に負の相関(一方が増えると他方は減る関係)、年 (K.J.Rothman, 2004,『ロスマンの疫学』)篠原出版新社 喫煙者 非喫煙者 総数 齢と死亡率に正の相関がある。このため、喫煙率と死亡率の間 死亡 139 230 369 には見せかけの負の相関が発生し、喫煙率と死亡率の間の相関 生存 443 502 945 を覆い隠してしまう。 総数 582 732 1314 「第三の要因との相関の存在により、二つの現象の間に直接的 死亡リスク 0.239 0.314 0.281 な相関が無いにもかかわらず、見かけ上の相関が発生すること」 非喫煙者は高い死亡率(タバコは健康によい?) もしくは「1第三の要因との相関の存在により、二つの現象の 種明かし:喫煙と死亡率の関係ウィッカムのデータ(年齢別) 間に直接的な相関が有るにもかかわらず、見かけ上の相関が消 女性高齢者は喫煙者が少ない(時代)。 失もしくは逆の相関が発生すること」を交絡(confounding)と 年齢 生存状況 18-24 総数 25-34 35-44 45-54 55-64 65-74 喫煙者 呼ぶ。 総数 55 62 117 第三の要因 C(ここでは年齢)を交絡要因(confounding factor) 死亡リスク 0.04 0.02 0.03 と呼ぶ。健康データでは性別や年齢は交絡要因となりやすい。 総数 124 157 281 死亡リスク 0.02 0.03 0.03 総数 109 121 230 死亡リスク 0.13 0.06 0.09 総数 130 78 208 死亡リスク 0.21 0.15 0.19 総数 115 121 236 死亡リスク 0.44 0.33 0.39 36 129 165 0.81 0.78 0.79 13 64 77 1 1 1 総数 死亡リスク 75- 非喫煙者 総数 死亡リスク タイプ1と2のどちらが現実に正しいかの判断方法:年齢がほ ぼ同じグループにデータを分割することにより第三の要因(こ こでは年齢)の影響を一定とし、その上で喫煙と死亡率の関連 を見ればよい。 グループ内で交絡要因の値が一定になるようにデータを分割 することを層化(stratification)と呼ぶ。(層化する stratification) 地 層は strata→stratum の複数形. ●二つの減少に関連がある場合の因果関係の解釈 ○因果関係 タイプ1:A と B に直接の関連がある場合、A が 例2:(出典:佐藤俊哉「交絡」『科学』2008 年 4 月) 原因で B が結果かその逆。 喫煙が原因となり、その結果として死亡率が低下する。原因結 果の向きは自然だが、変化の方向が医学的知識と矛盾。 タモキシフェン 再発 再発無 合計 非再発率 使用 464 2085 2549 0.81796 非使用 424 1928 2352 0.81972 888 4013 4901 タモキシフェンという抗癌剤の効果の調査データでは、この抗 癌剤を使用した方が再発率が高いという意外な結論が出た。 「1982 年から1990 年にかけて日本の9施設で手術を受けた乳 死亡率の低い人が喫煙する。死亡率の低い(健康な)人が喫煙し、 がん患者4901 名について,手術後にタモキシフェンという女 死亡率の高い人(病気がち)の人が禁煙するという因果関係は 性ホルモンによく似た乳がんの治療薬を使用したかどうかと, 不自然。 その後の乳がんの再発との関係を1996 年まで追跡して調べた 1 結果の一部である.」 ●層化で交絡の処理がうまくいかない場合: リンパ節転移あり 再発 再発無 合計 非再発率 使用 368 847 1215 0.6971 ○その1 非使用 253 507 760 0.6671 なりすぎるため、「相関」が検出しにくくなる場合。(経済問 621 1354 1975 交絡要因が多く、層化を行なうとサンプルが小さく 題、社会問題で多い) ○その2 要因が観測できない場合:「能力」や「意欲」 リンパ節転移なし 再発 再発無 合計 非再発率 例:クラスサイズの効果の推定では、クラス運営に何らかの「問 使用 96 1238 1334 0.928 題」が発生した場合に、少人数クラスになるケースが多いが、 非使用 171 1421 1592 0.892 267 2659 2926 「転移」の有無で層化を行なうと、いずれの場合も薬剤使用は 再発率を下げる。タモキシフェンは病状がよくないときに用い られるので、利用時は再発率が高いが、効果は高い。 データ上では知りえない(らしい) 例:少人数クラスの効果:]利用データ TIMSS2007:IEA(国際 教育到達度評価学会)が進めている TIMSS(Trends in International Mathematics and Science Study) と呼ばれる算数・数 学及び理科の到達度に関する国際的な調査)TIMSS2007 年の 「少人数クラスの生徒は数学得点低い!」 薬剤使 用 正の相関 再発率低下 想定される交絡要因: 中2:クラスサイズと数学平均得 点 負の見せかけの相関 負の相関 親の所得、親の学歴、公立か私立か。。 580 570 560 550 正の相関 健康状態 35人以上 35人未満 30人未満 例3:カリフォルニア大学バークレイ-校では男性の合格率が高 く、女性に不利な選抜を疑われた。しかし、学部別にデータを 分割すると、ほとんどの学部で女性の合格率が男性の合格率を 宿題1:次の数値を用いて、X,Y,Z に具体的な現象をあてはめ 上回っていた。(次表参照)この一見、矛盾した結果は、女性 て架空のparadoxの話を作れ(Z の変数について層化すると、 が合格率の低い学部に多く志願していたことが原因。出典:P.J. X,Yには関連がないのに、全体ではX,Y には関連がある) Bickel, E.A. Hammel and J.W. O'Connell (1975). "Sex Bias in Graduate Admissions: Data From Berkeley". Science 187(4175): 宿題2:数値例に少し手を加え、層化前「Yの時にはXになりや すい」、層化後「Yの時にはXになりにくい」 という数値例を作れ。注意:YであるときXになる割合と非Yの 398–404. ときのXになる割合を実際に計算し、表にすること。 層化前 Y 非 Y 合計 X 58 42 100 非X 42 58 100 合計 100 100 200 University of California, Berkeley 学部別合格率 出願者数 男性 8442 44% 女性 4321 35% 男性 合格率 Zであるか非Zであるかによって層化 女性 学部 志願者 合格率 志願者 合格率 A 825 62% 108 82% B 560 63% 25 68% C 325 37% 593 34% D 417 33% 375 35% E 191 28% 393 24% F 272 6% 341 7% Z Y 非Y X 49 21 非 X 21 合計 70 2 非Z Y 非 Y 70 X 9 21 30 9 30 非 X 21 49 70 30 100 合計 30 70 100
© Copyright 2024 ExpyDoc