Confounding - Masterstudiengänge Public Health und Epidemiologie

Confounding und Effektmodifikation
Prof. Dr. Eva Grill, MPH
Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie
und
Deutsches Schwindel- und Gleichgewichtszentrum
Ludwig-Maximilians Universität München
Ziel
Kenntnis und Verständnis der Prinzipien von
Confounding und Effektmodifikation, Kontrolle
von Störgrößen
2
Confounding und Effektmodifikation
Störgröße
EM
Exposition
Erkrankung
Exposition
Erkrankung
Intermediärfaktor
Störgröße - Confounding



Eine dritte Variable, die mit der Exposition
assoziiert ist und einen unabhängigen Einfluß auf
den Effekt hat, aber keine intermediäre Variable ist
Change-in-estimate
Sonderfälle:
 Confounding by indication
Confounding/Effektmodifikation
Ist der Zusammenhang zwischen Einfluß- und
Zielgröße (rohes Effektmaß) durch eine Störgröße
verzerrt?
?
Alkohol
Lungenkrebs
Stratifizierte Analyse

Wenn es diese Verzerrung gibt, kann ich sie
beheben, indem ich in Schichten (Strata)
analysiere?
Nichtraucher
Raucher
Alkohol
Lungenkrebs
Beispiel: Alkohol und Lungenkrebs
Fall-Kontroll-Studie zu Alkoholkonsum und Lungenkrebs
1) Gesamt
Alkoholkonsum
Fälle
Kontrollen
hoch
224
100
niedrig
176
300
Wie hoch ist der "Alkoholeffekt" auf das Lungenkrebsrisiko?
Fall-Kontroll-Studie zu Alkoholkonsum und Lungenkrebs
OR =
3,82
1) Gesamt
Alkoholkonsum
Fälle
Kontrollen
hoch
224
100
niedrig
176
300
Wie hoch ist der "Alkoholeffekt" auf das Lungenkrebsrisiko?
Beispiel: Einfluss des Rauchens?
2a) Subgruppe der Raucher
Alkoholkonsum
Fälle
Kontrollen
hoch
216
80
niedrig
144
120
Fälle
Kontrollen
hoch
8
20
niedrig
32
180
2b) Subgruppe der Nichtraucher
Alkoholkonsum
Wie hoch ist der "Alkoholeffekt" auf das Lungenkrebsrisiko?
2a) Subgruppe der Raucher
Alkoholkonsum
Fälle
Kontrollen
hoch
216
80
niedrig
144
120
Fälle
Kontrollen
hoch
8
20
niedrig
32
180
2b) Subgruppe der Nichtraucher
Alkoholkonsum
Wie hoch ist der "Alkoholeffekt" auf das Lungenkrebsrisiko?
OR =
2,25
2a) Subgruppe der Raucher
Alkoholkonsum
Fälle
Kontrollen
hoch
216
80
niedrig
144
120
Fälle
Kontrollen
hoch
8
20
niedrig
32
180
OR =
2,25
2b) Subgruppe der Nichtraucher
Alkoholkonsum
Wie hoch ist der "Alkoholeffekt" auf das Lungenkrebsrisiko?
OR =
2,25
Pooling: Mantel-Haenszel-Verfahren

MH-Schätzer: gewichteter Durchschnitt der
Einzeleffekte ...
Stratum jung
Stratum alt
RRj
RRa
RRMH
MH-Test
RRMH  1
... hat Vorteile und
Nachteile ...
Confounding und Effektmodifikation
Mantel-Haenszel Poolingverfahren
OR/RR eines Stratums wird mit
Gewicht w des Stratums multipliziert
FKS: je mehr exponierte
Kontrollen/nicht exponierte Fälle im
Verhältnis zur Stratumsgröße, desto
größer das Gewicht
KOH: Gewicht ist Baseline-Risiko
(Risiko der nicht Exponierten) +
Expositions-Balance (wieviele
Exponierte gibt es im Verhältnis zu
den Nichtexponierten) +
Stratumsgröße
w OR 
N



 w b c N
ai d i
ORMH
i
i
i
i i
i
i
ai (ci  d i )
RRMH
w RR 
N



 w  c (a  b ) N
i
i
i
i
i
i
i
i
wi 
bi ci
Ni
ci
ai  bi ci  d i
wi 


 Ni
ci  d i
Ni
Ni

ci (ai  bi )
Ni
Mantel-Haenszel-Test:
für RRisiko, OR (Kohortenstudie mit kumulativen
Inzidenzdaten, Querschnittstudie, Fall-Kontroll-Studie)
2


  ai   expected ai 
i

 ²MH   i
Var (ai )
i
2

ai  bi 
  ai   (ai  ci )

ni 
i
 i
(ai  bi )(ai  ci )(ci  di )(bi  di )
i
(ni  1)nini
Nullhypothese: RRMH=1; ORMH = 1
Table 1 of E by K
Raucher
Raucher
Alk
K
1
Total
Value
95% Confidence Limits
Case-Control (Odds Ratio)
2.2500
1.5811
216
72.97
80
27.03
296
niedrig
144
54.55
120
45.45
264
360
200
560
Nichtraucher
Table 2 of E by K
Nichtraucher
Alk
K
1
hoch
niedrig
Total
3.2020
2
hoch
Total
Type of Study
Total
Type of Study
Value
Case-Control (Odds Ratio)
2.2500
95% Confidence
Limits
0.9129
5.5453
2
8
28.57
20
71.43
28
32
15.09
180
84.91
212
Type of Study
Value
95% Confidence Limits
40
200
240
Case-Control (Odds Ratio)
3.8182
2.8277
Rohe Analyse
5.1557
Gepoolte Analyse
Type of
Study
Method
Value
CaseControl
MantelHaenszel
2.2500
95% Confidence
Limits
1.6191
3.1267
Rauchen
OR = 8,5
OR = 9
Alkoholkonsum
Lungenkrebs
Überschätzung
des Effekts
ORROH = 3,8
ORADJ = 2,3
Simpson‘s Paradox
Pearson 1899, Yule 1903, Simpson 1951
Eine Assoziation zwischen zwei Variablen
kann umgekehrt werden, wenn man weitere
Faktoren in die Analyse einschließt.
Beispiel: Calciumkanalhemmer und Herzinfarkt
In 14 617 nurses participating in the Nurses' Health Study
who had a diagnosis of hypertension, those taking calcium
channel blockers had higher rates of death and myocardial
infarction than nurses prescribed another class of drug.
However, the group of nurses on calcium channel blockers
were also more likely to have diagnosed coronary disease,
diabetes, prior myocardial infarction, and prior stroke
Circulation. 1998;97:1540-1548
Sollte man Calciumkanalhemmer weiter verordnen?
Diskutieren Sie ...
Confounding by indication …




die zur Arzneimitteltherapie führende Erkrankung ist selbst
Risikofaktor für das Ereignis darstellt
Erkrankung ist mit Arzneimitteltherapie korreliert!
Vermeidung: manchmal unmöglich (Beispiel: Diabetes oder
antidiabetische Medikation als Risikofaktor für
hepatozelluläres Karzinom – Lawson 1986)
UAW zweier Therapien vergleichen, die für dieselbe
Erkrankung verwendet werden
Wechselwirkungen: einige Begriffe vorneweg...

Synergismus/Antagonismus
 Biologische Antwort, die durch
gleichzeitige
Exposition mit zwei oder mehr Faktoren
hervorgerufen wird und die größer ist als die
kombinierte Wirkung der beiden isolierten
Faktoren.
Effektmodifikation
 Interaktion

Effekt(maß)modifikation

Die Stärke oder Richtung des Effekts variiert je nach
Ausprägung eines dritten Faktors



z.B. Effekt ist bei Frauen ganz anders als bei Männern
Effektmodifikation ist unabhängig vom Studiendesign
Effektmodifikation sollte beschrieben werden, kann
aber nicht kontrolliert werden
Beispiel
alle
krank
gesund
RR=
Vitamin
30
20
50
Kein Vitamin
15
10
25
45
30
35
Über 25
krank
gesund
RR=
Vitamin
25
5
20
Kein Vitamin
5
5
15
15
20
35
bis 25
krank
gesund
RR=
Vitamin
5
15
20
Kein Vitamin
10
5
15
15
20
35
22
Beispiel
alle
krank
gesund
RR=1,0
Vitamin
30
20
50
Kein Vitamin
15
10
25
45
30
75
Über 25
krank
gesund
RR=1,7
Vitamin
25
5
30
Kein Vitamin
5
5
10
30
10
40
bis 25
krank
gesund
RR=0,4
Vitamin
5
15
20
Kein Vitamin
10
5
15
15
20
35
23
Stratifizierte Analyse: Strategie
In jedem Stratum Effektmaße
berechnen
Welche?
Sind die Effekte gleich groß?
Wie beurteile
ich das?
nein
ja
= Effektmodifikation
= Confounding
Spezifische Effekte
getrennt berichten
Zusammengefaßte
Effektmaße berechnen
(Pooling)
Literatur
Judea Pearl
Causality. Models, reasoning and inference.
Cambridge University Press: Cambridge 2000
George Maldonado and Sander Greenland
Estimating causal effects
International Journal of Epidemiology 2002;31:422-429
Kontrolle von Störgrößen
Datenerhebung
Matching
Stratifizierung
Restriktion
Standardisierung
Randomisierung
multivariable Analyse
Matching
27
Matching
Zu jedem Fall (FKS)/Exponierten (KOH) wird eine
passende Kontrollperson ausgewählt
+
potentielle Störgrößen sind dann gleichmäßig in beiden
Gruppen verteilt - Aussagen über Expositionseinfluß möglich
Pair Matching
Frequency Matching
... hat Vorteile und
Nachteile ...
Standardisierung
Häufigkeitsmaße sind strukturabhängig

Maße der Gesamtkrankheitshäufigkeit (Mortalität,
Prävalenz ...) z.B. abhängig von



altersspezifischen Raten und
Altersstruktur (Anteil der Personen je Altersgruppe)
Rohe Raten sind gewichtete Durchschnittswerte
schichtspezifischer Raten
Häufigkeitsmaße sind strukturabhängig



Gewichte sind relative Anteile der Bevölkerungszahlen in
den Schichten
Rohe Raten sind daher nicht direkt vergleichbar
Vergleichbarkeit durch


Vergleich schichtspezifischer Raten (Stratifizierung)
Altersstandardisierung = „Bereinigung“
Todesfälle, Bevölkerung und spezifische Mortalitätsraten in Alaska und Arizona
1960
Mortalitäts
Mortalitäts
rate MR
rate MR
Alter
Todesfälle Bevölkerung pro 1000 Todesfälle Bevölkerung pro 1000
Alaska
Arizona
<1
306
7101
43,1
1174
34599
33,9
1-4
57
27092
2,1
236
132367
1,8
5-14
40
46110
0,9
138
285830
0,5
15-24 59
40722
1,4
286
186789
1,5
25-34 72
39672
1,8
325
169878
1,9
35-44 126
31981
3,9
568
173029
3,3
45-54 173
18957
9,1
1049
136573
7,7
55-64 150
9146
16,4
1621
92871
17,5
65-74 149
3745
39,8
2287
63634
35,9
75-84 143
1354
105,6
1762
22499
78,3
85+
41
287
142,9
675
4092
165,0
total
1316
226167
5,8
10121
1302161
7,8
Altersaufbau der Bevölkerung Alaskas und Arizonas
1960
in Prozent
Alter
Alaska
Arizona
<1
3,1
2,7
1-4
12,0
10,2
5-14
20,4
22,0
15-24
25-34
35-44
45-54
18,1
17,6
14,1
8,4
14,3
13,0
13,3
10,5
55-64
65-74
75-84
85+
4,0
1,7
0,6
0,1
7,1
4,9
1,7
0,3
Standardisierung




Zuerst Standardbevölkerung
wählen
Anzahl der Personen in einer
Altersgruppe der Standardbevölkerung mit der altersspezifischen Rate der
Untersuchungspopulation
multiplizieren
Diese Fälle addieren
Summe durch Gesamtzahl der
Standardbevölkerung teilen
(meist 100 000)
= Zahl der erwarteten
Fälle in der
Standardbevölkerung
”New” standard populations
”Nouvelles” populations types
World standard population
Population type mondiale
A.
Age group
(years)
Groupe d’âge
(années)
For males
For females
Pour le sexe
masculin
Pour le sexe
féminin
For both
sexes combined
Pour les
deux sexes
B.
European standard population
Population type européenne
Age group
(years)
Groupe d’âge
(années)
For males
For females
Pour le sexe
masculin
Pour le sexe
féminin
For both
sexes combined
Pour les
deux sexes
0
2 558
2 471
2 396
0
1 345
1 218
1 305
1-4
9 513
9 231
9 490
1-4
5 303
4 800
5 021
5-9
10 824
10 427
10 649
5-9
6 800
6 160
6 472
10-14
9 954
9 609
9 783
10-14
7 108
6 452
6 772
15-19
9 989
9 627
9 809
15-19
7 570
6 863
7 208
20-24
9 477
9 137
9 308
20-24
8 163
7 438
7 792
25-29
8 458
8 204
8 332
25-29
8 206
7 552
7 871
30-34
7 355
7 175
7 266
30-34
7 811
7 258
7 528
35-39
6 585
6 476
6 531
35-39
7 448
6 986
7 212
40-44
5 326
5 253
5 290
40-44
7 068
6 661
6 860
45-49
4 341
4 335
4 338
45-49
5 997
5 739
5 865
50-54
3 994
4 061
4 027
50-54
5 937
5 817
5 876
55-59
3 486
3 604
3 544
55-59
5 521
5 585
5 553
60-64
2 912
3 179
3 045
60-64
5 015
5 463
5 245
65-69
2 167
2 591
2 378
65-69
4 139
5 196
4 680
70-74
1 424
1 837
1 629
70-74
2 449
3 392
2 932
75-79
958
1 406
1 181
75-79
2 228
3 536
2 897
80-84
429
814
602
80-84
1 094
2 076
1 606
85+
250
518
402
85+
798
1 808
1 305
100 000
100 000
100 000
100 000
100 000
100 000
Total
Total
Based on - D’après: United Nations World Population Prospects 1990. New York, United Nations, 1991
Quelle: World Health Organization (Ed.): World Health Statistics Annual 1993. Genève, 1994.
Todesfälle, Bevölkerung und spezifische Mortalitätsraten in Alaska und Arizona 1960
Mortalitäts S
rate MR
Standard- Erwartete
Alter
Todesfälle Bevölkerung pro 1000 population Fälle in S
Alaska
<1
306
7101
43,1
1-4
57
27092
2,1
5-14
40
46110
0,9
...
...
15-24 59
40722
1,4
15000
21
25-34 72
39672
1,8
15399
28
35-44 126
31981
3,9
14072
55
45-54 173
18957
9,1
...
..
55-64 150
9146
16,4
65-74 149
3745
39,8
75-84 143
1354
105,6
85+
41
287
142,9
/100 000
total
1316
226167
5,8
100 000
Summe
Standard.
Erwartete Rate
Fälle
Vergleich zweier Populationen A und B:
SRR* = Standardisierte Rate A/Standardisierte Rate B
standardized rate ratio
Standardisierung

Maßzahlen unterschiedlicher Populationen werden
vergleichbar gemacht


meist Alter und Geschlecht
Direkte Standardisierung


spezifische Raten verschiedener Popuationen werden auf
Standardpopulation bezogen
Ergebnis: standardisierte Maßzahlen
Multivariable Analyse
Datenstruktur in der multiplen logistischen
Regression

Abhängige Variable (Outcome) Y


Multiple unabhängige (erklärende)
Variablen Xj
X1
Quantitativ
Dichotom
Nominal mit mehr als zwei
Kategorien
Ordinal
X2




39
Dichotom (0/1)
Y
X…
Xk
Die logistische Funktion
1
𝑓 ∞ =
1 + 𝑒 −(∞)
=1
e= 2.718 …
𝑓 𝑧
𝑓 −∞ =
=0
40
1
1 + 𝑒 −(−∞)
1
=
1 + 𝑒 −𝑧
Das logistische Modell
1
𝑓 𝑧 =
−𝑧
1+𝑒
𝑧 = 𝛼 + 𝛽1 × 𝑥1 + 𝛽2 × 𝑥2 + … + 𝛽𝑘 × 𝑥𝑘
41
P 𝐷 = 1|𝑥1 , 𝑥1 , … 𝑥𝑘 = P(X)
1
=
1 + 𝑒 −(𝛼+𝛽1×𝑥1+𝛽2×𝑥2+ …+𝛽𝑘 ×𝑥𝑘 )
𝑙𝑜𝑔𝑖𝑡 𝑃 𝐗 = 𝑙𝑛
𝑃(𝐗)
1−𝑃(𝐗)
=𝛼 + 𝛽1 × 𝑥1 + ⋯
𝛼 und 𝛽s werden geschätzt aus den Daten zu
D=1/0 (krank/nicht krank) und aus den xWerten
42
Multivariable Analyse: was hab ich davon?
Beispiel: Risikofaktoren Herzinfarkt
X
Rauchen (Zig./Tag)
Familienanamnese (1/0)
Diabetes (1/0)
ß
0,03
0,40
0,50
p
   1 X 1   2 X 2  ...
1 p
   1 Rauchen   2 FamAn   3 Diabetes
log odds  logit  ln
OR(1 Zig)  e10, 03  1,03;
OR(10 Zig)  e100, 03  1,35;