Het interpreteren van data uit onderzoek met subgroepen

Het interpreteren van data
uit onderzoek met subgroepen
Harm van Tinteren
NKI-AvL Biometrics
EGV Congres, 3 december 2014
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
subgroep analyse
”Fun to look at but don’t believe them”
(P.Sleight, 2000)
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
subgroep analyse
”Fun to look at but don’t believe them”
(P.Sleight, 2000)
Deciding on analysis after looking at the data is
”dangerous,
useful,
and often done.”
(IJ Good, 1983)
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Definitie subgroepen
Groepen worden gevormd op basis van een vooraf opgestelde hypothese
met het doel deze te vergelijken op basis van expositie of interventie
(hoofddoel van een studie).
Subgroepen zijn groepen die gevormd worden op basis van
’baseline’-karakterstieken. Een subgroepanalyse betreft de evaluatie van
een behandelingseffect voor een eindpunt in een subgroep van patienten op
basis van een specifiek ‘baseline’-kenmerk.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Doel en belang van subgroepanalyses
inschatten van consistentie van het effect over subgroepen
poging om studies te ’redden’ die geen effect laten zien op basis van
de volledige dataset
poging om patientengroepen te identificeren met het meest gunstige
voordeel-risico profiel
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Schatten en interpreteren van effecten in subgroepen
Subgroep analyses kunnen om een aantal redenen misleiden zijn:
multipliciteit van toetsen
gebrek aan power
over/onderrapportage van subgroepen
vooraf gedefinieerde versus ‘post-hoc’ subgroepen
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Schatten en interpreteren van effecten in subgroepen
Subgroep analyses kunnen om een aantal redenen misleiden zijn:
multipliciteit van toetsen
gebrek aan power
over/onderrapportage van subgroepen
vooraf gedefinieerde versus ‘post-hoc’ subgroepen
Subgroep analyses kunnen daardoor leiden tot zowel het onthouden van
werkzame behandeling (fout-negatieve conclusie) als het introduceren van
onwerkzame behandelingen (fout-positieve conclusie).
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
meervoudig toetsen (multiple testing)
Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat.
Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van
5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van
geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I
fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans
dat een dergelijke foutieve ontdekking?
De kans op het maken van een type I fout in ´e´en test is α;
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
meervoudig toetsen (multiple testing)
Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat.
Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van
5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van
geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I
fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans
dat een dergelijke foutieve ontdekking?
De kans op het maken van een type I fout in ´e´en test is α;
De kans om niet een type I fout te maken in een test is 1 − α;
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
meervoudig toetsen (multiple testing)
Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat.
Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van
5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van
geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I
fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans
dat een dergelijke foutieve ontdekking?
De kans op het maken van een type I fout in ´e´en test is α;
De kans om niet een type I fout te maken in een test is 1 − α;
n
De kans om geen enkele type I fout te maken in n testen is 1 − α ;
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
meervoudig toetsen (multiple testing)
Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat.
Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van
5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van
geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I
fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans
dat een dergelijke foutieve ontdekking?
De kans op het maken van een type I fout in ´e´en test is α;
De kans om niet een type I fout te maken in een test is 1 − α;
n
De kans om geen enkele type I fout te maken in n testen is 1 − α ;
De kans om in ´e´en of meer type 1 fouten in n testen is
n
1 − 1 − 0.05
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
meervoudig toetsen
Aantal testen
Type I fout
1
2
5
10
20
0.050
0.098
0.226
0.401
0.641
Dus, bij testen van 10 onafhankelijke associaties, met een nulhypothese
van geen associatie voor alle 10, is de (gezamelijke) kans op tenminste ´e´en
significant resultaat al 40%.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Voorbeeld: ISIS-2 study
De ISIS-2 study was een gerandomiseerde studie om het effect van
streptokinase en aspirin voor de behandeling van myocard infarct te
onderzoeken.
Veel subgroep analyses werden uitgevoerd waarvan de meeste relatief
consistent beeld gaven voor het effect van aspirine.
In de subgroep van patienten geboren onder het astrological teken van
Tweeling or Weegschaal, werd meer sterfte waargenomen (150 van 1357,
11.1%) in de aspirine groep dan in de niet-aspirine-groep (147 of 1442,
10.2%). Peto et al, Lancet 1988.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
power
Subgroepen zijn per definitie kleiner dan de studiegroepen hetgeen kan
leiden tot een gebrek aan power: daardoor kan een werkelijk effect als het
bestaat onopgemerkt worden. En gebrek aan power kan dus leiden tot een
fout-negatief resultaat.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
power
Subgroepen zijn per definitie kleiner dan de studiegroepen hetgeen kan
leiden tot een gebrek aan power: daardoor kan een werkelijk effect als het
bestaat onopgemerkt worden. En gebrek aan power kan dus leiden tot een
fout-negatief resultaat.
E´en van de meest schadelijke subgroepanalyses in de geschiedenis is die
geweest van de Canadese Studie groep (CCSG) waaruit werd
geconcludeerd dat aspirine effectief was in het voorkomen van beroertes en
sterfte bij mannen (RR=0.52, p<0.005) maar niet bij vrouwen (RR=1.42,
p=0.35). Vrouwen zijn daardoor tenminste gedurende een decennium
onderbehandeld voordat vervolgstudies ook voor hen voordeel liet zien (N
Engl J Med 1978;299:53-59 ).
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Interactie
Resultaten verkregen voor subgroepen afzonderlijk moeten worden
getoetst tegen het resultaat uit de hoofdanalyse om na te gaan of het
hoofdeffect van toepassing is op alle individuen of dat sommige
subgroepen meer of minder voordeel ondervinden.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Interactie
Resultaten verkregen voor subgroepen afzonderlijk moeten worden
getoetst tegen het resultaat uit de hoofdanalyse om na te gaan of het
hoofdeffect van toepassing is op alle individuen of dat sommige
subgroepen meer of minder voordeel ondervinden.
een behandelings-covariaat interactie bestaan wanneer het
behandelingseffect niet hetzelfde is voor alle waardes van de covariaat
(bijvoorbeeld geslacht, leeftijd, etc)
Kwantitatieve interactie: het behandelingseffect is in dezelfde
richting, maar verschillend in mate van effect (niet ongebruikelijk)
Kwalitatieve interactie: het behandelingseffect werkt in
tegenovergestelde richting (zeldzaam)
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Forest plot
Reference: Everolimus for women with trastuzumab-resistant, HER2-positive, advanced breast
cancer (BOLERO-3): a randomised, double-blind, placebo-controlled phase 3 trial. The Lancet
Oncology 2014;15(6):580-91
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Forest plot
However, results from Gail-Simon testing showed that the interaction
between visceral involvement and treatment was quantitative (ie, the
magnitude of the treatment effect varied, but the everolimus group had
longer PFS than the placebo group in both subgroups).
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
overige risico‘s
overraportage van ‘significante’ subgroepen
onderrapportage van niet-significante groepen
vooraf gedefinieerde subgroepen versus ‘post-hoc’ subgroepen
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
overige risico‘s
overraportage van ‘significante’ subgroepen
onderrapportage van niet-significante groepen
vooraf gedefinieerde subgroepen versus ‘post-hoc’ subgroepen
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Conclusie en richtlijnen
”A common but misleading approach is to compare P values for separate
analyses of the treatment effect in each group.” (CONSORT statement
2010)
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014
Conclusie en richtlijnen
”A common but misleading approach is to compare P values for separate
analyses of the treatment effect in each group.” (CONSORT statement
2010)
Richtlijnen voor het evalueren van subgroepanalyses
kan toeval het gevonden verschil tussen subgroep verklaren
is het effect consistent over studies
was het een a priori gedefinieerde hypothese (inclusief richting) van
een beperkt aantal subgroepen
is er een duidelijke biologische rationale
JAMA. 2014:311(4):405-411.
Harm van Tinteren (NKI-AvL)
EGV Congres, 3 december 2014