Het interpreteren van data uit onderzoek met subgroepen Harm van Tinteren NKI-AvL Biometrics EGV Congres, 3 december 2014 Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 subgroep analyse ”Fun to look at but don’t believe them” (P.Sleight, 2000) Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 subgroep analyse ”Fun to look at but don’t believe them” (P.Sleight, 2000) Deciding on analysis after looking at the data is ”dangerous, useful, and often done.” (IJ Good, 1983) Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Definitie subgroepen Groepen worden gevormd op basis van een vooraf opgestelde hypothese met het doel deze te vergelijken op basis van expositie of interventie (hoofddoel van een studie). Subgroepen zijn groepen die gevormd worden op basis van ’baseline’-karakterstieken. Een subgroepanalyse betreft de evaluatie van een behandelingseffect voor een eindpunt in een subgroep van patienten op basis van een specifiek ‘baseline’-kenmerk. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Doel en belang van subgroepanalyses inschatten van consistentie van het effect over subgroepen poging om studies te ’redden’ die geen effect laten zien op basis van de volledige dataset poging om patientengroepen te identificeren met het meest gunstige voordeel-risico profiel Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Schatten en interpreteren van effecten in subgroepen Subgroep analyses kunnen om een aantal redenen misleiden zijn: multipliciteit van toetsen gebrek aan power over/onderrapportage van subgroepen vooraf gedefinieerde versus ‘post-hoc’ subgroepen Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Schatten en interpreteren van effecten in subgroepen Subgroep analyses kunnen om een aantal redenen misleiden zijn: multipliciteit van toetsen gebrek aan power over/onderrapportage van subgroepen vooraf gedefinieerde versus ‘post-hoc’ subgroepen Subgroep analyses kunnen daardoor leiden tot zowel het onthouden van werkzame behandeling (fout-negatieve conclusie) als het introduceren van onwerkzame behandelingen (fout-positieve conclusie). Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 meervoudig toetsen (multiple testing) Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat. Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van 5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans dat een dergelijke foutieve ontdekking? De kans op het maken van een type I fout in ´e´en test is α; Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 meervoudig toetsen (multiple testing) Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat. Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van 5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans dat een dergelijke foutieve ontdekking? De kans op het maken van een type I fout in ´e´en test is α; De kans om niet een type I fout te maken in een test is 1 − α; Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 meervoudig toetsen (multiple testing) Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat. Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van 5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans dat een dergelijke foutieve ontdekking? De kans op het maken van een type I fout in ´e´en test is α; De kans om niet een type I fout te maken in een test is 1 − α; n De kans om geen enkele type I fout te maken in n testen is 1 − α ; Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 meervoudig toetsen (multiple testing) Het veelvuldig toetsen vergroot de kans op een fout-positief resultaat. Stel, dat de hoofdvraag wordt beoordeeld met een significantieniveau van 5% (α = 0.05). Dit is de kans dat we de nulhypothese (bijvoorbeeld van geen verschil) verwerpen terwijl er in werkelijkheid geen verschil is (type I fout). Als n onafhankelijke toetsen worden uitgevoerd, wat is dan de kans dat een dergelijke foutieve ontdekking? De kans op het maken van een type I fout in ´e´en test is α; De kans om niet een type I fout te maken in een test is 1 − α; n De kans om geen enkele type I fout te maken in n testen is 1 − α ; De kans om in ´e´en of meer type 1 fouten in n testen is n 1 − 1 − 0.05 Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 meervoudig toetsen Aantal testen Type I fout 1 2 5 10 20 0.050 0.098 0.226 0.401 0.641 Dus, bij testen van 10 onafhankelijke associaties, met een nulhypothese van geen associatie voor alle 10, is de (gezamelijke) kans op tenminste ´e´en significant resultaat al 40%. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Voorbeeld: ISIS-2 study De ISIS-2 study was een gerandomiseerde studie om het effect van streptokinase en aspirin voor de behandeling van myocard infarct te onderzoeken. Veel subgroep analyses werden uitgevoerd waarvan de meeste relatief consistent beeld gaven voor het effect van aspirine. In de subgroep van patienten geboren onder het astrological teken van Tweeling or Weegschaal, werd meer sterfte waargenomen (150 van 1357, 11.1%) in de aspirine groep dan in de niet-aspirine-groep (147 of 1442, 10.2%). Peto et al, Lancet 1988. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 power Subgroepen zijn per definitie kleiner dan de studiegroepen hetgeen kan leiden tot een gebrek aan power: daardoor kan een werkelijk effect als het bestaat onopgemerkt worden. En gebrek aan power kan dus leiden tot een fout-negatief resultaat. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 power Subgroepen zijn per definitie kleiner dan de studiegroepen hetgeen kan leiden tot een gebrek aan power: daardoor kan een werkelijk effect als het bestaat onopgemerkt worden. En gebrek aan power kan dus leiden tot een fout-negatief resultaat. E´en van de meest schadelijke subgroepanalyses in de geschiedenis is die geweest van de Canadese Studie groep (CCSG) waaruit werd geconcludeerd dat aspirine effectief was in het voorkomen van beroertes en sterfte bij mannen (RR=0.52, p<0.005) maar niet bij vrouwen (RR=1.42, p=0.35). Vrouwen zijn daardoor tenminste gedurende een decennium onderbehandeld voordat vervolgstudies ook voor hen voordeel liet zien (N Engl J Med 1978;299:53-59 ). Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Interactie Resultaten verkregen voor subgroepen afzonderlijk moeten worden getoetst tegen het resultaat uit de hoofdanalyse om na te gaan of het hoofdeffect van toepassing is op alle individuen of dat sommige subgroepen meer of minder voordeel ondervinden. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Interactie Resultaten verkregen voor subgroepen afzonderlijk moeten worden getoetst tegen het resultaat uit de hoofdanalyse om na te gaan of het hoofdeffect van toepassing is op alle individuen of dat sommige subgroepen meer of minder voordeel ondervinden. een behandelings-covariaat interactie bestaan wanneer het behandelingseffect niet hetzelfde is voor alle waardes van de covariaat (bijvoorbeeld geslacht, leeftijd, etc) Kwantitatieve interactie: het behandelingseffect is in dezelfde richting, maar verschillend in mate van effect (niet ongebruikelijk) Kwalitatieve interactie: het behandelingseffect werkt in tegenovergestelde richting (zeldzaam) Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Forest plot Reference: Everolimus for women with trastuzumab-resistant, HER2-positive, advanced breast cancer (BOLERO-3): a randomised, double-blind, placebo-controlled phase 3 trial. The Lancet Oncology 2014;15(6):580-91 Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Forest plot However, results from Gail-Simon testing showed that the interaction between visceral involvement and treatment was quantitative (ie, the magnitude of the treatment effect varied, but the everolimus group had longer PFS than the placebo group in both subgroups). Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 overige risico‘s overraportage van ‘significante’ subgroepen onderrapportage van niet-significante groepen vooraf gedefinieerde subgroepen versus ‘post-hoc’ subgroepen Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 overige risico‘s overraportage van ‘significante’ subgroepen onderrapportage van niet-significante groepen vooraf gedefinieerde subgroepen versus ‘post-hoc’ subgroepen Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Conclusie en richtlijnen ”A common but misleading approach is to compare P values for separate analyses of the treatment effect in each group.” (CONSORT statement 2010) Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014 Conclusie en richtlijnen ”A common but misleading approach is to compare P values for separate analyses of the treatment effect in each group.” (CONSORT statement 2010) Richtlijnen voor het evalueren van subgroepanalyses kan toeval het gevonden verschil tussen subgroep verklaren is het effect consistent over studies was het een a priori gedefinieerde hypothese (inclusief richting) van een beperkt aantal subgroepen is er een duidelijke biologische rationale JAMA. 2014:311(4):405-411. Harm van Tinteren (NKI-AvL) EGV Congres, 3 december 2014
© Copyright 2024 ExpyDoc