P-waarde versus betrouwbaarheidsinterval

P-waarde versus
betrouwbaarheidsinterval
Hans Burgerhof
Epidemiologie
UMCG
Uit de literatuur
(random van Internet)
In the presence of 10 μg of CTB, a dosedependent antibody response was observed, with
larger amounts of EcMSP4/5 inducing higher
levels of antibodies; however, the difference was
not statistically significant (P value, >0.05, as
determined by analysis of variance) due to the
small numbers of animals in the groups.
Onderwerpen
•
•
•
•
Wat is een P-waarde?
Wat is een betrouwbaarheidsinterval?
Wat is de relatie?
Wat is het verschil?
Inleiding toetsen
• We willen onderzoeken of een nieuw middel een
beter effect op de longfunctie heeft dan een
standaardmiddel bij een goed gedefinieerde
groep patiënten.
• Randomized Clinical Trial (RCT)
• Responsievariabele: continue Y (FEV1 of
verschil FEV1 op t1 – FEV1 op t0 ?) als voorbeeld
• Nulhypothese : μ1 = μ2 (of μ1 - μ2 = 0) tegen het
tweezijdige alternatief
We willen een nulhypothese toetsen en komen uit bij een
beslissingsprobleem: H0 verwerpen of H0 accepteren
Beschrijvende statistiek
FEV1
4,00
2,00
0,00
1,00
2,00
groep
De toets
• Aannemende dat aan de voorwaarden van
de t-toets (normale verdeling, gelijke
varianties, onafhankelijke waarnemingen) is
voldaan berekenen we
Y1  Y2
t
s p n11  n12
Waarin sp de gepoolde standaarddeviatie is
Independent t-test (SPSS)
Group Statistics
groep
1,00
2,00
FEV1
N
Mean
1,3836
1,9319
36
29
Std. Deviation
,82745
,86350
Std. Error
Mean
,13791
,16035
Independent Samples Test
Levene's Test for
Equality of Variances
F
FEV1
Equal variances
assumed
Equal variances
not assumed
Sig.
,000
,992
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,604
63
,011
-,54825
,21051
-,96892
-,12758
-2,592
58,943
,012
-,54825
,21149
-,97146
-,12504
Dit is de P-waarde van
de t-test (tweezijdig)
0.4
0.3
0.2
y
Bijbehorende eenzijdige
0.0
0.1
P-waarde
-4
-2
Gevonden t-waarde: -2,6
0
x
2
4
0.4
0.3
0.1
P-waarde
0.0
y
0.2
Bijbehorende tweezijdige
-4
-2
Gevonden t-waarde: -2,6
0
x
2
4
Definitie P-waarde
• De P-waarde is de kans op de in de
steekproef gevonden waarde of nog
extremer, onder de aanname dat de
nulhypothese juist is
• Een kleine P-waarde maakt de
nulhypothese ongeloofwaardig
α is het significantieniveau,
• P ≤ α: verwerp H0
of de onbetrouwbaarheid,
van de toets,
• P > α: accepteer H0
meestal geldt α = 0,05
Fouten van eerste en tweede soort
Beslissing
Werkelijkheid
H0 waar
H0 niet waar
H0 waar
OK
Fout van de
eerste soort, kans
hierop: α
H0 niet waar
Fout van de
tweede soort,
kans hierop: β
OK
Fouten van eerste en tweede soort
Beslissing
Werkelijkheid
H0 waar
H0 niet waar
H0 waar
OK
Fout van de
eerste soort,
kans hierop: α
H0 niet waar
Fout van de
tweede soort,
kans hierop: β
OK, power met
kans
1-β
Voorbeeld power
H0: μ = 115 tegen H1: μ = 118
Als n groter wordt …
• … neemt je power toe. Als er echt een
verschil is, heb je meer kans om dat ook
aan te tonen
• … wordt je onderzoek betrouwbaarder; het
BI zal smaller worden
Vermelding P-waarde
• In sommige artikelen tref je aan P > 0,05
of P < 0,01 of slechts ns, * , ** of ***
• Informatiever is vermelding van de Pwaarde zelf: P = 0,087 geeft een ander
beeld dan P = 0,87
• Mogelijke vuistregel: als P > 0,20: gebruik
twee decimalen, anders drie.
• Minimum: P < 0,001
Inleiding schatten
• Bij schatten willen we van een onbekende
parameter in de populatie een indruk
hebben door middel van een puntschatting
(één getal) of een betrouwbaarheids-interval
BI (Engels: Confidence Interval, CI)
• Meest gebruikte % betrouwbaarheid: 95 %
• Een 95 % BI geeft een gebied waarin met
95 % betrouwbaarheid de onbekende
populatieparameter ligt
Vervolg schatten
• In ons voorbeeld willen we het verschil in
gemiddelden van FEV1 tussen de twee groepen
schatten
Independent Samples Test
Levene's Test for
Equality of Variances
F
FEV1
Equal variances
assumed
Equal variances
not assumed
Sig.
,000
,992
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,604
63
,011
-,54825
,21051
-,96892
-,12758
-2,592
58,943
,012
-,54825
,21149
-,97146
-,12504
• Het verschil wordt geschat op (afgerond) 0,55 l.
• Het 95 % BI is [ 0,13 , 0,97 ]
Relatie toetsen en schatten van
verschillen
• Als de tweezijdige toets voor de nulhypothese
van geen verschil significant is bij een α = 0,05,
dan zal het 95 % BI de waarde 0 niet bevatten
• Als de tweezijdige toets voor de nulhypothese
van geen verschil niet significant is bij een α =
0,05, dan zal het 95 % BI de waarde wel 0
bevatten
• Dit geldt in zijn algemeenheid (mutatis mutandis)
voor een tweezijdige toets op niveau α en een
100*(1-α) % BI
• Het BI is de verzameling van niet-verworpen
nulhypothesen
In een plaatje (1)
95 % BI voor het
verschil in gemiddelden
0
0,13
Hier is de tweezijdige toets
met α = 0,05 significant (0 zit
niet in het BI)
Puntschatting
0,55
0,97
In een plaatje (2)
95 % BI voor het
verschil in
gemiddelden
-0,15 0
Hier is de tweezijdige toets
met α = 0,05 niet significant
(0 zit wel in het BI)
Puntschatting
0,27
0,69
Verschil P-waarde en BI (1)
• Statistische significantie is niet hetzelfde als
klinische relevantie
• Twee t-toetsen voor het verschil in
gemiddelden van twee groepen, elk P = 0,003
– Toets 1: 95 % BI = [ 0,12 , 0,28 ]
– Toets 2: 95 % BI = [ 0,78 , 1,22 ]
Gemiddelde: 0,2
Gemiddelde: 1,0
terwijl we een verschil vanaf 0,4 als klinisch
relevant beschouwen
Verschil p-waarde en BI (2)
• “Absence of evidence is not evidence of
absence”
• Twee t-toetsen voor het verschil in
gemiddelden van twee groepen, elk P > 0,05
– Toets 1: 95 % BI = [ - 0,22 , 0,28 ]
– Toets 2: 95 % BI = [ - 0,08 , 1,28 ]
Gemiddelde 0,03
Gemiddelde 0,6
terwijl we een verschil vanaf 0,4 als klinisch
relevant beschouwen
Algemene Conclusies
• Er is een relatie tussen tweezijdige toets en BI:
ligt de te toetsen waarde niet in het BI dan wordt
de nulhypothese verworpen
• Het BI geeft ons gedetailleerdere informatie dan
de P-waarde en heeft daarom over het
algemeen de voorkeur (geef eventueel
meerdere BI’s (90%, 95%, 99%))
• Voordeel P-waarde: eenvoudig aan te passen
aan andere α