Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april: 16 mei: 20 juni: 19 september: Sprekers: “Welke toets wanneer?” “Lineaire regressie” (Lokaal 16 OC) “Logistische regressie” (Lokaal 16 OC) ”Survival analyse” Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie Lineaire regressie • • • • Wat is het? Wanneer gebruiken we het (niet)? Wat komt er allemaal bij kijken? Waar komt de naam eigenlijk vandaan? Enkelvoudige lineaire regressie • Er is een continue responsievariabele Y Bijvoorbeeld: systolische bloeddruk • Er is een verklarende variabele X Bijvoorbeeld: leeftijd • We zijn geïnteresseerd in de relatie tussen Y en X Relatie is niet symmetrisch! • We beschikken over onafhankelijke waarnemingen • Een lineair verband lijkt redelijk Lineair verband? 220 syst. bloeddruk 200 180 160 140 120 100 20 40 60 leeftijd 80 100 Lineair verband? 700,00 600,00 respons 500,00 400,00 300,00 200,00 100,00 0,00 20 40 leeftijd 60 leeftijd 80 100 Lineaire regressie (formule) • We schatten de populatierelatie Yi 0 1 X i i ~ N(0, 2 ) • We nemen aan dat Controleren! 180,00 159,00 170,00 156,00 160,00 sys sys 153,00 150,00 150,00 140,00 147,00 130,00 144,00 120,00 141,00 40,00 40,00 60,00 80,00 leeft Rechtlijnig verband van de gemiddelden 60,00 leeft 80,00 Residuen normaal verdeeld rond leeftijdsgemiddelde, met dezelfde spreiding De geschatte regressielijn 220 syst. bloeddruk 200 180 160 140 120 100 20 Waarom is dit de “best passende lijn”? 40 60 leeftijd 80 100 De geschatte lijn • De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is Rond 1800 Gauss en Legendre Astronomie 220 200 syst. bloeddruk Residu e180= verschil tussen waargenomen 160 en voorspelde waarde 140 120 100 20 40 60 leeftijd 80 2 e Minimaliseer i 100 Lineaire regressie in SPSS Model Summary Model 1 R ,178a R Square ,032 Adjusted R Square ,028 Std. Error of the Estimate 21,685 a. Predictors: (Constant), leeftijd ANOVAb Model 1 Regression Residual Total Sum of Squares 4251,553 129783,2 134034,8 df 1 276 277 Mean Square 4251,553 470,229 F 9,041 Sig. ,003a a. Predictors: (Constant), leeftijd b. Dependent Variable: syst. bloeddruk begin Coefficientsa Model 1 (Constant) leeftijd Unstandardized Coefficients B Std. Error 128,767 7,573 ,334 ,111 a. Dependent Variable: syst. bloeddruk begin Standardized Coefficients Beta ,178 t 17,004 3,007 Sig. ,000 ,003 Toelichting SPSS uitdraai Coefficientsa Model 1 (Constant) leeftijd Unstandardized Coefficients B Std. Error 128,767 7,573 ,334 ,111 Standardized Coefficients Beta ,178 t 17,004 3,007 Sig. ,000 ,003 a. Dependent Variable: syst. bloeddruk begin P < 0,05 SBP = 128,8 + 0,33*leeftijd, bv, de geschatte bloeddruk van een 70-jarige: SBP = 128,8 + 0,33*70 = 151,9 De geschatte regressielijn 220 syst. bloeddruk 200 180 160 140 H0: β1 = 0 (geen lineair verband) b0 120 100 0 20 40 60 leeftijd 80 100 ANOVAb Model 1 Regression Residual Total Sum of Squares 4251,553 129783,2 134034,8 df 1 276 277 ANalysis Of VAriance Mean Square 4251,553 470,229 F 9,041 Sig. ,003a a. Predictors: (Constant), leeftijd b. Dependent Variable: syst. bloeddruk begin • De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen) • Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel • De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie Regression Model Summary Model 1 R ,178a R Square ,032 Adjusted R Square ,028 Std. Error of the Estimate 21,685 a. Predictors: (Constant), leeftijd ANOVAb Model 1 Regression Residual Total Sum of Squares 4251,553 129783,2 134034,8 df 1 276 277 Mean Square 4251,553 470,229 F 9,041 Sig. ,003a ,003 a. Predictors: (Constant), leeftijd b. Dependent Variable: syst. bloeddruk begin F = t² Coefficientsa Model 1 (Constant) leeftijd Unstandardized Coefficients B Std. Error 128,767 7,573 ,334 ,111 a. Dependent Variable: syst. bloeddruk begin Standardized Coefficients Beta ,178 t 17,004 3,007 Sig. ,000 ,003 ,003 Model Summary Model 1 R ,178a R Square ,032 Adjusted R Square ,028 Std. Error of the Estimate 21,685 a. Predictors: (Constant), leeftijd • R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r) • R square = R in het kwadraat = SSregression /SStotal = de proportie verklaarde variantie • Adjusted R square: reëlere schatting van R² in de populatie • Standaard error of the estimate = gemiddelde grootte van een residu Controle van de aannames • Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie) • Het verband tussen E(Y) en X is lineair (strooiingsdiagram) • De residuen zijn normaal verdeeld (pplot) • De spreiding van de residuen is gelijk, ongeacht de grootte van X (scatter) Normaliteit van de residuen Normal P-P Plot of Regression Standardized Residual Dependent Variable: syst. bloeddruk begin 1,0 Expected Cum Prob 0,8 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 Observed Cum Prob 0,8 1,0 Normaliteit van de residuen Histogram Dependent Variable: syst. bloeddruk 50 Frequency 40 30 20 10 0 -3 -2 -1 0 1 Regression Standardized Residual 2 3 Mean =-1,21E-15 Std. Dev. =0,998 N =278 Homogene spreiding van de residuen Scatterplot Dependent Variable: syst. bloeddruk begin Regression Standardized Residual 3 2 1 0 -1 -2 -3 -4 -3 -2 -1 0 1 2 Regression Standardized Predicted Value 3 Lineaire regressie op deze data 700,00 600,00 respons 500,00 400,00 300,00 200,00 100,00 0,00 20 40 leeftijd 60 leeftijd 80 100 700,00 600,00 respons 500,00 400,00 300,00 200,00 100,00 R Sq Linear = 0,168 0,00 20 40 60 leeftijd 80 100 Controle aannames Scatterplot Normal P-P Plot of Regression Standardized Residual Dependent Variable: respons Regression Standardized Residual Dependent Variable: respons Expected Cum Prob 1,0 0,8 0,6 0,4 0,2 6 3 0 -4 0,0 -3 -2 -1 0 1 2 3 Regression Standardized Predicted Value 0,0 0,2 0,4 0,6 0,8 Observed Cum Prob 1,0 De gebruikte testen zijn niet valide! Overweeg een transformatie (bv logaritmisch) of zoek naar een verbetering van je model (toevoegen van variabelen) Betrouwbaarheidsintervallen (gemiddelden) 220 syst. bloeddruk 200 180 160 Breedte BI verschilt per leeftijd 140 120 100 20 40 60 leeftijd 80 100 Predictie-intervallen (individueel) 220 syst. bloeddruk 200 180 160 140 120 R Sq Linear = 0,032 100 20 40 60 leeftijd 80 100 Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is? • Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is? 200 syst. bloeddruk begin • Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht 220 180 160 140 120 100 0 man 0,2 0,4 0,6 geslacht 0,8 1 vrouw Test van de richtingscoëfficiënt = gepoolde t-test syst. bloeddruk begi n 200 175 Gemiddelde 150 mannen: 147,74 125 Linear Regression H0: β1=0 Gemiddelde vrouwen 154,97 Maakt de gebruikte codering iets uit? 100 0,00 man 0,25 0,50 geslacht 0,75 vrouw 1,00 syst. bloeddruk begin = 147,74 + 7,22 * geslacht R-Square = 0,03 Verklarende variabelen: • Continu: ok • Dichotoom: ok • Nominaal met meer dan twee categorieën: maak dummy’s (hulpvariabelen) • Ordinaal: als er sprake lijkt van een lineaire trend: ok, anders dummy’s Meervoudige lineaire regressie • Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y? • Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2? Relatie studie-uren en cijfer 9,00 cijfer 8,00 7,00 6,00 5,00 2,00 4,00 6,00 8,00 studieuren 10,00 12,00 14,00 9,00 Linear Regression cijfer 8,00 7,00 cij fer = 7,76 + -0,09 * studieuren R-Square = 0,09 6,00 5,00 2,50 5,00 7,50 10,00 studieuren 12,50 Conclusie van deze enkelvoudige regressie-analyse: • Hoe langer je studeert hoe lager je cijfer • ????? • Wat gebeurt er als we rekening houden met de vooropleiding van de respondenten? 9,00 v ooropleiding cijfer 8,00 7,00 6,00 5,00 2,50 5,00 7,50 10,00 studieure n 12,50 hoog laag v oorople iding 12,00 8,00 cijfer 4,00 0,00 2,50 5,00 7,50 10,00 studieure n 12,50 hoog laag Conclusie van deze meervoudige regressie-analyse • In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studieuren op het cijfer • Dit effect is in beide groepen ongeveer gelijk • Als we geen rekening houden met de vooropleiding, schatten we het effect van studieuren op het cijfer totaal verkeerd • Vooropleiding wordt een confounder genoemd Enkelvoudige lineaire Regressie Model Summary Model 1 R ,178a R Square ,032 Adjusted R Square ,028 Std. Error of the Estimate 21,685 a. Predictors: (Constant), leeftijd Leeftijd verklaart ongeveer 3% van de spreiding van bloeddruk ANOVAb Model 1 Regression Residual Total Sum of Squares 4251,553 129783,2 134034,8 df 1 276 277 Mean Square 4251,553 470,229 F 9,041 Sig. ,003a a. Predictors: (Constant), leeftijd Equivalentie van F-test en t-test b. Dependent Variable: syst. bloeddruk begin Coefficientsa Model 1 (Constant) leeftijd Unstandardized Coefficients B Std. Error 128,767 7,573 ,334 ,111 Standardized Coefficients Beta ,178 t 17,004 3,007 Sig. ,000 ,003 a. Dependent Variable: syst. bloeddruk begin Wat gebeurt er als we geslacht toevoegen? geslacht man vrouw 220 syst. bloeddruk 200 180 160 140 120 100 20 40 60 leeftijd 80 100 Meervoudige lineaire regressie Model Summary Model 1 R ,223a R Square ,050 Adjusted R Square ,043 Std. Error of the Estimate 21,523 a. Predictors: (Constant), geslacht, leeftijd ANOVAb Model 1 Regression Residual Total Sum of Squares 6639,944 127394,9 134034,8 df 2 275 277 Mean Square 3319,972 463,254 F 7,167 Sig. ,001a a. Predictors: (Constant), geslacht, leeftijd b. Dependent Variable: syst. bloeddruk begin Coefficientsa Model 1 (Constant) leeftijd geslacht Unstandardized Coefficients B Std. Error 129,095 7,518 ,286 ,112 5,972 2,630 a. Dependent Variable: syst. bloeddruk begin Standardized Coefficients Beta ,153 ,136 t 17,172 2,554 2,271 Sig. ,000 ,011 ,024 Meervoudige lineaire regressie Model Summary Model 1 R ,223a R Square ,050 Adjusted R Square ,043 Std. Error of the Estimate 21,523 Leeftijd en geslacht verklaren samen ongeveer 5 % van de spreiding van de bloeddruk a. Predictors: (Constant), geslacht, leeftijd ANOVA toetst de H0 dat leeftijd en geslacht samen niets verklaren ANOVAb Model 1 Regression Residual Total Sum of Squares 6639,944 127394,9 134034,8 df 2 275 277 Mean Square 3319,972 463,254 a. Predictors: (Constant), geslacht, leeftijd F 7,167 Sig. ,001a Geen equivalentie meer tussen F-test en t-test(en) b. Dependent Variable: syst. bloeddruk begin Coefficientsa Model 1 (Constant) leeftijd geslacht Unstandardized Coefficients B Std. Error 129,095 7,518 ,286 ,112 5,972 2,630 a. Dependent Variable: syst. bloeddruk begin Was 0,33 Standardized Coefficients Beta ,153 ,136 t 17,172 2,554 2,271 Sig. ,000 ,011 ,024 T-test van geslacht toetst de H0 dat geslacht niets verklaart, rekening houdend met leeftijd 220 syst. bloeddruk begin 200 180 vrouwen (1) mannen (0) 160 140 120 100 20 40 60 leeftijd 80 100 SBP = 129 + 0,3*leeftijd + 6*geslacht NB • Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie: - onafhankelijke data - lineair verband - normaal verdeelde residuen - homogene spreiding van de residuen Twee continue verklarende variabelen Linear Regression = 127,58 * diabdu syst. bloeddruk begin + 0,38 * leeftij d + -0,21 R-Square = 0,04 Interactie • Als het effect van een verklarende variabele beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie. • Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie. • In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen. Model met interactie Y 0 1 X 1 2 X 2 3 X 1 * X 2 Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de vergelijking voor niet rokers: Y = β0 + β1*leeftijd + ε Maar voor rokers: Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε = β0 + β2 + (β1 + β3)*leeftijd + ε Als de coëfficiënt van de interactieterm (β3) significant is, lopen de regressielijnen van rokers en niet-rokers niet parallel en spreken we van interactie (ook wel effectmodificatie genoemd). Als de interactieterm significant is, horen de bijbehorende hoofdeffecten ook in het model! Voorbeeld van interactie roken2 niet roken roken 220 200 syst. bloeddruk 180 160 140 120 100 20 40 60 leeftijd leeftijd 80 100 Hoe wordt een model opgebouwd? • Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?) • Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie • Bouw het model stap voor stap op, te beginnen met de meest significante verklarende variabele • Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren De term “regressie” • Regressie = terugval • Wat heeft dat met een lineair verband te maken? • Onderzoek van Francis Galton naar de lengte van ouders en kinderen Regression to the mean y=x Valkuil: Regressie naar het gemiddelde! Francis Galton Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886 Geen (normale) lineaire regressie • Y dichotoom – Wel / geen verbetering na 1 uur Logistische regressie • Y categorisch (>2 categorieën) Polytome logistische regressie • Y ordinaal Ordinale logistische regressie • Herhaalde waarnemingen Repeated measures MANOVA Mixed effects models Multilevel analyse • Overlevingsduren Survival analyse Volgende keer … • Woensdag 20 juni: Logistische regressie • Zie http://www.rug.nl/umcg/faculteit/disciplineg roepen/epidemiologie/courses • Bedankt voor uw aandacht
© Copyright 2024 ExpyDoc