Lineaire regressie - Top 100 University

Help! Statistiek!
Doorlopende serie laagdrempelige lezingen, voor
iedereen vrij toegankelijk.
Doel: Informeren over statistiek in klinisch onderzoek.
Tijd:
Derde woensdag in de maand, 12-13 uur
18 april:
16 mei:
20 juni:
19 september:
Sprekers:
“Welke toets wanneer?”
“Lineaire regressie” (Lokaal 16 OC)
“Logistische regressie” (Lokaal 16 OC)
”Survival analyse”
Vaclav Fidler, Hans Burgerhof, Wendy Post
DG Epidemiologie
Lineaire regressie
•
•
•
•
Wat is het?
Wanneer gebruiken we het (niet)?
Wat komt er allemaal bij kijken?
Waar komt de naam eigenlijk vandaan?
Enkelvoudige lineaire regressie
• Er is een continue responsievariabele Y
Bijvoorbeeld: systolische bloeddruk
• Er is een verklarende variabele X
Bijvoorbeeld: leeftijd
• We zijn geïnteresseerd in de relatie tussen Y en
X
Relatie is niet symmetrisch!
• We beschikken over onafhankelijke
waarnemingen
• Een lineair verband lijkt redelijk
Lineair verband?
220
syst. bloeddruk
200
180
160
140
120
100
20
40
60
leeftijd
80
100
Lineair verband?
700,00
600,00
respons
500,00
400,00
300,00
200,00
100,00
0,00
20
40
leeftijd
60
leeftijd
80
100
Lineaire regressie (formule)
• We schatten de populatierelatie
Yi   0  1 X i   i
 ~ N(0,  2 )
• We nemen aan dat
Controleren!
180,00
159,00
170,00
156,00
160,00
sys
sys
153,00
150,00
150,00
140,00
147,00
130,00
144,00
120,00
141,00
40,00
40,00
60,00
80,00
leeft
Rechtlijnig verband van de gemiddelden
60,00
leeft
80,00
Residuen normaal verdeeld rond leeftijdsgemiddelde, met dezelfde spreiding
De geschatte regressielijn
220
syst. bloeddruk
200
180
160
140
120
100
20
Waarom is dit de “best
passende lijn”?
40
60
leeftijd
80
100
De geschatte lijn
• De populatie regressielijn wordt geschat
met behulp van de kleinste
kwadratenmethode: neem die lijn
waarvoor de som van de gekwadrateerde
residuen zo klein mogelijk is
Rond 1800
Gauss en Legendre
Astronomie
220
200
syst. bloeddruk
Residu e180= verschil
tussen waargenomen
160
en voorspelde
waarde
140
120
100
20
40
60
leeftijd
80
2
e
Minimaliseer  i
100
Lineaire regressie in SPSS
Model Summary
Model
1
R
,178a
R Square
,032
Adjusted
R Square
,028
Std. Error of
the Estimate
21,685
a. Predictors: (Constant), leeftijd
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
4251,553
129783,2
134034,8
df
1
276
277
Mean Square
4251,553
470,229
F
9,041
Sig.
,003a
a. Predictors: (Constant), leeftijd
b. Dependent Variable: syst. bloeddruk begin
Coefficientsa
Model
1
(Constant)
leeftijd
Unstandardized
Coefficients
B
Std. Error
128,767
7,573
,334
,111
a. Dependent Variable: syst. bloeddruk begin
Standardized
Coefficients
Beta
,178
t
17,004
3,007
Sig.
,000
,003
Toelichting SPSS uitdraai
Coefficientsa
Model
1
(Constant)
leeftijd
Unstandardized
Coefficients
B
Std. Error
128,767
7,573
,334
,111
Standardized
Coefficients
Beta
,178
t
17,004
3,007
Sig.
,000
,003
a. Dependent Variable: syst. bloeddruk begin
P < 0,05
SBP = 128,8 + 0,33*leeftijd,
bv, de geschatte bloeddruk van een 70-jarige:
SBP = 128,8 + 0,33*70 = 151,9
De geschatte regressielijn
220
syst. bloeddruk
200
180
160
140
H0: β1 = 0 (geen lineair verband)
b0
120
100
0
20
40
60
leeftijd
80
100
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
4251,553
129783,2
134034,8
df
1
276
277
ANalysis Of VAriance
Mean Square
4251,553
470,229
F
9,041
Sig.
,003a
a. Predictors: (Constant), leeftijd
b. Dependent Variable: syst. bloeddruk begin
• De totale spreiding van SBP wordt gesplitst in
een verklaard deel en een onverklaard deel
(de residuen)
• Er wordt getoetst of het verklaarde deel net
zo groot is als het onverklaarde deel
• De F-test is gelijkwaardig met de t-test voor
β1 in een enkelvoudige lineaire regressie
Regression
Model Summary
Model
1
R
,178a
R Square
,032
Adjusted
R Square
,028
Std. Error of
the Estimate
21,685
a. Predictors: (Constant), leeftijd
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
4251,553
129783,2
134034,8
df
1
276
277
Mean Square
4251,553
470,229
F
9,041
Sig.
,003a
,003
a. Predictors: (Constant), leeftijd
b. Dependent Variable: syst. bloeddruk begin
F = t²
Coefficientsa
Model
1
(Constant)
leeftijd
Unstandardized
Coefficients
B
Std. Error
128,767
7,573
,334
,111
a. Dependent Variable: syst. bloeddruk begin
Standardized
Coefficients
Beta
,178
t
17,004
3,007
Sig.
,000
,003
,003
Model Summary
Model
1
R
,178a
R Square
,032
Adjusted
R Square
,028
Std. Error of
the Estimate
21,685
a. Predictors: (Constant), leeftijd
• R is de multiple correlatiecoëfficiënt (gelijk
aan de absolute waarde van r)
• R square = R in het kwadraat =
SSregression /SStotal = de proportie verklaarde
variantie
• Adjusted R square: reëlere schatting van
R² in de populatie
• Standaard error of the estimate =
gemiddelde grootte van een residu
Controle van de aannames
• Alle paren waarnemingen (X,Y) zijn
onafhankelijk van elkaar (externe
informatie)
• Het verband tussen E(Y) en X is lineair
(strooiingsdiagram)
• De residuen zijn normaal verdeeld (pplot)
• De spreiding van de residuen is gelijk,
ongeacht de grootte van X (scatter)
Normaliteit van de residuen
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: syst. bloeddruk begin
1,0
Expected Cum Prob
0,8
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
Observed Cum Prob
0,8
1,0
Normaliteit van de residuen
Histogram
Dependent Variable: syst. bloeddruk
50
Frequency
40
30
20
10
0
-3
-2
-1
0
1
Regression Standardized Residual
2
3
Mean =-1,21E-15
Std. Dev. =0,998
N =278
Homogene spreiding van de residuen
Scatterplot
Dependent Variable: syst. bloeddruk begin
Regression Standardized Residual
3
2
1
0
-1
-2
-3
-4
-3
-2
-1
0
1
2
Regression Standardized Predicted Value
3
Lineaire regressie op deze data
700,00
600,00
respons
500,00
400,00
300,00
200,00
100,00
0,00
20
40
leeftijd
60
leeftijd
80
100
700,00
600,00
respons
500,00
400,00
300,00
200,00
100,00
R Sq Linear = 0,168
0,00
20
40
60
leeftijd
80
100
Controle aannames
Scatterplot
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: respons
Regression Standardized Residual
Dependent Variable: respons
Expected Cum Prob
1,0
0,8
0,6
0,4
0,2
6
3
0
-4
0,0
-3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
0,0
0,2
0,4
0,6
0,8
Observed Cum Prob
1,0
De gebruikte testen zijn niet valide!
Overweeg een transformatie (bv logaritmisch) of
zoek naar een verbetering van je model
(toevoegen van variabelen)
Betrouwbaarheidsintervallen
(gemiddelden)
220
syst. bloeddruk
200
180
160
Breedte BI verschilt
per leeftijd
140
120
100
20
40
60
leeftijd
80
100
Predictie-intervallen
(individueel)
220
syst. bloeddruk
200
180
160
140
120
R Sq Linear = 0,032
100
20
40
60
leeftijd
80
100
Kan men een lineaire regressie
uitvoeren als de verklarende
variabele dichotoom is?
• Bijvoorbeeld wil men
weten of bloeddruk
afhangt van het
geslacht
Kan men een lineaire regressie
uitvoeren als de verklarende
variabele dichotoom is?
200
syst. bloeddruk begin
• Bijvoorbeeld wil men
weten of bloeddruk
afhangt van het
geslacht
220
180
160
140
120
100
0
man
0,2
0,4
0,6
geslacht
0,8
1
vrouw
Test van de richtingscoëfficiënt =
gepoolde t-test


syst. bloeddruk begi n
200
175
Gemiddelde 150
mannen: 147,74
125














Linear Regression



































H0: β1=0































Gemiddelde vrouwen
154,97

Maakt de gebruikte
codering iets uit?

100
0,00
man
0,25
0,50
geslacht
0,75
vrouw
1,00
syst. bloeddruk begin = 147,74 + 7,22 * geslacht
R-Square = 0,03
Verklarende variabelen:
• Continu: ok
• Dichotoom: ok
• Nominaal met meer dan twee categorieën:
maak dummy’s (hulpvariabelen)
• Ordinaal: als er sprake lijkt van een
lineaire trend: ok, anders dummy’s
Meervoudige lineaire regressie
• Hoe berekenen we het effect van een
variabele (X1) op Y terwijl we rekening
willen houden met het effect van een
tweede variabele (X2) op Y?
• Maar eerst: waarom is het eigenlijk nodig
om rekening te houden met X2?
Relatie studie-uren en cijfer
9,00
cijfer
8,00
7,00
6,00
5,00
2,00
4,00
6,00
8,00
studieuren
10,00
12,00
14,00

9,00
Linear Regression


cijfer
8,00


7,00



cij fer = 7,76 + -0,09 * studieuren
R-Square = 0,09
6,00

5,00
2,50
5,00
7,50
10,00
studieuren

12,50
Conclusie van deze enkelvoudige
regressie-analyse:
• Hoe langer je studeert hoe lager je cijfer
• ?????
• Wat gebeurt er als we rekening houden
met de vooropleiding van de
respondenten?

9,00
v ooropleiding




cijfer
8,00


7,00



6,00

5,00
2,50
5,00
7,50
10,00
studieure n

12,50
hoog
laag
v oorople iding
12,00



8,00

cijfer






4,00
0,00
2,50
5,00
7,50
10,00
studieure n
12,50

hoog

laag
Conclusie van deze meervoudige
regressie-analyse
• In beide groepen, gevormd op grond van de
vooropleiding, is een positief effect van studieuren op het cijfer
• Dit effect is in beide groepen ongeveer gelijk
• Als we geen rekening houden met de
vooropleiding, schatten we het effect van studieuren op het cijfer totaal verkeerd
• Vooropleiding wordt een confounder genoemd
Enkelvoudige lineaire Regressie
Model Summary
Model
1
R
,178a
R Square
,032
Adjusted
R Square
,028
Std. Error of
the Estimate
21,685
a. Predictors: (Constant), leeftijd
Leeftijd verklaart ongeveer 3%
van de spreiding van bloeddruk
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
4251,553
129783,2
134034,8
df
1
276
277
Mean Square
4251,553
470,229
F
9,041
Sig.
,003a
a. Predictors: (Constant), leeftijd
Equivalentie van F-test en t-test
b. Dependent Variable: syst. bloeddruk begin
Coefficientsa
Model
1
(Constant)
leeftijd
Unstandardized
Coefficients
B
Std. Error
128,767
7,573
,334
,111
Standardized
Coefficients
Beta
,178
t
17,004
3,007
Sig.
,000
,003
a. Dependent Variable: syst. bloeddruk begin
Wat gebeurt er als we geslacht toevoegen?
geslacht
man
vrouw
220
syst. bloeddruk
200
180
160
140
120
100
20
40
60
leeftijd
80
100
Meervoudige lineaire regressie
Model Summary
Model
1
R
,223a
R Square
,050
Adjusted
R Square
,043
Std. Error of
the Estimate
21,523
a. Predictors: (Constant), geslacht, leeftijd
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
6639,944
127394,9
134034,8
df
2
275
277
Mean Square
3319,972
463,254
F
7,167
Sig.
,001a
a. Predictors: (Constant), geslacht, leeftijd
b. Dependent Variable: syst. bloeddruk begin
Coefficientsa
Model
1
(Constant)
leeftijd
geslacht
Unstandardized
Coefficients
B
Std. Error
129,095
7,518
,286
,112
5,972
2,630
a. Dependent Variable: syst. bloeddruk begin
Standardized
Coefficients
Beta
,153
,136
t
17,172
2,554
2,271
Sig.
,000
,011
,024
Meervoudige lineaire regressie
Model Summary
Model
1
R
,223a
R Square
,050
Adjusted
R Square
,043
Std. Error of
the Estimate
21,523
Leeftijd en geslacht verklaren
samen ongeveer 5 % van de
spreiding van de bloeddruk
a.
Predictors: (Constant), geslacht, leeftijd
ANOVA toetst
de H0 dat leeftijd
en geslacht samen niets verklaren ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
6639,944
127394,9
134034,8
df
2
275
277
Mean Square
3319,972
463,254
a. Predictors: (Constant), geslacht, leeftijd
F
7,167
Sig.
,001a
Geen equivalentie meer tussen
F-test en t-test(en)
b. Dependent Variable: syst. bloeddruk begin
Coefficientsa
Model
1
(Constant)
leeftijd
geslacht
Unstandardized
Coefficients
B
Std. Error
129,095
7,518
,286
,112
5,972
2,630
a. Dependent Variable: syst. bloeddruk begin
Was 0,33
Standardized
Coefficients
Beta
,153
,136
t
17,172
2,554
2,271
Sig.
,000
,011
,024
T-test van geslacht toetst de H0 dat geslacht
niets verklaart, rekening houdend met leeftijd
220
syst. bloeddruk begin
200
180
vrouwen (1)
mannen (0)
160
140
120
100
20
40
60
leeftijd
80
100
SBP = 129 + 0,3*leeftijd + 6*geslacht
NB
• Voor een meervoudige lineaire regressie
gelden dezelfde voorwaarden als voor een
enkelvoudige lineaire regressie:
- onafhankelijke data
- lineair verband
- normaal verdeelde residuen
- homogene spreiding van de residuen
Twee continue verklarende
variabelen
Linear Regression






 


 

 

 


 

 






  

 

 = 127,58
 * diabdu
syst. bloeddruk
begin

+ 0,38 * leeftij

d + -0,21

















R-Square = 0,04


   
 

 
  
 
 








   



 
         
  
  
 



 
 

 










   










 


 
   


          









 






 




 
 

 







 



 


 


Interactie
• Als het effect van een verklarende variabele
beïnvloed wordt door een tweede verklarende
variabele dan spreken we van interactie of
effectmodificatie.
• Bijvoorbeeld als het effect van leeftijd op de
bloeddruk bij rokers anders is dan bij niet rokers,
is er sprake van interactie.
• In het lineair model wordt dan een interactieterm
(bijvoorbeeld het product van leeftijd en roken)
opgenomen.
Model met interactie
Y   0  1 X 1   2 X 2   3 X 1 * X 2  
Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de
vergelijking voor niet rokers:
Y = β0 + β1*leeftijd + ε
Maar voor rokers:
Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε
= β0 + β2 + (β1 + β3)*leeftijd + ε
Als de coëfficiënt van de interactieterm (β3) significant is, lopen de
regressielijnen van rokers en niet-rokers niet parallel en spreken we van
interactie (ook wel effectmodificatie genoemd).
Als de interactieterm significant is, horen de bijbehorende hoofdeffecten
ook in het model!
Voorbeeld van interactie
roken2
niet roken
roken
220
200
syst. bloeddruk
180
160
140
120
100
20
40
60
leeftijd
leeftijd
80
100
Hoe wordt een model opgebouwd?
• Kijk eerst naar univariate analyses (welke
variabelen hangen samen met Y?)
• Selecteer variabelen die mogelijk een rol spelen
in de multivariate analyse op grond van een
ruime alfa (0,25) en theorie
• Bouw het model stap voor stap op, te beginnen
met de meest significante verklarende variabele
• Kijk alleen naar interacties tussen variabelen die
sterk significant zijn of waarvan je op grond van
theorie of literatuur verwacht dat ze interacteren
De term “regressie”
• Regressie = terugval
• Wat heeft dat met een lineair verband te
maken?
• Onderzoek van Francis Galton naar de
lengte van ouders en kinderen
Regression to the mean
y=x
Valkuil:
Regressie naar het gemiddelde!
Francis Galton
Regression towards mediocrity in hereditary stature.
Journal of the Anthropological Institute 1886
Geen (normale) lineaire regressie
• Y dichotoom
– Wel / geen verbetering na 1 uur
Logistische regressie
• Y categorisch (>2 categorieën) Polytome logistische regressie
• Y ordinaal Ordinale logistische regressie
• Herhaalde waarnemingen
Repeated measures MANOVA
Mixed effects models
Multilevel analyse
• Overlevingsduren
Survival analyse
Volgende keer …
• Woensdag 20 juni: Logistische regressie
• Zie
http://www.rug.nl/umcg/faculteit/disciplineg
roepen/epidemiologie/courses
• Bedankt voor uw aandacht