Hoofdstuk 4: Samenhang tussen variabelen

Hoofdstuk 4:
Samenhang tussen variabelen
1. Associatie (←
← discrete variabelen)
Kruistabellen
X = “zit de student op kot of niet”
Y = “is de student roker of niet”
roker?
kot?
ja
nee
ja
5
16
21 (41.18%)
nee
8
22
30(58.82%)
13
38
(25.49%)
(74.51%)
51 (100%)
• Gezamenlijke verdeling van X en Y
• Marginale verdeling van X → rijtotalen
Marginale verdeling van Y → kolomtotalen
• Conditionele verdelingen
Voorbeeld: verdeling van X als Y = “roker”
roker
op kot
5 (38.46%)
niet op kot 8 (61.54%)
13 (100%)
Associatie
Vraag 1: zijn X en Y geassocieerd?
= hangt de variabele X af van de
variabele Y?
Vraag 2: als er associatie is, hoe sterk is ze?
Maat voor sterkte associatie: Phi
a
b
c
d
Phi =
N
√
.
(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
Voorbeelden:
Phi = 1
Phi = 0.64
0
38
5
17
13
0
25
4
51
Maximale associatie,
Maximale afhankel.
51
Matige associatie,
Matige afhankel.
Phi = 0
7
10
14
20
51
Geen associatie,
onafhankelijkheid
2. Correlatie (←
← continue variabelen)
Spreidingsdiagrammen
X = “lengte (in cm)”
Y = “gewicht (in kg)”
geeft idee van:
• Soort verband (lineair of niet-lineair)
• Richting (positief of negatief)
• Sterkte van het verband
(Lineaire) correlatie
Vraag 1: is er sprake van een lineair verband
tussen X en Y?
= sluiten de punten op het spreidingsdiagram aan bij een rechte?
Vraag 2: hoe goed sluiten de punten op het
spreidingsdiagram aan bij een rechte?
Pearson’s correlatiecoëfficiënt
meet de ‘mate van lineariteit’ tussen twee
variabelen X en Y
Voorbeelden:
r = 1 (ρ = 1)
r = 0.56 (ρ = 0.56)
perfecte pos. correlatie,
perfect lineair verband
zwakke pos. correlatie,
matig lineair verband
r = 0.022 (ρ = 0.022)
r = -0.87 (ρ = -0.87)
niet gecorreleerd,
geen lineair verband
sterke neg. correlatie
sterk lineair verband
Opmerking correlatie:
• Geen correlatie → geen lineair verband
→ ander verband kan nog
Voorbeeld:
r=0
Regressierechte:
• Rechte die zo goed mogelijk aansluit bij de
punten op het spreidingsdiagram
y = b0 + b • x
• Coëfficiënten te berekenen via ‘kleinste
kwadraten-methode’
Steekproef
↔ populatie
Situatie:
• Doel: onderzoek van een populatie
• Gegevens verzameld in een steekproef
• Gegevens onderzoeken op associatie en
correlatie
Probleem:
• Overgang steekproef → populatie
• Gevonden associatie of correlatie in de
steekproef kan toevallig zijn
• Eventueel niet aanwezig in populatie
Voorbeeld:
Steekproef r = 0.79
Populatie r = 0.56
Oplossing:
• Tabellen gebruiken
• Bedoeling:
Aanwezigheid associatie of correlatie
in steekproef
met grote zekerheid
Aanwezigheid associatie of correlatie
in populatie
Gebruik van tabellen
1. Tabel voor correlatiecoëfficiënt
(http://www.jeremymiles.co.uk/misc/tables/pearson.html)
‘onzekerheid’: kans van 10% dat
als er geen correlatie is in de
populatie er per toeval wel
correlatie is in de getrokken
steekproef
N
0.1
0.05
0.01
0.001
4
0.900
0.950
0.990
0.999
5
0.805
0.878
0.959
0.991
6
0.729
0.811
0.917
0.974
7
0.669
0.754
0.875
0.951
8
0.621
0.707
0.834
0.925
9
0.582
0.666
0.798
0.898
10
0.549
0.632
0.765
0.872
…
…
…
…
…
Gebruiksaanwijzing:
• Stel N = aantal elementen in de steekproef
• Kies een ‘onzekerheidsniveau’
• Kijk of de gevonden waarde van r groter is
dan de waarde in de tabel
2. Analoge tabel voor Phi (associatiesterkte)
Algemene situatie:
• Populatie met 2 eigenschappen
→ 2 variabelen X en Y
• Per waarde van X, meerdere mogelijkheden
voor Y
→ spreiding in de y-waarden
• Veronderstelling: even grote spreiding in ywaarden voor elke waarde van X
Voorbeeld:
• Populatie: “alle Vlamingen”
• X = “lengte (in cm)
Y = “gewicht (in kg)
Gewichten bij
lengte = 170 cm
Gewichten bij
lengte = 182 cm
gemiddelde = 72 kg
spreiding σ = 3 kg
gemiddelde = 80 kg
spreiding σ = 3 kg
Vraag: is het ‘gemiddelde van de gewichten per
lengte’ lineair afhankelijk van de lengte?
→ liggen de gemiddeldes van de
gewichten op 1 rechte?
Conditional probability distribution and population
f(u)
regression function
Y
X1
X2
X3
X
Populatiemodel (lineair regressiemodel):
y=
β0 + β • x + ε
de rechte
spreiding rond het gemiddelde
(zie vorige transparant)
Praktisch :
• Neem een steekproef
• Bepaal correlatie van steekproef
• Gebruik tabel om na te gaan of correlatie
met redelijke kans ook aanwezig is in
populatie
• Bepaal de regressierechte van de gegevens
van de steekproef
y = b0 + b • x
De gevonden regressierechte uit de steekproef is
een schatting voor het populatiemodel.
Gebruik van de regressierechte:
• om voorspellingen te doen
Voorwaarden voor goede voorspellingen:
• voldoende sterke correlatie
• binnen het bereik van de x-waarden uit de
steekproef blijven (= interpolatie)
Voorbeeld:
Antropologen onderzoeken het verband tussen de
lengte van de mens en de lengte van een van zijn
beenderen. Volgende gegevens komen uit The
Estimation of Adult Stature from Metacarpal
Bone Length (Amer. J. Phys. Anthro. (1978) 113120).
lengte
bot
45
51
39
41
52
48
49
46
43
47
lengte
lichaam
171
178
157
163
183
172
183
172
175
173
Berekeningen:
X
45
51
39
41
52
48
49
46
43
47
som
gem. X =
Y
171
178
157
163
183
172
183
172
175
173
Y=
X-X
Y-Y
(X-X)*(Y-Y) (X-X)2
(Y-Y)2
som
gem.
X
45
51
39
41
52
48
49
46
43
47
461
Y
171
178
157
163
183
172
183
172
175
173
1727
46.1
172.7
X-X
Y-Y
-1,1
4,9
-7,1
-5,1
5,9
1,9
2,9
-0,1
-3,1
0,9
-1,7
5,3
-15,7
-9,7
10,3
-0,7
10,3
-0,7
2,3
0,3
(X-X)*(Y-Y) (X-X)2
1,87
25,97
111,47
49,47
60,77
-1,33
29,87
0,07
-7,13
0,27
271,3
1,21
24,01
50,41
26,01
34,81
3,61
8,41
0,01
9,61
0,81
158,9
(Y-Y)2
2,89
28,09
246,49
94,09
106,09
0,49
106,09
0,49
5,29
0,09
590,1
Pearson’s correlatiecoëfficiënt
r = 0.8859822
Opzoeken in tabel (bv. onzekerheid = 1%)
N = 10
0.08859822 > 0.765
Regressierechte
b = 1.71
b0 = 93.87
y = 93.87 + 1.71 • x