Hoofdstuk 4: Samenhang tussen variabelen 1. Associatie (← ← discrete variabelen) Kruistabellen X = “zit de student op kot of niet” Y = “is de student roker of niet” roker? kot? ja nee ja 5 16 21 (41.18%) nee 8 22 30(58.82%) 13 38 (25.49%) (74.51%) 51 (100%) • Gezamenlijke verdeling van X en Y • Marginale verdeling van X → rijtotalen Marginale verdeling van Y → kolomtotalen • Conditionele verdelingen Voorbeeld: verdeling van X als Y = “roker” roker op kot 5 (38.46%) niet op kot 8 (61.54%) 13 (100%) Associatie Vraag 1: zijn X en Y geassocieerd? = hangt de variabele X af van de variabele Y? Vraag 2: als er associatie is, hoe sterk is ze? Maat voor sterkte associatie: Phi a b c d Phi = N √ . (ad-bc)2 (a+b)(c+d)(a+c)(b+d) Voorbeelden: Phi = 1 Phi = 0.64 0 38 5 17 13 0 25 4 51 Maximale associatie, Maximale afhankel. 51 Matige associatie, Matige afhankel. Phi = 0 7 10 14 20 51 Geen associatie, onafhankelijkheid 2. Correlatie (← ← continue variabelen) Spreidingsdiagrammen X = “lengte (in cm)” Y = “gewicht (in kg)” geeft idee van: • Soort verband (lineair of niet-lineair) • Richting (positief of negatief) • Sterkte van het verband (Lineaire) correlatie Vraag 1: is er sprake van een lineair verband tussen X en Y? = sluiten de punten op het spreidingsdiagram aan bij een rechte? Vraag 2: hoe goed sluiten de punten op het spreidingsdiagram aan bij een rechte? Pearson’s correlatiecoëfficiënt meet de ‘mate van lineariteit’ tussen twee variabelen X en Y Voorbeelden: r = 1 (ρ = 1) r = 0.56 (ρ = 0.56) perfecte pos. correlatie, perfect lineair verband zwakke pos. correlatie, matig lineair verband r = 0.022 (ρ = 0.022) r = -0.87 (ρ = -0.87) niet gecorreleerd, geen lineair verband sterke neg. correlatie sterk lineair verband Opmerking correlatie: • Geen correlatie → geen lineair verband → ander verband kan nog Voorbeeld: r=0 Regressierechte: • Rechte die zo goed mogelijk aansluit bij de punten op het spreidingsdiagram y = b0 + b • x • Coëfficiënten te berekenen via ‘kleinste kwadraten-methode’ Steekproef ↔ populatie Situatie: • Doel: onderzoek van een populatie • Gegevens verzameld in een steekproef • Gegevens onderzoeken op associatie en correlatie Probleem: • Overgang steekproef → populatie • Gevonden associatie of correlatie in de steekproef kan toevallig zijn • Eventueel niet aanwezig in populatie Voorbeeld: Steekproef r = 0.79 Populatie r = 0.56 Oplossing: • Tabellen gebruiken • Bedoeling: Aanwezigheid associatie of correlatie in steekproef met grote zekerheid Aanwezigheid associatie of correlatie in populatie Gebruik van tabellen 1. Tabel voor correlatiecoëfficiënt (http://www.jeremymiles.co.uk/misc/tables/pearson.html) ‘onzekerheid’: kans van 10% dat als er geen correlatie is in de populatie er per toeval wel correlatie is in de getrokken steekproef N 0.1 0.05 0.01 0.001 4 0.900 0.950 0.990 0.999 5 0.805 0.878 0.959 0.991 6 0.729 0.811 0.917 0.974 7 0.669 0.754 0.875 0.951 8 0.621 0.707 0.834 0.925 9 0.582 0.666 0.798 0.898 10 0.549 0.632 0.765 0.872 … … … … … Gebruiksaanwijzing: • Stel N = aantal elementen in de steekproef • Kies een ‘onzekerheidsniveau’ • Kijk of de gevonden waarde van r groter is dan de waarde in de tabel 2. Analoge tabel voor Phi (associatiesterkte) Algemene situatie: • Populatie met 2 eigenschappen → 2 variabelen X en Y • Per waarde van X, meerdere mogelijkheden voor Y → spreiding in de y-waarden • Veronderstelling: even grote spreiding in ywaarden voor elke waarde van X Voorbeeld: • Populatie: “alle Vlamingen” • X = “lengte (in cm) Y = “gewicht (in kg) Gewichten bij lengte = 170 cm Gewichten bij lengte = 182 cm gemiddelde = 72 kg spreiding σ = 3 kg gemiddelde = 80 kg spreiding σ = 3 kg Vraag: is het ‘gemiddelde van de gewichten per lengte’ lineair afhankelijk van de lengte? → liggen de gemiddeldes van de gewichten op 1 rechte? Conditional probability distribution and population f(u) regression function Y X1 X2 X3 X Populatiemodel (lineair regressiemodel): y= β0 + β • x + ε de rechte spreiding rond het gemiddelde (zie vorige transparant) Praktisch : • Neem een steekproef • Bepaal correlatie van steekproef • Gebruik tabel om na te gaan of correlatie met redelijke kans ook aanwezig is in populatie • Bepaal de regressierechte van de gegevens van de steekproef y = b0 + b • x De gevonden regressierechte uit de steekproef is een schatting voor het populatiemodel. Gebruik van de regressierechte: • om voorspellingen te doen Voorwaarden voor goede voorspellingen: • voldoende sterke correlatie • binnen het bereik van de x-waarden uit de steekproef blijven (= interpolatie) Voorbeeld: Antropologen onderzoeken het verband tussen de lengte van de mens en de lengte van een van zijn beenderen. Volgende gegevens komen uit The Estimation of Adult Stature from Metacarpal Bone Length (Amer. J. Phys. Anthro. (1978) 113120). lengte bot 45 51 39 41 52 48 49 46 43 47 lengte lichaam 171 178 157 163 183 172 183 172 175 173 Berekeningen: X 45 51 39 41 52 48 49 46 43 47 som gem. X = Y 171 178 157 163 183 172 183 172 175 173 Y= X-X Y-Y (X-X)*(Y-Y) (X-X)2 (Y-Y)2 som gem. X 45 51 39 41 52 48 49 46 43 47 461 Y 171 178 157 163 183 172 183 172 175 173 1727 46.1 172.7 X-X Y-Y -1,1 4,9 -7,1 -5,1 5,9 1,9 2,9 -0,1 -3,1 0,9 -1,7 5,3 -15,7 -9,7 10,3 -0,7 10,3 -0,7 2,3 0,3 (X-X)*(Y-Y) (X-X)2 1,87 25,97 111,47 49,47 60,77 -1,33 29,87 0,07 -7,13 0,27 271,3 1,21 24,01 50,41 26,01 34,81 3,61 8,41 0,01 9,61 0,81 158,9 (Y-Y)2 2,89 28,09 246,49 94,09 106,09 0,49 106,09 0,49 5,29 0,09 590,1 Pearson’s correlatiecoëfficiënt r = 0.8859822 Opzoeken in tabel (bv. onzekerheid = 1%) N = 10 0.08859822 > 0.765 Regressierechte b = 1.71 b0 = 93.87 y = 93.87 + 1.71 • x
© Copyright 2024 ExpyDoc