Statistiek in 4 HAVO/VWO Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 2 Inhoudsopgave Achtergrondinformatie ....................................................................................................................... 4 Voor de docent ................................................................................................................................... 5 Les 1: Een inleiding over zin en onzin van statistiek ........................................................................... 6 Les 2: Gemiddelde, standaardafwijking en betrouwbaarheidsinterval met Excel ............................. 8 Keuzeactiviteit 1 (havo) ...................................................................................................................... 12 Keuzeactiviteit 2 (vwo) ....................................................................................................................... 14 Keuzeactiviteit 3 (vwo) ....................................................................................................................... 15 Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 3 Achtergrondinformatie: Auteurs: Jorn van Hout; e-‐mail: j.vanhout@rombouts-‐lvo.nl Henk Stip; e-‐mail: SPH@kwc-‐culemborg.nl Gerrie Stuurman; e-‐mail: [email protected] Waaruit bestaat het materiaal? Het materiaal bevat een lessenserie statistiek voor 4 HAVO/VWO. De intentie is het redeneren, het concept-‐begrip, meer nadruk te geven. Zie ook de volgende bladzijden. Wat was de aanleiding om dit te ontwerpen? Juist de nadruk op "rekenen", op procedures, die normaal bij statistiek gelegd wordt, was de aanleiding om deze lessenserie op te zetten. Wat zijn de aanbevelingen voor verdere ontwerpen? Dit materiaal verder uitwerken tot samenhangend leerlingmateriaal is in ieder geval een aanbeveling van het auteursteam. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 4 Voor de docent De voorliggende lessen statistiek zijn bedoeld voor havo4/vwo4. Deze lessenserie gaat over het kritisch lezen en beoordelen van aangereikte informatie en over het wiskundig onderbouwd aangeven van de betrouwbaarheid van eigen meetresultaten. Aan de orde komen het berekenen en de betekenis van de standaarddeviatie, correlatie (VWO) en (als extra activiteit) capture-‐mark-‐recapture. Het is niet zozeer de bedoeling dat de leerlingen veel aan het rekenen zijn, maar meer dat zij een goede basis ontwikkelen voor het begrijpen van statistische gegevens en het kritisch beoordelen van statistische beweringen. Computer In alle drie (of vier) lessen is het gebruik van een computer met internetverbinding door de leerlingen noodzakelijk. Excel/VuStat Het rekenwerk in deze lessenserie wordt in eerste instantie met Excel (2010) gedaan. In 2e instantie wordt ook met het programma VuStat (laatste versie) gewerkt. Eén van de doelstellingen van deze lessenserie is dat de leerlingen zich basale vaardigheden eigen maken die voor het werken met deze programma’s nodig zijn. We hopen dat de leerlingen met plezier aan deze lessenserie zullen werken. Als inleiding op de lessen zou je de volgende materialen kunnen gebruiken: -‐ Sheets (powerpoint) vanaf: “Meer Valkuilen” (presentatie van Erik van Zwet NVvW dag 2013) -‐ Dat kan geen toeval zijn -‐ Wisebit 103 -‐ Kan je tussen elk willekeurig gebeurtenis een verband zien? http://www.wetenschap24.nl/programmas/wisebits/afleveringen/2009/dat-‐kan-‐geen-‐toeval-‐zijn-‐ wisebit-‐103.html (www.wisebits.academy.nl) -‐ Toepassing van Statistiek “Hoe worden we wereldkampioen?” www.uitzendinggemist.nl/afleveringen/1373502 (Min. 8:30-‐14:50) -‐ Voorbeeld van bedrijf dat werkt met toepassen statistiek: Ortec http://www.ortec.nl/media/files/articles/nederlands/leo_van_hal_analyse_van_a_league_dames_200 7_15_okt_2008.pdf Bronvermelding: Een (groot) deel van de tekst is afkomstig uit de module Twijfel en Zekerheid die is geschreven en ontwikkeld ten behoeve van het bèta excellent programma voor leerlingen uit klas 5 VWO De auteur van de module Twijfel en Zekerheid is Rob van ’t Land, docent scheikunde en NL&T aan de Werkplaats Kindergemeenschap te Bilthoven. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 5 Les 1: Een inleiding over zin en onzin van statistiek. Betrouwbaarheid van informatie Ken je die reclames waarin geschermd wordt met hoge percentages? Zo van “80 % van de dames die reageerden op een enquête in een bepaald damesblad X vonden dat antirimpelcrème Y tot een vermindering van het aantal rimpels leidde”. Dat is toch mooi, zou je zeggen, bij gebruik van dit middel heb je dus 80 % kans op minder rimpels. En natuurlijk moet het wel iets goeds zijn, want deze crème is de enige waar ook nog zwitsodyne in zit!!! Natuurlijk zoek je onmiddellijk op internet naar zwitsodyne: niets over de samenstelling te vinden. En hoe zit het met die 80 % positieve reacties? Hebben er vijfduizend dames gereageerd of zijn het er misschien maar vijf? Wat zou de uitkomst van de enquête zijn geweest als er vijf anderen hadden gereageerd? Het ligt voor de hand dat niet alle Nederlandse vrouwen zijn ondervraagd of alle vrouwen ter wereld. Er is in het beste geval onderzoek gedaan aan de hand van een steekproef (in plaats van een populatieonderzoek aan de gehele populatie). De betrouwbaarheid van een steekproef is sterk afhankelijk van de grootte van de steekproef. Daarnaast is niet duidelijk welke criteria zijn gebruikt bij deze enquête. Zijn er rimpeltjes geteld, is er naar diepte van rimpels gekeken, is het een gevoelsmatig oordeel, mogelijk aangestuurd door de hoop dat het middel werkt? Is er een placebo onderzoek verricht? En is deze informatie overdraagbaar naar alle Nederlandse, Europese, etc. vrouwen of heeft de uitslag ook te maken met het feit dat alle deelneemsters een abonnement hebben op dit specifieke blad X? Opdracht 1 Zoek zelf één reclame waarbij je kritische noten plaatst bij in de reclame veronderstelde resultaten. Nu komt het in de reclamewereld natuurlijk voor (de goede niet te na gesproken) dat men probeert iets aan de man of vrouw te brengen door het beter, mooier, goedkoper voor te stellen dan het in werkelijkheid is. Maar er zijn ook talloze volstrekt serieuze publicaties waarin niet alle informatie aanwezig is om tot een absolute interpretatie te komen. Dat gebeurt soms per ongeluk, soms in een behoefte tot vereenvoudiging voor de lezer, etc. Voorbeeld bij opdracht 1: Coca Cola Light maakt dik! Coca Cola Light is uitgevonden in 1982 en, zoals te zien is in onderstaand plaatje, is sindsdien het overgewicht-‐probleem alleen maar toegenomen! Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 6 Opdracht 2 Zoek in het nieuws (TV, krant en andere media) een stukje op waarin een causaal (oorzaak-‐gevolg) verband wordt gesuggereerd, terwijl uit het verhaal duidelijk blijkt dan er geen data (gegevens) zijn waarmee het causale verband wordt ondersteund. Of zoals bij het bovenstaande waar er wel een verband is, maar geen causaal verband. Opdracht 3 Ga naar: http://www.drstat.net/nl/pages/01-‐meten_en_schalen Je hoeft hiervoor niet in te loggen, omdat deze eerste les gratis is (freeware) Je leest en maakt de 1e les. Zorg dat je tijdens het bestuderen van deze les aantekeningen maakt (samenvatting). Op de toets over statistiek zullen enkele vragen worden gesteld over deze stof. Dit is tevens de laatste opdracht van de 1e les. Alles wat je deze les niet af krijgt, is huiswerk voor de volgende les. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 7 Les 2: Gemiddelde, standaardafwijking en betrouwbaarheidsinterval (met excel) Een bekende uitdrukking is “meten is weten”. Maar wat is meten? Sowieso is elke meting waarbij je meetapparatuur gebruikt nooit 100 % zuiver. Elk apparaat heeft een beperkte nauwkeurigheid, al kan de daardoor veroorzaakte afwijking heel klein zijn. Soms zijn onzekerheden ook onontkoombaar. Als je een zuurbasetitratie uitvoert met behulp van een zuurbase indicator is er voor de kleurverandering van de indicator ook een beetje zuur of base nodig. Je gebruikt daardoor altijd iets te veel titrant. Hoeveel is dat? Gebruik je bij elke titratie evenveel indicator? Ook kunnen bij elke handeling die je bij de titratie uitvoert (kleine) afwijkingen optreden: het aflezen van een pipet of een buret zijn niet oneindig nauwkeurig. Door al deze “toevallige fouten” zullen bij het herhaald uitvoeren van metingen niet steeds exact dezelfde uitkomsten worden verkregen. De ene keer kom je op een te hoog antwoord, de andere keer op een te laag antwoord. Maar door de meting te herhalen, kun je een gemiddeld resultaat bepalen en dat beschouwen als meest waarschijnlijke waarde. Maar hoe zeker of onzeker ben je dan over de werkelijke waarde? En hoe waardevol zijn de verschillende afzonderlijke metingen? Ken je aan elke meting een even grote waarde toe, laat je “uitschieters” weg, werk je met een gewogen gemiddelde? Zie hiervoor verder onder betrouwbaarheid van een meting, standaarddeviatie. Naast toevallige fouten zijn er ook systematische fouten. Dan doe je echt iets verkeerd of er is iets mis met een apparaat. Je leest consequent te hoog af, je apparaat is niet goed geijkt, je geo-‐driehoek is een “namaak” dingetje, etc. Hier helpt middelen en rekenen niet, het onderzoek moet over nadat de fouten zijn weggenomen. Betrouwbaarheid van een meting, standaarddeviatie Op school heb je vast wel eens een meting moeten uitvoeren en zul je ook geleerd hebben dat een meting in duplo (dus twee keer) moet worden uitgevoerd. (één meting is GEEN meting) Eigenlijk kun je er dan alleen nog iets mee als de twee gevonden waarden redelijk dicht bij elkaar liggen. Maar wat is redelijk? Sta je een verschil van 0,1 % toe, of 1 %, of 5%? Je voert twee metingen uit en vindt als uitkomsten 12,38 en 12,74. Vind je dat mooi genoeg? Wat geef je als resultaat van je onderzoek: “het antwoord is 12,56” of “het antwoord is 12,56 ± 0,18” of ...? Daarover bestaan op wiskunde gebaseerde afspraken die gebaseerd zijn op het aantal metingen en de afwijkingen van deze afzonderlijke metingen ten opzichte van het gemiddelde (µ, spreek uit: mu). Voor je verder gaat start je het programma Excel op. De weergegeven tabel voer je in in Excel (kopiëren-‐ plakken (Ga in cel A1 staan: plakken als unicode tekst)). Stel dat je tafelazijn titreert met natronloog. Ga er even van uit dat we in staat zijn om voldoende nauwkeurig steeds dezelfde hoeveelheid van 10,00 mL tafelazijn af te meten. Die is dus constant, maar we vinden bij verschillende titraties wel steeds een verschillend aantal ml natronloog: meting mL natronloog x meting mL natronloog x 1 12,35 6 12,43 2 12,45 7 12,39 3 12,42 8 12,37 4 12,36 9 12,40 5 12,41 10 12,38 Ga in de cel onder 12,38 staan (Zoek in het menu: Formules>functie invoegen>gemiddelde>selecteer de cellen waarover het gemiddelde moet worden berekend>OK). Tik tenslotte in cel A14 “gemiddelde”. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 8 Gemiddeld is er bij deze 10 metingen 12,396 mL natronloog (𝑥 = 12,396) gebruikt. Je bepaalt nu voor elke meting de afwijking van dit gemiddelde 𝑥 − 𝑥 , dus bijvoorbeeld voor de eerste meting 12,35 – 12,396 = -‐ 0,046. Opdracht 4a De rest van de verschillen kun je door Excel ook automatisch laten berekenen i.p.v. stuk voor stuk uit te rekenen. Zoek uit hoe (z.o.z.), en vul de kolom verder aan.) meting mL natronloog x afwijking van gemiddelde 𝑥 − 𝑥 1 12,35 -‐0,046 2 12,45 3 12,42 4 12,36 5 12,41 6 12,43 7 12,39 8 12,37 9 12,40 10 12,38 Ga op cel B14 staan, klik op Σ en sleep met de linkermuisknop ingedrukt over de cellen B2 t/m B11, plaats de cursor in de schrijfbalk achter het laatste haakje, tik / en klik op cel A12. Enter. Ga op cel C2 staan en tik “=B2-‐$B$14”. Enter. Ga weer op cel C2 staan, klik rechts, kies kopiëren en plak in de cellen C3 t/m C11. De $-‐tekens zorgen ervoor dat in alle cellen C2 t/m C11 telkens het gemiddelde B14 wordt afgetrokken. Kijk maar eens wat er gebeurt als je die tekens weglaat.) Als de verschillende metingen dicht bij het gemiddelde (µ) liggen, mag je aannemen dat de werkelijke waarde ook dicht bij dit gemiddelde ligt. Je onzekerheid is dan klein. Hoe groot die onzekerheid is, kun je bepalen door de standaarddeviatie te berekenen. Daarvoor moet je een soort gemiddelde afwijking gaan bepalen waarin je alle “fouten” (= afwijkingen) mee laat tellen. Hiervoor wordt de totale fout (afwijking) door het totaal aantal metingen gedeeld. Om de negatieve en positieve afwijkingen niet tegen elkaar weg te laten vallen, kwadrateer je de gevonden fouten: Opdracht: Zoek uit hoe je dat door excel kunt laten doen mL natronloog afwijking van gemiddelde kwadraat van de afwijking meting x 𝑥 − 𝑥 𝑥 − 𝑥 𝟐 1 12,35 -‐0,046 0,002116 2 12,45 3 12,42 4 12,36 5 12,41 6 12,43 7 12,39 8 12,37 9 12,40 10 12,38 Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 9 Ga op cel D2 staan, ga naar “formules”, kies “functie invoegen” en kies “MACHT”. Klik achter “getal” op cel C2 en tik achter “macht” 2. Klik op OK. Ga weer op cel D2 staan, klik rechts, kies kopiëren en plak in de cellen D3 t/m D11. De standaardafwijking of standaarddeviatie σ wordt nu gevonden door de kwadraten van de afwijkingen te middelen (dus delen door het aantal metingen) en uit het dan verkregen getal de wortel te nemen: σ = 𝒏 𝒊!𝟏 𝒙! 𝒙 𝟐 𝒏 In het voorbeeld leidt dit tot een standaarddeviatie σ = 0,0304. Opdracht 4b Reken met behulp van Excel de bovenstaande waarde van σ = 0,0304 na. Tik in cel C14 “som/aantal metingen”. Ga op cel D14 staan, klik op Σ en sleep met de linkermuisknop ingedrukt over de cellen D2 t/m D11, plaats de cursor in de schrijfbalk achter het laatste haakje, tik / en klik op cel A12. Enter. Tik in cel C15 “standaarddeviatie”. Ga op cel D15 staan, ga naar “formules”, kies “Logisch” en dan “functie invoegen” en kies “WORTEL”. Klik achter “getal” op cel D14. Klik op OK. In cel D15 staat nu de standaarddeviatie. Vergelijk die met je antwoord van opdracht 7 of opdracht 9. Veel werk nog, vind je niet? Ga nog eens in het zelfde Excel werkblad op cel D16 staan. Ga naar “formules”, kies “functie invoegen” en type bij de zoekfunctie STDEVP. Kies STDEVP en sleep met de linker muisknop ingedrukt over de cellen B2 t/m B11. Kies OK en vergelijk het resultaat met je antwoord van opdracht 7 of opdracht 9. We nemen aan dat de verschillende meetwaarden normaal verdeeld zijn. Dat betekent dat er veel meetwaarden zijn die dicht bij het gemiddelde (µ) liggen en steeds minder naarmate de meetwaarden verder van het gemiddelde liggen. Wanneer het aantal meetwaarden dan wordt uitgezet tegen de gemeten waarde, ontstaat een klokvormige curve waarvan de top bij het gemiddelde ligt: Figuur 3: Klokcurve bij normale verdeling Deze methode voorspelt dan dat de uitkomst van 68 % van de metingen tussen de grenzen (µ ± σ) ligt en de uitkomst van 95 % van de metingen tussen de grenzen (µ ± 2σ): Figuur 4: Grenzen verwachtingswaarde Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 10 Voor onze voorbeeldberekening betekent dit: je hebt 95% kans dat het werkelijke aantal ml natronloog tussen 12,396 ± 0,0608 ligt en dus, na nette afronding 12,40 ± 0,06 mL. Pas op, de werkelijke waarde kan nog steeds buiten deze grenzen liggen. Misschien is er wel sprake van een systematische fout. Opdracht 5 Ook het gemiddelde van de eerste twee metingen uit het voorgaande voorbeeld (duplometing) leveren een gemiddelde waarde van 12,40 mL. Bereken de standaarddeviatie op basis van slechts deze twee metingen en geef aan tussen welke waarden de uitkomst van dit onderzoek zou liggen met een zekerheid van 95%. Opdracht 6 In een andere meetserie worden voor tien titraties de volgende resultaten gevonden: meting mL natronloog 1 12,0 2 13,0 3 12,5 4 12,7 5 12,7 6 11,8 7 12,1 8 12,5 9 12,4 10 12,3 Bereken ook voor deze meetserie de standaarddeviatie en geef aan tussen welke waarden de uitkomst van dit onderzoek zou liggen met een zekerheid van 95%. Opdracht 7 Welke twee factoren spelen een belangrijke rol bij het bepalen van de uitkomst van een meting? Een praktische toepassing Zoals we al eerder hebben vermeld heeft elk meetapparaat, hoe nauwkeurig ook, een beperking in zijn betrouwbaarheid. Bovendien is ons oog ook beperkt in het aflezen van schalen (zoals een meetlat). In de volgende opdracht gaan jullie een eenvoudig onderzoek in het klaslokaal doen met behulp van je geodriehoek. Opdracht 8 Bepaal zo nauwkeurig mogelijk de oppervlakte van je tafel met behulp van je (eigen) geodriehoek. Wissel geen gegevens uit met elkaar, maar geef je antwoord in cm2 in 1 decimaal nauwkeurig. Let op: er bestaat geen goed of fout antwoord (echte rekenfouten en systematische fouten uitgezonderd)! Verzamel hierna de resultaten van je klasgenoten. Verwerk de resultaten in een tabel (eventueel gekoppeld aan de naam). Bereken met behulp van Excel ook voor deze meetserie de standaarddeviatie en geef aan tussen welke waarden de uitkomst van dit onderzoek ligt met een zekerheid van 95%. Schrijf een verslagje over je bevindingen. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 11 Keuzeactiviteit 1 (Havo) Hoeveel konijnen zitten er in het bos? Capture-‐Mark-‐Recapture. Stel dat je als ecoloog een onderzoek in het bos om de populatie van konijnen te bepalen. Het is een flink karwei om alle konijnen uit het bos te vangen en te tellen. Bovendien weet je niet of je alle dieren uit het bos daadwerkelijk gevangen hebt. In dat geval brengt de Capture-‐Mark-‐Recapture-‐methode een oplossing. Je begint met een aantal konijnen te vangen en te merken. De gemerkte konijnen worden weer vrijgelaten en krijgen genoeg tijd om zich weer met de andere konijnen in het bos te verspreiden. Vervolgens ga je opnieuw konijnen vangen, maar je doet dit wel zo snel na de eerste vangst dat je in redelijkheid mag verwachten dat de populatie door zaken als geboorte, sterfte en migratie niet wezenlijk is veranderd. Het aantal gemerkte konijnen in je tweede vangst verhoudt zich tot het totaal aantal konijnen van de tweede vangst als het aantal gemerkte konijnen tot het totaal aantal konijnen in het bos. Dit stelt ons in staat een schatting van het aantal konijnen in het bos te maken volgens: 𝑁= !∗! ! waarbij N staat voor het geschatte aantal konijnen in het bos, M voor het aantal bij de eerste vangst gemerkte konijnen, C voor het aantal bij de tweede vangst gevangen konijnen en R voor het aantal gemerkte konijnen dat bij de tweede vangst werd aangetroffen. Dit verhaal vertelde mijn collega biologie, maar ongelovige die ik ben, wilde ik dat natuurlijk controleren. Nu ben ik niet het bos ingegaan, maar ik heb 80 zwarte legers van het spel Risk gemengd met 20 gele legers. Na mengen heb ik tien maal (telkens met hermengen na elke “vangst”) telkens 10 legers blind gepakt. Het resultaat was als volgt: 20 gele legers van totaal 100 poging 1 2 3 4 5 6 7 8 9 10 legers aantal gele 1 0 3 2 2 2 2 2 3 3 Opdracht 10 a Laat zien dat in dit geval de formule een juiste voorspelling geeft van het aantal gebruikte legers. b Bereken de standaarddeviatie. Bedenk daarbij dat in het onderhavige geval sprake is van een aantal steekproeven in plaats van een totale populatiemeting. In verband met de (iets) grotere onbetrouwbaarheid pas je bij steekproeven de formule voor de standaarddeviatie aan tot: σ = 𝒏 𝒊!𝟏 𝒙! 𝒙 𝟐 𝒏!𝟏 c Bereken wat met 95% betrouwbaarheid het minimum en maximum totale aantal legers zou zijn. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 12 Opdracht 11 Probeer voorgaand onderzoek zelf ook eens. Heb je geen Risk thuis? Met witte en bruine bonen en talloze andere middelen lukt het ook. Ga niet het bos in. Opdracht 12 Binnen de hiervoor genoemde randvoorwaarden worden in een bos 100 konijnen gevangen. Deze worden gemerkt en weer los gelaten. Vervolgens worden na voldoende tijd tien keer 15 konijnen gevangen. Het aantal gemerkte konijnen per vangst vind je in de volgende tabel: 100 gemerkte konijnen aantal gemerkte poging konijnen per 15 1 5 2 4 3 7 4 4 5 6 6 5 7 6 8 4 9 4 10 5 Bereken wat met 95% betrouwbaarheid het minimum en maximum totale aantal konijnen in het bos zou zijn. Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 13 Keuzeactiviteit 2 (VWO) TOP 2000 Je werkt in tweetallen aan de onderstaande opdracht. Per tweetal lever je een verslag in met jullie bevindingen en uitkomsten. Opdracht: Open het excelbestand Top 2000. De vraag die je moet beantwoorden bij de gegevens van het bestand TOP 2000 is: Welk decennium heeft de beste popmuziek voortgebracht? Je moet minstens twee manieren bedenken om aan de hand van de gegevens in het TOP 2000 bestand te bepalen welke decennium de beste muziek heeft opgeleverd. Hierbij moet je letten op de volgende regels: Ga hierbij uit van de periodes 1930 t/m 1939, 1940 t/m 1949, 1950 t/m 1959 etc. Je moet alle nummers uit de hele TOP 2000 gebruiken. Je moet bedenken hoe je op een goede manier rekening kunt houden met nummers die pas zijn uitgebracht in de loop van de elf jaren die in het bestand staan (1999 t/m 2009). Zie bijvoorbeeld nummer 8 uit de TOP 2000: Clocks van de groep Coldplay. In de kolom jaar zie je dat het nummer in 2003 is uitgebracht. Voor de jaren 1999 t/tm 2002 staan er daarom “0” –en in de lijst. Let op: Bij bijvoorbeeld nummer 11 uit de lijst staan ook een aantal nullen in de kolommen. Deze nullen betekenen echter iets anders! Weet je ook wat? Voor beide manieren moet je precies beschrijven hoe je bepaalt welk decennium het beste is. Je moet beide manieren ook uitvoeren en aangeven welk decennium bij jou wint. Heb je tweemaal dezelfde winnaar? Of twee verschillende winnaars? Welke manier vinden jullie het eerlijkst? Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 14 Keuzeactiviteit 3 (VWO) Fictie of waarheid: de correlatiecoëfficiënt De correlatiecoëfficiënt is een hulpmiddel waarmee je kunt onderzoeken of er een statistisch verband is tussen twee variabelen. Dat kunnen twee onafhankelijke variabelen zijn of een te kiezen variabele en een daarvan afhankelijke variabele. Realiseer je dat je met de correlatiecoëfficiënt een statistisch (zeg maar “rekenkundig”) verband kunt ontdekken. Daarmee is nog niet gezegd dat er ook een causaal (oorzakelijk) verband is. Immers, niets is zeker en ook dat niet. Lees bijvoorbeeld maar eens het volgende artikel uit NRC: https://www.nrc.nl/nieuws/2010/12/20/hoe-‐meer-‐telefoonmasten-‐hoe-‐meer-‐geboortes/ Hoe meer telefoonmasten, hoe meer geboortes DOOR STEVEN DE JONG WETENSCHAP Er is een sterke correlatie gevonden tussen het aantal telefoonmasten en het geboortecijfer per gemeente. Iedere extra mast staat volgens de Britse wiskundige Matt Parker in verhouding tot 17,6 baby’s meer dan het landelijke gemiddelde. Wie het niet gelooft, kan deze Excel-‐sheet bestuderen. Parker vatte de bevindingen samen en maakte er een persberichtje van. Hij wilde daarmee aantonen dat journalisten oorzakelijke en statistische verbanden nogal eens door elkaar halen. Een kop als ‘Straling GSM-‐mast zorgt voor geboortegolf’ zou hem in zijn vooroordeel bevestigen. Maar dat viel mee, legt hij aan de BBC uit. Dat media er niet intrapten wijt hij aan het gegeven dat hij ‘maar een gewone jongen’ is en geen vermaard wetenschapper met een gerenommeerd onderzoeksinstituut achter zich. Toch wilde hij een punt maken: al die berichten waarin een causaal verband wordt gelegd tussen kinderkanker en straling moeten niet zomaar voor waar aangenomen worden. Dat neemt echter niet weg dat die sterke correlatie tussen telefoonmasten en het aantal borelingen staat als een huis. Hoe zit dat? Er is een derde factor, schrijft Parker in The Guardian. Namelijk de Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 15 populatie. Telefoonmaatschappijen plaatsen veel masten in gebieden waar veel mensen wonen. En hoe meer mensen, hoe meer geboortes. Maar met straling heeft dat niets van doen. Stel dat je het verband wilt onderzoeken tussen twee variabelen x en y. Je beschikt over waarden x1, x2, x3, …., xn bij waarden y1, y2, y3, …., yn. Je vraagt je af of er een statistisch lineair verband tussen y en x bestaat: y = a.x + b Als je de waarden van y uitzet als functie van x in een zogenaamde scatterplot (puntengrafiek) krijg je een figuur van de volgende gedaante: Figuur 6 scatterplot Als er een lineair verband tussen y en x bestaat, is het waarschijnlijk dat de daarbij behorende rechte door het punt ( 𝑥, 𝑦) gaat. Dit punt is als het ware het zwaartepunt van je puntenverzameling: Figuur 7 zwaartepunt Voor de correlatiecoëfficiënt R geldt nu: 1 𝑅 = 𝑛−1 ! !!! 𝑥! − 𝑥 . 𝑦! − 𝑦 σ ! . σ! De correlatiecoëfficiënt (symbool R) geeft aan hoe betrouwbaar het veronderstelde wiskundige verband y = a.x + b tussen y en x is. De waarde van de correlatiecoëfficiënt ligt tussen -‐1 en +1 ( -‐1 ≤ R ≤ 1 ). Bij negatieve waarden hoort een dalende lijn bij toenemende x (a < 0), bij positieve waarden van R hoort een stijgende lijn (a > 0). Dit tekenverschil wordt vaak ondervangen door niet R te geven, maar Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 16 R2. Dat geeft dus informatie over de betrouwbaarheid van de gevonden functie zonder de aard van het verband (dalende of stijgende lijn) aan te geven. Voor de betrouwbaarheid van de gevonden functie gelden de volgende standaardregels: - Als -‐0,1 < R ≤ 0 of 0 ≤ R < 0,1 is er geen correlatie, m.a.w. het gevonden verband is niet correct. - Als -‐0,3 < R ≤ -‐0,1 of 0,1 ≤ R < 0,3 is er nauwelijks correlatie, m.a.w. het gevonden verband is onbetrouwbaar. - Als -‐0,5 < R ≤ -‐0,3 of 0,3 ≤ R < 0,5 is er een matige correlatie, m.a.w. het gevonden verband is niet erg zeker. - Als -‐1,0 ≤ R ≤ -‐0,5 of 0,5 ≤ R ≤ 1,0 is er een sterke correlatie, m.a.w. het gevonden verband is sterk en natuurlijk betrouwbaarder naarmate R dichter bij -‐1 of 1 ligt. Als je naar de formule voor R kijkt, begrijp je dat er aardig wat rekenwerk vast zit aan het bepalen van de correlatiecoëfficiënt. Zie hiervoor ook het onderdeel “Kleinste kwadraten methode voor een lineair verband”. Gelukkig biedt een spreadsheet programma uitkomst: uit een tabel met waarden voor variabelen x en y kun je via formules/functie invoegen/correlatie snel de waarde van R uitrekenen. Opdracht 13 Een groepje leerlingen denkt dat er een lineair verband is tussen de concentratie van sulfaat in grond en de groei van waterkersplantjes op die grond. Onderzoek of hun resultaten deze hypothese ondersteunen. Maak weer gebruik van Excel. De meetresultaten vind je hierna: sulfaatgehalte van de grond (mmol/L) groei waterkers /dag in mm 2,3 0,9 7,8 2,5 0,5 2,1 4,1 2,7 6,7 1,2 3,4 3,3 1,8 0,3 9,3 1,5 5,1 2,8 8,2 1,4 Opdracht 14 Een groepje leerlingen denkt dat er een lineair verband is tussen de pH van grond en de groei van waterkersplantjes op die grond. Onderzoek of hun resultaten deze hypothese ondersteunen. Maak gebruik van Excel. De meetresultaten vind je in de tabel: pH van de grond groei waterkers /dag in mm pH van de grond groei waterkers /dag in mm 4,9 0,9 6,5 3,3 6,8 3,6 4,0 0,3 5,4 1,3 5,7 1,5 6,2 2,7 6,2 2,8 5,1 1,2 5,4 1,4 Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 17 Opdracht 15 Op de autosnelweg A2 van Eindhoven naar Maastricht staat voor Maastricht om vijf uur ’s middags elke dag een file. De lengte van deze file voor een aantal verschillende dagen vind je in het overzicht hierna. In dat overzicht vind je ook het aantal eieren dat door de twintig kippen van boer B. op een boerderij in Friesland werd gelegd. Bereken de correlatiecoëfficiënt. Wat zou jouw conclusie zijn? kilometers file aantal eieren kilometers file aantal eieren 4,9 4 6,5 8 7,8 12 8,4 15 5,7 8 9,3 18 3,8 2 5,1 6 12,1 20 8,2 11 Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 18
© Copyright 2024 ExpyDoc