Exact competentiegericht Statistiek voor het laboratorium Uitwerkingen versie juli-2014 T.J. Kleintjes 1 Opgave 1.1 Precisie en juistheid Precisie en juistheid bij het schieten A B nauwkeurig en juist onnauwkeurig en juist D C nauwkeurig en onjuist onnauwkeurig en onjuist Opgave 1.2 Precisie en juistheid van metingen - nauwkeurig en juist D - nauwkeurig en onjuist C - onnauwkeurig en juist B - onnauwkeurig en onjuist A Opgave 1.3 Hoe nauwkeurig is een meting bij een bepaalde meetmethode? a v = 135 ± 3 km/h 3 100 % 2,2 % relatieve onnauwkeurigheid = 135 v = 135 km/h ± 2,2 % b 132 135 3 Opgave 1.4 2 138 3 Meer metingen doen: duplo en triplo (meetonnauwkeurigheid bekend) 15 100 % 11,9 % a relatieve onnauwkeurigheid = 126 Uitwerkingen 2014 © Vervoortboeken 2 nauwkeuriger dus absolute 15 10,6 afgerond 11 mg/L onnauwkeurigheid = 2 b De meting wordt c Aantal metingen (n) 1 15 10,6 2 onnauwkeurigheid 11 (afgerond) onnauwkeurigheid = 2 3 4 ….. onnauwkeurigheid ± 15 ± 11 ±9 ±8 ±5 15 15 5 n 3 n 32 9 5 n d Opgave 1.5 126 129 127 127,3 3 De meting wordt 3 nauwkeuriger dus absolute 15 8,66 afgerond 9 mg/L onnauwkeurigheid = 3 Zoutgehalte = 127 ± 9 mg/L Zoutgehalte = 127 mg/L ± 7,1 % gemiddelde = Meetonnauwkeurigheid onbekend a 32 33 34 35 b w = hoogste waarde– laagste waarde = 35,5 – 32,8 = 2,7 g/100g 33,2 32,8 35,5 33,8 g/100g gemiddelde = 3 verschil = 35,5 – 33,8 = 1,7 g/100g de spreiding = 1,7 g/100g 1,7 100% 5,0% de spreiding in % = 33,8 vetgehalte = 33,8 ± 1,7 g/100 g vetgehalte = 33,8 g/100 g ± 5,0 % c d e f g 1.1 3 R1 R2 bijvoorbeeld 100, 97 en 103 bijvoorbeeld 200, 100 en 300 Uitwerkingen 2014 © Vervoortboeken R3 R4 R5 die kun je niet vergelijken, omdat het gemiddelde verschilt nee omdat de relatieve onnauwkeurigheid rekening houdt met de gemiddelde waarde Opgave 1.6 Het suikergehalte van cola gemiddelde waarde = 8,9 g/100 mL spreiding (absolute onnauwkeurigheid) = 9,3 – 8,9 = 0,4 g/100 mL spreiding in % (relatieve onnauwkeurigheid) = 0,4 100% 4,5% 8,9 suikergehalte = 8,9 ± 0,4 g/100 mL Opgave 1.7 Bacteriën tellen gemiddelde waarde per plaat = 51 KVE onnauwkeurigheid = 65 – 51 = 14 KVE 14 100% 27,5% onnauwkeurigheid in % = 51 KVE waarde = 51 ± 14 KVE 104 keer verdund dus KVE waarde = 51104 ± 14104 KVE/mL betere notatie: KVE waarde = (51 ± 14)104 KVE/mL relatief KVE waarde = 51104 KVE/mL ± 27,5% Opgave 1.8 Juistheid van een meting bepalen a b c Opgave 1.9 Het ℮-teken a 4 je moet de werkelijke waarde van het controlemonster weten gemiddelde = 24,3 mg/L (controlemonster niet meenemen!!) spreidingsbreedte = 24,3 – 24,0 = 0,3 mg/L absolute onnauwkeurigheid = 0,3 0,3 100% 1,2% relatieve onnauwkeurigheid = 24,3 ja, het gemeten controlemonster valt binnen de opgegeven grenzen, dus er is geen reden om aan te nemen dat de meting niet juist zou zijn Van 100 tot 200 4,5 % van 200 g = 9 g Uitwerkingen 2014 © Vervoortboeken b c d 2 of van 200 tot 300 9 g tussen 191 g en 209 g Van 100 tot 200 4,5 % van 175 mL = 7,9 mL 9 9 mL van 265 mL = 100% 3,4% 265 Meetresultaten verschillen. Hoe komt dat? Opgave 2.1 Toevallige meetfout door de waarnemer 1,55 cm 2 cijfers achter de komma Opgave 2.2 Meer streepjes is nauwkeuriger? boven 1,8 cm 1 decimaal onder 1,86 cm 2 decimalen Opgave 2.3 Afleesonnauwkeurigheid bij glaswerk middelste maatcilinder:3,0 mL afleesonnauwkeurigheid 0,1 mL rechter maatcilinder: 0,34 mL afleesonnauwkeurigheid 0,01 mL buret: 46, 55 mL afleesonnauwkeurigheid 0,02 of 0,03 mL Opgave 2.4 De schaalverdeling bepaalt hoe goed je kunt aflezen a de thermometer links heeft als kleinste schaaldeel 0,1 C en de thermometer rechts heeft als kleinste schaaldeel 1 C b links 32,35 C en rechts 32,4 C c links 0,02 C en rechts 0,2 C d de thermometer links 2.1 R1 R2 R3 R4 R5 R6 R7 5 4 significante cijfers er is een schatting gemaakt tussen de streepjes van 23,1 en 23,2 dus het kleinste schaaldeel is 0,1 C het laatste cijfer 4 significante cijfers ongeveer 0,05 mL nee, de relatieve onnauwkeurigheid wordt dan veel te groot het is eigenlijk niet fout, want je kunt het niet beter met de beschikbare middelen Uitwerkingen 2014 © Vervoortboeken Opgave 2.5 Toevallige fout bij aflezen van grafieken a bij 21,3 C max. vochtigheid = 18,5 ± 0,2 g/m3 (of 0,3) bij 21,3 C max. vochtigheid = 18,5 g/m3 ± 1,08 % bij 6,7 C max. vochtigheid = 7,5 ± 0,2 g/m3 (of 0,3)) bij 6,7 C max. vochtigheid = 7,5 g/m3 ± 2,67 % 7,5 b relatieve vochtigheid = 100% 40,5 % 18,5 c totale onnauwkeurigheid = 1,08 % + 2,67 % = 3,75 % absolute onnauwkeurigheid = 3,75 % van 40,5 % = 1,52 % relatieve vochtigheid = 40,5 ± 1,5 % (absoluut) relatieve vochtigheid = 40,5 % ± 3,75 % (relatief) Opgave 2.7 Systematische fout bij een liniaal a het nulpunt ligt niet gelijk met de zijkant van het kaartje b ongeveer 0,5 cm c de fout precies bepalen en alle meetwaarden corrigeren Opgave 2.8 Systematische fouten a niet waterpas zetten b niet goed kalibreren (ijken) c niet op nul stellen d bij de verkeerde temperatuur gebruiken Opgave 2.9 Systematische fout: de instrumentonnauwkeurigheid a Hygrometer waarde = 66,5 % afleesonnauwkeurigheid 0,2-0,5 % instrumentonnauwkeurigheid 1,0 % (1 schaaldeel = 2%) ½ schaaldeel = 1 %) Universeelmeter waarde = 14,19 V afleesonnauwkeurigheid 0 V (!!) instrumentonnauwkeurigheid 0,01 V (1 schaaldeel=0,01 V) b waarde = 28,1 C afleesonnauwkeurigheid 0,1-0,2 C instrumentonnauwkeurigheid 0,5 C (1 schaaldeel = 1C ½ schaaldeel = 0,5 C) c volume = 42,24 mL afleesonnauwkeurigheid 0,02-0,03 mL instrumentonnauwkeurigheid 0,05 mL (1 schaaldeel = 1mL ½ schaal = 0,5 mL) 6 Uitwerkingen 2014 © Vervoortboeken Opgave 2.10 Wat doe je met twee onnauwkeurigheden? a Als je door het aflezen er bijv. 0,2 C naast kunt zitten en het instrument wijkt maximaal 0,5 C af, dan kun je maximaal 0,7 C ernaast zitten b 74,0 C c Ongeveer 0,2 C d 2 2 C = 4 C e Maximaal 4 C + 0,2 C = 4,2 C f g h i Opgave 2.11 gecombinee rde onnauwkeurigheid 4 2 0,2 2 4,0 T = 74 4 C 4 100% 5,4% relatieve onnauwkeurigheid = 74 De grootste afwijking is 4 C, dus dat is hetzelfde Twee onnauwkeurigheden 1 spreiding totaal spreiding1 spreiding 2 2 12 82 bio log ische spreiding 2 2 2 bio log ische spreiding 122 82 8,9 % Opgave 2.12 Twee onnauwkeurigheden 2 spreiding totaal spreiding1 spreiding 2 2 0,45 0,302 fout analist 2 2 2 0,452 0,302 fout analist 2 2 fout analist 2 0,452 0,302 0,335 Opgave 2.13 Verschilmeting a V = Vbegin – Veind = 35,18 – 11,56 = 23,62 mL b Dat betekent dat alle metingen maximaal 0,05 mL kunnen afwijken c Het verschil blijft dan precies hetzelfde dus 23,62 mL d De onnauwkeurigheid in de resultaat is dan 2 de afleesonnauwkeurigheid, dus 0,04 mL e Bij een verschilmeting met één instrument hoef je alleen rekening te houden met de afleesonnauwkeurigheid Opgave 2.14 Instrumentonnauwkeurigheid in de manual a resolution = 0,1 C (of F) 7 Uitwerkingen 2014 © Vervoortboeken 2.2 b accuracy = 0,2 C (of 0,4 F) c 115,8 0,2 C afwijking in % = R8 R9 R10 R11 R12 R13 R14 Nee, het is de maximale afwijking die de thermometers onderling kunnen verschillen Worstcase betekent slechtste geval Dat ze maximaal 0,5 C verschillen schatting van de fout: ongeveer 1,3 Hier is een verandering opgetreden waardoor het gemiddelde is verschoven en er een systematische afwijking is ontstaan Een toevallige fout zal soms boven en soms onder de werkelijke waarde liggen, dus de precisie wordt daardoor beïnvloed. Door een systematische fout ligt de gevonden waarde gemiddeld altijd boven of onder de werkelijke waarde, dus de juistheid wordt daardoor beïnvloed. Opgave 2.15 Een moderne thermometer a hij meet de temperatuur d.m.v. infraroodstraling, hij werkt dus op afstand (contactloos) b T > 100 ºC dus 3 % of reading betekent 3 % van de afgelezen waarde = 3 % van 342 C = 10,26 C en dat is groter dan 3C, dus het is 10,26 C en dat is afgerond 10 ºC c je hoeft niet te schatten, de aflezing is digitaal Opgave 2.16 Andere foutbronnen a door niet loodrecht kijken wordt een verkeerde waarde afgelezen b bij alle meters met wijzerplaten. c A leest 54 cm3 af B leest 50 cm3 af C leest 40 cm3 af d A zit er 8% naast, B nul % en C zit er liefst 20% naast 3 Opgave 3.1 8 0,2 100 % 0,17 % 115,8 Spreiding van data (meetresultaten) Steekproef en populatie a Dat is praktisch onmogelijk en ook veel te duur Uitwerkingen 2014 © Vervoortboeken b 3.1 aselect betekent dat een keuze wordt gemaakt op basis van willekeurigheid dus dat elk individu uit de populatie even veel kans maakt om gekozen te worden. (wikipedia) representatief betekent dat de steekproef ongeveer dezelfde samenstelling heeft als de populatie (dus mannen – vrouwen, leeftijdsopbouw, etcetera) c random d R1 je kiest steeds de beste leerlingen uit iedere klas bij een steekproef over de cijferverdeling van het biologieproefwerk R2 je onderzoekt het gemiddelde inkomen van Nederlanders en ondervraagt alleen mensen in een villawijk R3 populatie steekproef R4 Opgave 3.2 Bij het bevolkingsonderzoek naar baarmoederhalskanker worden alle vrouwen van 30 t/m 60 jaar onderzocht, het gaat hier namelijk om de individuele gezondheid Spreidingsbreedte en centrummaten a zo’n analyse is altijd een steekproef b w = max – min = 14,8 – 13,7 = 1,1 m% c 13,5 d 9 15 14 14,5 15 mediaan ligt tussen meetwaarde 5 (= 14,0) en 6 (= 14,1) dus 14,05 m% 13,5 f 14,5 gemiddelde = 14,1 m% 13,5 e 14 14 14,5 15 Er zijn twee modussen: 13,9 en 14,5 8 Correlatie en regressie 2012 © Vervoortboeken 13,5 Opgave 3.3 3.2 14 14,5 15 Lichaamslengte a gemiddelde = 178,8 mediaan = 179,5 er is geen modus R5 verschil met gemiddelde 167 -11,8 175 -3,8 176 -2,8 184 5,2 182 3,2 179 0,2 188 9,2 180 1,2 173 -5,8 184 5,2 178,8 R6 0,0 Zie boven., het gemiddelde van de verschillen is nul. Dat is niet zo verrassend want het is juist een eigenschap van de gemiddelde waarde R7 gemiddelde som van de negatieve afwijkingen som van de positieve afwijkingen ??? b Opgave 3.4 10 mediaan helft van de waarnemingen helft van de waarnemingen ??? de mediaan ligt vlakbij het gemiddelde dus er geen sprake van een scheve verdeling Examenscore a de notatie is heel compact, hier staan 35 meetwaarden. b gemiddelde = 71,4; mediaan = 71; modus = 75 (3 x) 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 3.5 Boxplot a b Opgave 3.6 er is een symmetrische verdeling. Het gemiddelde en de mediaan zijn vrijwel gelijk Percentielen a 4 5 6 8 5 3 4 5 6 9 6 2 3 5 6 6 9 9 7 0 1 1 3 3 4 5 5 5 7 8 8 1 2 3 6 9 9 3 5 7 8 34 meetwaarden, 60 % van 34 = 20,4, dus het 60e percentiel is de 21ste meetwaarde = 74 b de mediaan en het bovenste kwartiel 3.3 R8 R9 R10 R11 Opgave 3.7 11 Goed of fout: niet juist, dat geldt voor de mediaan dat kan, we zagen dat al eerder het gemiddelde wordt sterk beïnvloed, de mediaan niet (de middelste blijft de middelste)en de modus en de frequentie ook niet Een smal kwartiel in een boxplot komt overeen met een hoog / laag blok in een histogram. Geef in de boxplot aan waar (ongeveer) het gemiddelde ligt Histogram Bovenstaand histogram loopt van 155,6 cm tot 179,6 cm. De klassenbreedte is de breedte van 1 kolom uitgedrukt (in dit geval) in cm. a Hoeveel klassen zijn er gebruikt? 8 Correlatie en regressie 2012 © Vervoortboeken gewoon tellen, dus 7 179,6 155,6 3, 43 b klassenbreedte 7 c aantal klassen 2 n 2 40 12,6 13 d dat is bijna twee keer zoveel als in het histogram van het programma e maximum = 195,8 cm minimum = 155,6 cm als we kiezen voor 12 klassen, wordt de klassenbreedte: 195,8 155,6 klassenbreedte 3,35 cm 12 het is slim om dan af te ronden op 3,4 cm f de verdeling is symmetrisch 3.4 R12 Het inkomen in Nederland is niet symmetrisch verdeeld: hij is rechts-scheef verdeeld modaal is afgeleid van modus, het meest voorkomende, dus dat is ongeveer 16.00 euro Opgave 3.8 12 Spreidingsmaat a A is minder precies, de meetwaarden liggen gemiddeld verder van de gemiddelde waarde b Daar komt altijd nul uit d 8 Correlatie en regressie 2012 © Vervoortboeken variatieco ëfficiënt σ n1 7,3 100 % 100 % 24,3 % 30 x dat is heel hoog d Berekening gemiddelde afwijking meting B nummer meting gemiddelde verschil verschil2 i xi xi - x (xi - x )2 x 1 33 30 3 9 2 20 30 -10 100 3 24 30 -6 36 4 31 30 1 1 5 30 30 0 0 6 40 30 10 100 7 27 30 -3 9 8 36 30 6 36 9 29 30 -1 1 n=9 x = 30 (xi - x ) = 0 (xi - x )2 = 292 ( xi x) 2 292 36,5 6,0 n 1 8 σ 6 variatieco ëfficiënt n1 100 % 100 % 20 % 30 x e meting B is preciezer dan meting A n1 3.5 13 R14 Het is eigenlijk niet één formule maar een voorschrift om in een aantal stappen en bewerkingen de uitkomst te vinden R15 De standaarddeviatie bij een steekproef is groter R16 Een steekproef geeft veel meer onzekerheid dan een hele populatie R17 Een tabel maken en alle meetwaarden verwerken volgens het voorschrift dat deze formule voorstelt R18 Je deelt dan door 49 i.p.v. 50, dat geeft een klein verschil. 125 125 1,60 en n 1,58 Voorbeeld n1 49 50 R19 Fout, de meetwaarden zijn meer verspreid R20 nul R21 Bij ziekenhuis 1 moet je altijd 30 minuten wachten. Bij ziekenhuis 2 is er een kans dat je meteen aan de beurt bent, maar een even grote kans dat je een uur moet wachten, dus….. 8 Correlatie en regressie 2012 © Vervoortboeken R22 De linker meting ligt wel erg ver van de andere af, hier kan iets fout gegaan zijn, je moet eerst onderzoeken of de meting een uitschieter is R23 Het is wel een maat maar niet precies hetzelfde, een andere steekproef geeft vast en zeker een andere waarde. Je kunt dit verhelpen door de steekproef heel groot te maken. Opgave 3.9 Bloedonderzoek x = 0,436 L/L n-1 = 0,04643 L/L variatiecoëfficiënt = 10,6 % Opgave 3.10 Kleine meetseries a 3,34 0,22 g/L (= de spreiding) b n-1 = 0,31 g/L de afwijking is groter dan we eerst hadden aangenomen c 3,34 0,31 g/L d gemiddelde = 3,33 maximale afwijking = 3,56 – 3,30 = 0,23 n-1 = 0,22 bij 3 metingen zijn de spreiding en de standaarddeviatie ongeveer gelijk Opgave 3.11 Herhaalbaarheid a n-1 = 0,001527 molL-1 b variatiecoëfficiënt = 1,52 % c ---- Opgave 3.12 Reproduceerbaarheid a n-1 = 0,01013 molL-1 b variatiecoëfficiënt = 9,26 % c de reproduceerbaarheid is slechter dan de herhaalbaarheid van de ene analist. Ze werken niet allemaal even nauwkeurig. d Het verschil lijkt wel veel te groot Opgave 3.13 Gebruik van Excel a b 4 14 Uitschieters bepalen en afronden 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 4.1 Uitschieters: de Dixons-test of Q-test a het vermoeden bestaat dat 3,7 een uitschieter is, het verschil met de dichtstbijzijnde waarde is 1,2 b 1,5 2,0 2,5 3,0 3,5 4,0 3,7 lijkt zo een uitschieter c 3,7 - 2,5 = 1,2 d w = 3,7 - 1,7 = 2,0 e verdachte waarneming naastligge nde waarneming 1,2 Qtest 0,6 w 2,0 f Kritische waarden voor het bepalen van één uitschieter (Dixons-test of Q-test) n 3 4 5 6 7 8 9 10 11 Qkritisch 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41 0,39 n 12 13 14 15 16 17 18 19 20 Qkritisch 0,37 0,35 0,34 0,33 0,32 0,31 0,30 0,29 0,28 n 21 22 23 24 25 30 35 40 45 Qkritisch 0,29 0,29 0,28 0,28 0,28 0,26 0,25 0,24 0,23 g 0,6 > 0,41 dus 3,7 is inderdaad een uitschieter h eerst 3,7 weglaten nieuwe verdachte = 1,7 dus 2,1 - 1,7 = 0,4 w = 2,5 - 1,7 = 0,8 verdachte waarneming naastligge nde waarneming 0,4 Qtest 0,5 w 0,8 opzoeken in tabel Qkritisch = 0,44 0,5 > 0,44 dus 1,7 is ook een uitschieter Opgave 4.2 15 Nitraatgehalte 1ste verdachte = 2,5 2,5 - 1,9 = 0,6 w = 2,5 - 1,1= 1,4 verdachte waarneming naastligge nde waarneming 0,6 Qtest 0,43 w 1,4 opzoeken in tabel Qkritisch = 0,41 0,43> 0,43 dus 2,5 is net een uitschieter 8 Correlatie en regressie 2012 © Vervoortboeken nieuwe verdachte = 1,1 dus 1,1 - 1,4 = 0,3 w = 1,9 - 1,1 = 0,7 verdachte waarneming naastligge nde waarneming 0,3 Qtest 0,43 w 0,7 opzoeken in tabel Qkritisch = 0,44 0,43 < 0,44 dus 1,1 is geen uitschieter!! Opgave 4.3 4.1 Waar ligt de eerste uitschieter (oplossen van een vergelijking)? a b ( x 23,5) 0,94 x 24,2 0,94 x 22,09 x 24,2 2,11 0,06 x 2,11 x 35,2 !!!! 0,06 c waarschijnlijk niet R1 R2 R3 R4 R5 Opgave 4.4 16 zie vorige opgave dat hangt af van: het aantal waarnemingen dat in het rechter gedeelte ligt Qtest verdachte naastliggende w 7,4 0,49 15 in de tabel zien we dat bij totaal 8 waarnemingen er een uitschieter is als er rechts maar 1 waarde zou liggen was die waarschijnlijk wel een uitschieter; doordat de andere er dichtbij ligt wordt verdachte - naastliggende te klein waarschijnlijk zijn beide rechtse metingen uitschieters Uitschieters: de boxplot a waarschijnlijk alle waarden vanaf 79,0 zijn uitschieters, dat zijn er 16 b c ja d 150 waarnemingen: mediaan is nr 75 dus mediaan = 69,5 KO ligt tussen 37 en 38 dus KO = 66,5 KB ligt tussen 112 en 113 dus KB = 71,65 ΔK = 1,5 (KB - KO) = 1,5 (71,65 - 66,5) = 1,5 5,15 = 7,725 KO - ΔK = 66,5 - 7,725 = 58,775 KB + ΔK =71,65 + 7,725 = 79,375 onderkant: geen uitschieters bovenkant: alles vanaf 79,375 dus 15 uitschieters, ongeveer zoals we al vermoedden 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 4.5 Uitschieters: gebruik van SPSS volgens SPSS geen uitschieters Opgave 4.6 Afrondingsregels a 5,237 b Opgave 4.7 w 5,247 5,228 0,005 2 n 2 3 ligt tussen 0,001 en 0,01 dus afronden op 0,001 dus 3 decimalen. is niet bekend: b Afronden oefenen a x = 149,907 g/L n-1 = 0,11394 g/L b b = 12 = 12 ×0,11394 = 0,056 afronden op 0,01 x = 149,91 g/L n-1 = 0,11 g/L c Chloor in bleekloog (g/L) 1 149,85 2 149,97 3 150,03 4 149,78 5 Normaalverdeling Opgave 5.1 IQ a Het bestaat uit een groot aantal staafjes b streepjes tellen: tussen 100 en 120 liggen 20 streepjes, dus klassenbreedte = 1 c gemiddelde = mediaan = modus = 100 d 50 % e die zijn er waarschijnlijk wel maar die aantallen zijn te klein om hier weer te geven f ongeveer 84 g 100 - 84 = 16 h onderkant: 100 - 2 ×16 = 68 bovenkant: 100 + 2 ×16 = 132 Opgave 5.2 17 Vuistregels normaalverdeling a 34 % + 34 % = 68 % 8 Correlatie en regressie 2012 © Vervoortboeken b 68 % + 13,6 + 13,6 % = 95,2 % c 95,2 % + 2,1 + 2,1 = 99,4 % d -e 2,2 % (= 2,1 + 01) ligt op de onderste 2 grens 82,4 – 54 = 2 dus = 14,2 kg f g h Opgave 5.3 5.1 Significantie a Boven en onder 2 standaarddeviatie ligt samen 4,8 %. Als we dat afronden tot 5 % hebben we precis de grenzen te pakken. Een zwangerschap is significant te lang na 266 + 210 = 286 dagen b 286 dagen is 286/7 = 40 weken en 6 dagen c significant laag IQ onder 100 – 32 = 68 significant hoog IQ boven 100 + 32 = 132 R1 R2 Opgave 5.4 Welke van de volgende zaken zouden volgens jou een normaalverdeling kunnen hebben? Leg uit waarom. de lengte van alle studenten op de schoolvoor LMP wel het gewicht van alle vrouwelijke studenten wel de leeftijd van alle studenten niet de geboortedata van alle studenten niet het aantal uren dat iedere student per week aan de studie besteedt wel de tijdsduur van mobiele telefoongesprekken van studenten wel het aantal uren dat een student TV kijkt wel de meest spitse en dus hoge normaalverdeling Kansrekening a allebei 1 6 16 1 3 b 18 110,8 kg 13,6 % 1 6 8 Correlatie en regressie 2012 © Vervoortboeken c d e De kans om geen 5 te gooien, dus om een 1, 2 3, 4 of 6 te gooien is 1 16 56 Omdat je dan veel vaker moet gooien. 1 500 83 keer , het gaat over kansen, niet over 6 zekerheid f g h i twee P(x = kop) = 0,5 50 % met totaal 36 mogelijke worpen krijg je 11 verschillende uitkomsten j van de 36 geeft 12 punten, dus 361 150 0,0012 k 125.000 19 Opgave 5.5 Kansrekening en medische testen a 1 % van de baby’s heeft het syndroom, dat zijn er dus 0,0110.000 = 100 b 90 % kans dat de testuitslag positief is, dus dat zijn er 0,9100 = 90 c dat zijn er 10.000 – 100 = 9.900 d 1 % kans op vals positief, dus dat zijn 0,01 9900 = 99 e totaal 90 + 99 = 189 f Kans = werkelijk aantal positief 100 100% 100% 52,9% totaal gemeten positief 189 g dat is een beroerde test h de kans wordt dan 9,17%, een onzinnige test dus Opgave 5.6 Kansrekening en normaalverdeling a dat is 1 rechts van het gemiddelde; 50 + 34,1 = 84,1 % is kleiner dan 188 cm, dus 100 – 84,1 = 15,9 % is langer dan 188 cm b dat is 15,9 % van 60.000 = 9540 mannen c 0,159 (15,9 %)? d P(lengte >188) = 0,159 e 2 links van het gemiddelde, dus 2,2 % ofwel P(l <164 cm) = 0,022 f 84,1 = 50 + 34,1 %, dus 84,1 % en dat ligt bij 1 links van het gemiddelde, dus P(l >172 cm) = 0,841 g 196 cm = +2 204 cm = +3 daartussen ligt 2,1 % P(196 cm < l < 204 cm) = 0,021 8 Correlatie en regressie 2012 © Vervoortboeken h moeilijk in te schatten, de lijn loopt niet recht Opgave 5.7 Standaard normaalverdeling a 50 + 34,1 = 84,1 % b 100 – 0,1 – 0,5 = 99, 4 % c moeilijk in te schatten, de lijn loopt niet recht d 99,38 % e 100 – 99,38 = 0,62 % f -- Opgave 5.8 Hartslag a Z x 90 70 2,00 10 tabel P(Z <90) = 0,9772 = 97,72 % P(Z >90) = 1 - 0,9772 = 0,0228 dus 2,28 % 5.2 R3 We moeten uitrekenen hoe groot de kans is om bij een steekproef een man aan te treffen met een hartslag minder dan 55. Dat is het blauwe gebied in de tekening linksonder. tabel P(Z <1,5) = 0,9332 = 93,32 % P(Z >1,5) = 1 - 0,9332 = 0,0668 = 6,68 % 6,68 % b gebied links van 75: Z 69,15 % gebied links van 65: Z x x 75 70 0,5 geeft 10 65 70 0,5 geeft 10 100 – 69,15 = 30,85 % daartussen ligt: 69,15 – 30,85 = 38,3 % 20 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 5.9 Standaard normaalverdeling en metingen 5 % van 23,5 mg/L = 1,175 afgerond 1,2 mg/L x 25 23,5 Z 1,25 1,2 Z-tabel: P(Z <1,25) = 0,8944 P(Z >1,25) = 1 – 0,8944 = 0,1056 (of 10,95 %) Opgave 5.10 Standaard normaalverdeling en microbiologische metingen a gehalte = 100 100 = 10.000 = 104 KVE b logwaarde gehalte = log(104)= 4,0 onderste 2 grens 4 – 2 0,15 = 3,70 bovenste 2 grens 4 + 2 0,15 = 4,30 c 103,70 KVE < gehalte <104,30 KVE 5012 KVE < gehalte < 19.952 KVE d De gevonden gemiddelde waarde ligt niet midden tussen de uiterste waarden Opgave 5.11 Lampen a de kans is 0,00621 ofwel 0,621% b 21 8 Correlatie en regressie 2012 © Vervoortboeken 0,621 % van de lampen brandt langer dan 900 uur Opgave 5.12 5.3 Opgave 5.13 22 Kwaliteitscontrole bij de bakker x 450 436 Z 1,27 en dat geeft 0,8980, dus a 11 89,80 % van de broden ligt beneden de 450 g. Hij levert te weinig waar voor zijn geld b Uit het histogram blijkt dat we maar de helft van een normaalverdeling zien. Het is dus zeer waarschijnlijk dat de bakker de broden voor deze klant netjes heeft uitgezocht. De andere klanten krijgen dan nog meer broden die te weinig wegen. R4 R5 Goed –1,5 Chipszakken vullen a 9 gram dus tussen 191 en 209 g b 8 Correlatie en regressie 2012 © Vervoortboeken c 6 We kijken alleen aan de onderkant (teveel vindt de consument niet erg, de fabrikant wel): 1,22 % van de productie voldoet niet aan de norm 0,1 % is 3 , het gemiddelde moet dan 3 4 = 12 g verder liggen dus 191 + 12 = 203 g Van steekproef naar populatie Opgave 6.1 Steekproeven a met slechts drie mannen zegt dit natuurlijk bijzonder weinig over de hele populatie. b waarschijnlijk is dat al een iets betere schatting. c hoe groter de steekproef hoe betrouwbaarder meestal het resultaat. d De gemiddeldes liggen dicht bij elkaar maar de standaarddeviatie wordt kleiner als het aantal samples per steekproef groter wordt. e De nauwkeurigheid neemt dus toe met het aantal samples. f de beste schatting van de gemiddelde lengte van de populatie mannen boven de 20 is 180,7 cm g het 99 % betrouwbaarheidsinterval hoort bij een kans van 0,995 (99% ligt tussen 0,005 en 0,995); dit levert een Z-waarde van 2,575. 180,7 2,575 1,5 180,7 2,575 1,5 176,8 cm < μ < 184,6 cm Het 99 % betrouwbaarheidsinterval is dus groter dan het 95 % betrouwbaarheidsinterval h 180,7 1,96 2,5 180,7 1,96 2,5 dus bij 10 samples 175,8 cm < μ < 185,6 cm en bij 50 samples 177,8 cm < μ < 183,6 cm bij een grotere steekproef wordt de schatting nauwkeuriger Opgave 6.2 Standaardfout en populatie a 23 SE n n n SE n 10 3 samples n SE n 4,2 3 7,3 10 10 samples n SE n 2,5 10 7,9 8 Correlatie en regressie 2012 © Vervoortboeken 10 25 samples b Opgave 6.3 6.1 Ze verschillen heel weinig. De laatste zal wel het meest betrouwbaar zijn. Het klopt heel behoorlijk. Als je alles herhaalt komt er toch ook niet steeds weer hetzelfde uit. Kan het niet met wat minder steekproeven? R1 Bij de lengtemeting heb natuurlijk mensen met allemaal verschillende lengtes, maar ook de meting zelf is niet nauwkeurig. De spreiding in de resultaten van de zoutmeting wordt allen bepaald door de onnauwkeurigheid van mijn meetmethode. Het monster is overal gelijk. Het heeft maar één onbekend) zoutgehalte. De populatie is de verzameling van alle mogelijke metingen. R2 R3 a b c d e f 24 n SE n 1,5 25 7,5 meting zoutgehalte x = 15,1 mg/L en n-1 = 0,2 mg/L n= 2,5 % van 15,1 mg/L = 0,38 mg/L Bereken de standaardfout SE. 0,38 SE n SE 0,22 n 3 Bereken het 95 % betrouwbaarheidsinterval voor de werkelijke waarde van het zoutgehalte. 15,1 1,96 0,22 15,1 1,96 0,22 14,67 mg/L 15,53 mg/L Je kunt de steekproef groter maken dus meer metingen aan hetzelfde monster doen. Nee, want het 99 % betrouwbaarheidsinterval is groter dan het 95 % interval. Het aantal metingen verandert namelijk niet door een andere berekening. De steekproef blijft even (on)nauwkeurig. Reken uit hoe groot de steekproef minstens moet zijn om een afwijking van maximaal 2 % te krijgen. 2 % afwijking betekent 2 % van 15,1 = 0,302 dus 1,96 × SE = 0,302 0,302 SE 0,15 1,96 0,38 SE n n n 2,53 SE 0,15 n n 2,532 6,4 8 Correlatie en regressie 2012 © Vervoortboeken afgerond n =7 je moet dus nog 4 meting extra doen. Opgave 6.4 Simulatie van steekproeven uit een populatie a 5 b afwijking = 16 – 13,18 = 2,82 afwijking = c 8 5 = 40 2,82 100 % 17,6 % 16 0,10 100 % 0,625 % het gemiddelde van 16 d afwijking = d de steekproef komt steeds dichter bij die van de populatie te liggen Die is 2,38 SE n n SE n 2,38 5 5,32 f n Hoe meer metingen je doet, hoe beter dit gaat kloppen Opgave 6.5 Betekenis van het betrouwbaarheidsinterval a 10 steekproeven b 9 van de 10 dus 90 % c 15 van de 20 dus 75 % d -- Opgave 6.6 Schatting van het populatiegemiddelde bij een kleine steekproef a Tabel: 95%; tweezijdig; n =5 dus v = 4 t = 2,78 b x t n1 x t n1 n 1,53 2,78 n 0,18 0,18 1,53 2,78 5 5 BI: 1,31 g/kg < μ < 1,75 g/kg c De maximale waarde van 1,0 kg valt buiten het betrouwbaarheidsinterval, dus het gehalte is te hoog 6.2 R4 R5 R6 25 een kleiner gebied kun je met minder zekerheid voorspellen dat de werkelijke waarde erin ligt zie vorige vraag bij eenzelfde betrouwbaarheid (bijv. 95 %) wordt het interval kleiner want n wordt groter , bovendien wordt de t-waarde kleiner, dus ook daardoor wordt het interval kleiner 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 6.7 Schatting van het populatiegemiddelde bij een grote steekproef a n =200, dus v = n – 1 = 199, tabel: t = 1,64 118 118 x 1,64 200 200 1594 14 1594 14 x 1,64 € 1580 < < € 1608 b 118 118 x 1,64 190 190 1594 14 1594 14 x 1,64 € 1580 < < € 1608 en dat blijft door de afronding hetzelfde Opgave 6.8 BI bij controles - Koloniegetalbepaling a gemiddelde x t n1 x t n1 n 75 2,78 b Opgave 6.9 n 12 12 75 2,78 5 5 BI: 60 KVE/g < μ < 90 KVE/g Ja, het hele interval ligt onder de 100 dus het kiemgetal is niet te hoog Controle - Zout in mineraalwater a Tabel: 95%; tweezijdig; n =25 dus v = 24 t = 2,06 gemiddelde: x t n1 x t n1 n n 12 12 130 2,06 130 2,06 25 25 b BI: 125 mg/L < μ < 135 mg/L Geef een schatting voor de standaarddeviatie van de populatie. schatting SE = n-1 =12 mg/L c 26 n n SE n 12 25 60 mg/L n x 150 130 Z 0,33 60 Z-tabel: P(Z <0,33) = 0,6293 P(Z >0,33) = 1 – 0,6293 = 0,3707 Dus 37,1 % van de flessen zal waarschijnlijk meer dan 150 mg/L zout bevatten SE 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 6.10 BI van verschillen: is het gehalte significant gedaald? a standaarddeviatie = 0,05 500 = 25 UI/L b tussen – 2 en + 2 c 2 = 2 25 = 50 UI/L BI: 500 – 50 < μ < 500 + 50 BI: 450 UI/L < HGC < 550 UI/L d standaarddeviatie tweede meting = 0,05 475 = 24 UI/L e f Opgave 6.11 7 Statistisch significant of praktisch significant? a Middel B geeft de grootste gemiddelde gewichtsafname, maar ook de grootste onzekerheid, de afname kan zelfs negatief zijn, dat betekent dus sommige gebruikers een gewichtstoename kunnen verwachten. Van middel A wordt in ieder geval iedereen (95% betrouwbaar) lichter. b Wie graag een gok waagt neemt middel B, als je op zekerheid speelt neem je A. Kwaliteitszorg en controlekaarten Opgave 7.1 27 TOT 12 2 2 252 24 2 35 UI/L 2 = 2 35 = 70 het verschil is 500 – 475 = 25 het verschil kan dus 70 UI/L afwijken BI: 25 – 70 < μ < 25 + 70 BI: – 45 < verschil < 95 UI/L het als er geen verschil zou zijn tussen de metingen van 500 en 475 dan zou het verschil nul zijn; dit getal nul ligt ruim binnen dit interval dus het verschil is niet significant, dat betekent dat we door de onzekerheid van de meetmethode niet mogen aannemen dat de metingen van het gehalte HCG echt verschillen. Variaties a -b Omdat dat afhangt van de gewenste nauwkeurigheid c -d 20 op de 100 dus 1 op 5, dus 4 rode ballen e toeval f het kan theoretisch wel, maar de kans is ontzettend klein. 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 7.2 Oorzaken van variaties en controlekaarten Opgave 7.3 Controlekaarten van losse (enkele) meetwaarden b Welke conclusies zou je kunnen trekken? a Maak een controlekaart van de uitslagen met grenzen. LDL gehalte LDL (mmol/L) 5 4,5 meetwaarden 4 ondergrens bovengrens 3,5 3 0 5 10 15 maand b het LDL gehalte stijgt en wordt te hoog Opgave 7.4 Controlekaarten voor apparatuur of meetmethode a 2 2,4 = 4,8 % b 2 0,2 = 0,4 % Opgave 7.5 Kwaliteitscontrole bij de melkproductie a x = 44,9 g/L en n-1 = 0,9 g/L b Tabel: 95%; tweezijdig; n =10 dus v = 9 t = 2,26 x t n1 x t n1 n n 0,9 0,9 44,9 2, 26 44,9 2, 26 10 10 44,9 0,64 44,9 0,64 De 2σ grenzen liggen op – 0,6 en + 0,6 g/L 1 = 0,5 × 0,6 = 0,3 g/L dus 44,6 en 45,2 g/L 2 = 0,6 dus 44,3 en 45,5 g/L 3 = 3 0,3 = 0,9 g/L dus 44,0 en 45,8 g/L c 28 8 Correlatie en regressie 2012 © Vervoortboeken vetgehalte (g/L) controlemonster vetgehalte (g/L) 45,7 45,2 44,7 44,2 43,7 0 2 4 6 8 10 dag d De waarden in de tabel kloppen niet, de juiste zijn: 45,3 45,1 44,4 44,0 44,8 45,8 45,6 vetgehalte (g/L) controlemonster vetgehalte (g/L) 45,7 45,2 44,7 44,2 43,7 0 2 4 6 8 10 dag e Opgave 7.6 Opgave 7.7 29 op dag 4 is er een meting buiten de waarschuwingsgrens en op dag 6 zelfs een buiten de actiegrens. Hoe bepalen we nu of de kwaliteit onbeheerst is? a ja, op dag 4 en dag 6 b op dag 4 de 12 – regel: waarschuwing dus geen actie op dag 6 de 13 – regel: hier had actie ondernomen moeten worden c zie b, de meting herhalen; onderzoek doen naar de oorzaak; na opheffen oorzaak herhalen van de meting; nieuwe kaart starten. Is er actie nodig? a dag 6 de 12 – regel: waarschuwing dus geen actie 8 Correlatie en regressie 2012 © Vervoortboeken 44,7 b c Opgave 7.8 dag 16 de 41 – regel: hier had actie ondernomen moeten worden dag 3 de 12 – regel: waarschuwing dus geen actie dag 13 de 41 – regel: hier had actie ondernomen moeten worden dag 7 de 12 – regel: waarschuwing dus geen actie dag 14 de 12 – regel: waarschuwing dus geen actie Controleregels in chemie en microbiologie a 95% betrouwbaarheidsinterval geeft de 2 grenzen aan, dus 8200 – 2500 = 5700 en 8200 + 2500 = 10.700 3 is dan 1,5 × 2500 = 3750 Dus de 3 grenzen zijn: 8200 – 3750 = 4450 en 8200 + 3750 = 11.950 Dus: 4450 – 5700 – 10.700 – 11.950 b dag 5 t/m 14 de 10x regel c dag 7 de 12 – regel: waarschuwing dus geen actie dag 8 de 22 – regel: hier had actie ondernomen moeten worden dag 11 de 41 – regel: hier had actie ondernomen moeten worden dag 19 de 13 – regel: hier had actie ondernomen moeten worden d nee EXTRA INFORMATIE Opgave 7.9 8 Opgave 8.1 30 Een kijk achteraf: de runchart 24 meetwaarden en 7 runs: dit duidt op afwijkingen er is een shift: een run van 8 ook dit duidt op afwijkingen er is geen trend waarneembaar Correlatie en regressie Wel of geen verband tussen de grootheden? a waar je ongeveer een rechte lijn door de punten kunt trekken, dus de bovenste en de onderste b de bovenste is positief, als de ene grootheid toeneemt, neemt de andere ook toe; de onderste is negatief, als de ene grootheid toeneemt, neemt de andere af c boven r > 0; midden r = 0 en onder r < 0 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 8.2 Berekenen van de correlatiecoëfficiënt a verband tussen gewicht en overlijden 90 leeftijd overlijden 85 80 75 70 65 60 65 70 75 80 85 90 95 gewicht (kg) b negatief: zware mensen hebben meer kans vroeg te overlijden c i Xi Yi Xi X Yi Y ( X i X ) (Yi Y ) 1 2 3 4 5 6 7 8 9 10 74 90 80 67,5 68 78 70 69,5 79 69 72 68 70 85 82 69 77 74 71 82 -0,5 15,5 5,5 -7 -6,5 3,5 -4,5 -5 4,5 -5,5 -3 -7 -5 10 7 -6 2 -1 -4 7 1,5 -108,5 -27,5 -70 -45,5 -21 -9 5 -18 -38,5 xi 745 yi 750 n= 10 x 74,5 ( xi x) ( yi y) 331,5 x 7,23 y 6,13 y 75 n r d e f g Opgave 8.3 31 ( xi x) ( yi y) i 1 n x y 331,5 0,831 9 7,23 6,13 0,831 > 0,632 dus er is een aantoonbare correlatie r2 = 0,8312 = 0,691 voor 69,1 % 0,846 < 0,878 dus er is geen aantoonbare correlatie, het kan dus toeval zijn Bepalen van een lineaire regressielijn 8 Correlatie en regressie 2012 © Vervoortboeken a r y 6,13 0,831 0,705 x 7,23 b y a x 75 (0,705) 74,5 127,52 De vergelijking van de regressielijn is dus: y = -0,71 x + 127,5 Opgave 8.4 Oefenen met lineaire regressie a volgehouden dagen dieet 3,5 3 gewichtsverlies (kg) 2,5 2 1,5 1 0,5 0 0 10 20 30 40 50 60 dagen dieet er is aantoonbare correlatie want r = 0,982 vergelijking volgens methode boven: y = 0,0585x – 0,2687 b y = 0,0585x – 0,2687 = 10 10 0,2687 x 175 dagen 0,0585 c meerdere redenen: houd je het vol en blijft de afname per dag gelijk? 8.1 R1 R2 R3 R4 R5 R6 R7 Opgave 8.5 32 hoe kleiner het aantal hoe groter de invloed van het toeval er is wel een heel grote correlatie maar de lijn loopt niet recht waarschijnlijk een wortelverband laten we hopen van niet de grootte van de bevolking? agressieve kinderen kijken veel vaker TV,……….. statisch: ze hebben duidelijk met elkaar te maken maar er kan een heel andere oorzaak zijn oorzakelijk: een van de twee is de oorzaak en de andere is daar een gevolg van Lineaire regressie met Casio fx-82SX 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 8.6 Lineaire regressie met Excel a y = 0,0013x - 1,8182 verband tussen afkeur en dagproductie 2 R = 0,9887 5 4,5 4 afkeur (%) 3,5 3 2,5 2 1,5 1 0,5 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 productie/dag r= b c 9 Testen van meetresultaten 9.1 R1 R2 Opgave 9.1 33 R 2 0,9887 0,994 YES , want 0,994 > 0,666 Dat is natuurlijk niet waarschijnlijk. de grafiek zal minder steil gaan lopen, want afkeur blijft er altijd Hoe zou de tekening van de eenzijdige toets eruit zien als we als alternatieve hypothese gesteld hadden: H1: µ < 50? Als we het voorbeeld van de cola eenzijdig hadden getest, was de uitslag dan anders geweest? Leg uit, eventueel met een berekening. Testen van het uit de steekproef geschatte gemiddelde t.o.v. a x = 24,5 kg en n-1 = 1,0 kg n 5 b t ( x) 25 24,5 1,12 n-1 1,0 c 2,5 % d v=n–1=5–1=4 tabel: tkritisch = 2,78. e 1,12 < 2,78 f de nulhypothese wordt aangenomen g Het gewicht voldoet aan de specificatie van 25 kg met een betrouwbaarheid van 95 % 8 Correlatie en regressie 2012 © Vervoortboeken Opgave 9.2 Paracetamol a via de website: One sample t test results P value and statistical significance: The two-tailed P value equals 0.0045 By conventional criteria, this difference is considered to be very statistically significant. zelf berekenen Nulhypothese: Het gewicht voldoet aan de specificatie, de waarde wijkt niet significant af van 200 g H0: µ = 200 g Alternatieve hypothese Het gewicht voldoet niet aan de specificatie, de waarde wijkt significant af van 200 g H0: µ 200 t ( x) b Opgave 9.3 34 n 200 192 6 4,90 4 n-1 v=n–1=6–1=5 tabel: 95%; tweezijdig, tkritisch = 2,57 4,90 > 2,57, dus de nulhypothese wordt verworpen Het gewicht is significant lager dan 200 g met een betrouwbaarheid van 95 % bij een eenzijdige test is de tkritisch = 2,02; deze afwijking is nog groter, dus de conclusie is hetzelfde Nieuwe machine a eenzijdig, je wilt bewijzen dat hij sneller is. b Nulhypothese: Het aantal van de nieuwe machine verschilt niet van de oude H0: µ = 250 Alternatieve hypothese Het aantal van de nieuwe machine is groter dan van de oude H1: µ > 250 n 10 t ( x) 250 265 7,91 n-1 6 v = n – 1 = 10 – 1 = 9 tabel: tkritisch = 1,83 7,91 > 1,83 dus de nulhypothese wordt afgewezen en de alternatieve dus aangenomen; de nieuwe machine werkt significant sneller dan de oude. 10 Extra oefeningen 2012 © Vervoortboeken Opgave 9.4 Slootwater a plaatje II past het best b de meetserie van de partner lijkt nauwkeuriger c Eigen metingen Nulhypothese: Het “werkelijke” gehalte wijkt niet significant af: H0: µ = 0,40 Alternatieve hypothese Het “werkelijke” gehalte wijkt wel significant af: H0: µ 0,40 t ( x) n t ( x) n 0,40 0,38 12 3,46 0,02 0,40 0,44 8 11,3 0,01 n-1 v = n – 1 = 12 – 1 = 11 tabel: tkritisch = 2,20 (geen voorkeur dus tweezijdig testen) 2,20 < 3,46 dus de nulhypothese wordt afgewezen De gevonden waarde wijkt significant af van de werkelijke waarde. Metingen partner Het “werkelijke” gehalte wijkt niet significant af: H0: µ = 0,40 Alternatieve hypothese Het “werkelijke” gehalte wijkt wel significant af: H0: µ 0,40 d n-1 tabel: tkritisch = 2,36 (geen voorkeur dus tweezijdig testen) 2,36 < 11,3 dus de nulhypothese wordt afgewezen De gevonden waarde wijkt significant af van de werkelijke waarde. Beide meetmethoden voldoen niet Opgave 9.5 Vergelijken van twee meetseries Opgave 9.6 T-test van gemiddelde uit twee steekproeven a Bereken S. S b c 35 v1 1 v2 2 v1 v2 2 t x1 x 2 2 3100 2750 5,07 1 1 1 1 S 422,5 n1 n2 75 75 tabel: tkritisch = 2,00 5,07 > 2,00 dus de nulhypothese wordt verworpen 10 Extra oefeningen 74 420 2 74 4252 422,5 74 74 2012 © Vervoortboeken d Opgave 9.7 F-test van standaarddeviaties uit twee steekproeven A ( n 1) 2 F b tabel: Fkritisch = 3,58 2,56 < 3,58 dus de nulhypothese wordt aangenomen De meetseries verschillen niet significant in precisie. Je kunt dus niet zeggen dat serie B nauwkeuriger is. De verschillen zijn aan toeval te wijten B( n 1) 2 0,40 2 2,56 0,252 a c Opgave 9.8 Er is wel een significant verschil tussen de gemiddelden Het gemiddelde gewicht van de behandelde groep is dus groter dan die van de controlegroep Afvalwateronderzoek Gemiddelde Nulhypothese: Er is geen significant verschil tussen de gemiddelden: H0: µ1 – 2 = 0 Alternatief: H1: µ1 – 2 0 (geen voorkeur voor een van beide methoden), dus tweezijdig testen. S t v1 1 v2 2 v1 v2 2 x1 x 2 2 10 1,27 2 10 1,99 2 1,67 10 10 4,55 6,37 8,55 1 1 1 1 S 1,67 n1 n2 11 11 tabel: tkritisch = 2,23 8,55 > 2,23 dus de nulhypothese wordt verworpen. Er is een significant (opvallend) verschil in de gevonden gemiddelden Standaarddeviatie Nulhypothese: De precisie van methode B is niet significant beter dan de precisie van methode A: H0: A = B Alternatief: de precisie van methode B is significant slechter dan de precisie van methode A H1: A < B . Dus tweezijdig testen. 2 1,992 F A2 2,46 1,27 2 B tabel: Fkritisch = 3,72 2,46 < 3,72 dus de nulhypothese wordt aangenomen. De meetseries zijn wel vergelijkbaar wat betreft precisie. Opgave 9.9 36 T-test van gemiddelde uit twee steekproeven met gepaarde waarnemingen a op het beeldsignaal 10 Extra oefeningen 2012 © Vervoortboeken b c ja nul? 22 10 2,02 V 34,4 e tabel: tkritisch = 2,26 2,02 < 2,26 dus de nulhypothese wordt aangenomen. f Er is geen significant verschil tussen de gemiddelde reactietijden. d Opgave 9.10 t xv n Hemoglobinegehalte Nulhypothese Er is geen significant verschil tussen de gemiddelde Hb-gehaltes per patiënt H0: x v 0 Alternatieve hypothese Er is wel een significant verschil tussen de gemiddelde Hbgehaltes per patiënt H1: x v 0 Hb-gehalte (g/dL) patiënt A 1 12,5 2 13,6 3 16,3 4 15,8 5 14,6 6 11,3 gemiddeld 14,0 verschil -0,9 -1,1 -0,8 0,6 0,7 -2,5 -0,9 0,9 0,9 6 2,45 (neem x v 0 ) V 0,9 tabel: tkritisch = 2,57 2,45 < 2,57 dus de nulhypothese wordt aangenomen. Er is geen significant verschil tussen beide meetmethoden t Opgave 9.11 37 xv n B 13,4 14,7 17,1 15,2 15,3 13,8 14,9 Opstellen van hypotheses CASUS 1 a Het gemiddelde gehalte van een steekproef uit de partij kindervoeding. b Nulhypothese Er is geen significant verschil tussen het gemiddelde gehalte en de maximale waarde van 0,02 kg 10 Extra oefeningen 2012 © Vervoortboeken c d H0: = 0,02 mg/kg Alternatieve hypothese Het gemiddelde gehalte is significant lager dan de maximale waarde van 0,02 kg H1: < 0,02 mg/kg Wel een voorkeur dus eenzijdig toetsen. De t-test voor vergelijking van een gemiddelde van een steekproef met een (on)gewenste waarde CASUS 2 a Steekproeven met methode A en een met methode B worden vergeleken. De standaarddeviaties worden vergeleken. b Nulhypothese Er is geen significant verschil tussen de standaarddeviaties van methode A en B H0: A = B Alternatief: de precisie van methode B is significant beter dan de precisie van methode A H1: B < A. c Wel een voorkeur dus eenzijdig toetsen. d De F-test voor vergelijking van de standaarddeviaties van twee steekproeven. CASUS 3 a Aan begin en eind van de periode van alle patiënten de bloeddruk meten. Het gemiddelde verschil wordt vergeleken. b Nulhypothese Er is geen significant tussen het gemiddelde verschil van de bloeddrukwaarden per patiënt. H0: x v 0 Alternatieve hypothese Het gemiddelde verschil van de bloeddrukwaarden per patiënt is significant lager na de behandeling. H1: x v > 0 c Wel een voorkeur dus eenzijdig toetsen. d De gepaarde t-test voor vergelijking van de steekproeven CASUS 4 a De standaarddeviaties van de metingen van de twee analisten worden vergeleken. b Nulhypothese Er is geen significant verschil tussen de standaarddeviaties van analist A en analist B 38 10 Extra oefeningen 2012 © Vervoortboeken H0: A = B Alternatieve hypothese Er is een significant verschil tussen de standaarddeviaties van analist A en analist B. H1: B A. Geen voorkeur dus tweezijdig toetsen. De F-test voor vergelijking van de standaarddeviaties van twee steekproeven. c d Opgave 9.12 Grafische vergelijking van meetmethoden a Vergelijking Hb meetmethoden 20 18 16 methode B 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 20 methode A R = 0,881547 dus R2 = 0,8815472 = 0,777 de grenswaarde is 0,811, dus er is aantoonbare correlatie y = 0,5992x + 6,5177 helling = 1 en asafsnede = 0 op het oog lijken deze methoden niet vergelijkbaar, het hellingsgetal ligt ver onder de 1 en de asafsnede is heel groot b c d e Opgave 9.13 Grafische vergelijking van meetmethoden - Uitschieters patiënt 1 2 3 4 5 6 methode A 0,8 1,4 3,7 6 8,9 12,7 methode B 0,5 1,9 3,2 3,2 9,2 11,5 gemiddeld verschil verschil abs 0,3 0,3 -0,5 0,5 0,5 0,5 2,8 2,8 -0,3 0,3 1,2 1,2 0,67 0,93 test (4x) -3,4 -3,2 -3,2 -0,9 -3,4 -2,5 er zijn geen uitschieters y = 0,9203x - 0,2218 R2 = 0,9312 39 10 Extra oefeningen 2012 © Vervoortboeken Opgave 9.14 Grafische vergelijking van meetmethoden - Valkuilen a alle waarden met methode B zijn groter dan dezelfde van A b y = 1,016x + 1,0096 Vergelijking Hb meetmethoden 2 R = 0,92 20 18 methode B 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 methode A ze komen overeen allen de waarden bij B zijn gemiddeld 1,0 hoger dan die van A c Een van de methodes vertoont een systematische afwijking. Dat kan zowel A als B zijn d het zo niet vast te stellen welke methode afwijkt, je zou de kalibratielijnen per methode moeten bekijken e in het hogere meetgebied wijkt een van de twee methoden af (niet te zeggen welke) Opgave 9.15 40 Vergelijking van meetmethoden volgens Passing en Bablok a het verschil zit alleen in de onzekerheid van helling en snijpunt met de y-as, de formules zijn gelijk b de ideale waarden (1 en 0) liggen binnen de betrouwbaarheidsintervallen, dus de methoden zijn vergelijkbaar c 10 Extra oefeningen 2012 © Vervoortboeken 20 Method comparison 1000 900 800 700 M9 600 500 400 300 200 100 0 0 200 400 600 800 M8 de methodes zijn vergelijkbaar Opgave 9.16 Vergelijking van meetmethoden volgens Deming deming normaal helling 0,97476 helling 1,033429 snijpunt 0,383629 snijpunt -0,46153 correlatie 0,984639 correlatie 0,993386 wat opvalt is dat de Demingregressie een kleinere correlatie geeft en een duidelijk afwijkend snijpunt met de y-as Opgave 9.17 De analyse volgens Bland en Altman a onderste grens = –4,4 – 224,1 = – 52,6 bovenste grens = –4,4 + 224,1 = 43,8 b gemiddeld verschil = –4,4 c –4,4 L/min d Bij de ene serie 4,4 optellen of bij de andere 4,4 eraf halen e nee f n = 10 v = 9 t = 2,26 grens betrouwbaarheidinterval = n 1 24,1 t n 2,26 10 17,2 ondergrens –4,4 – 17,2 = – 21,6 bovengrens –4,4 + 17,2 = 12,8 dus – 21,6 < afwijking < 12,8 g 41 SE = 3 2 = n 3 24,12 13,2 10 10 Extra oefeningen 2012 © Vervoortboeken h 10 -95,8 < onderste grens < 39,4 30,6 < bovenste grens < 57,0 De afwijkingen lijken toch behoorlijk groot Extra oefeningen Opgave 10.1 Boxplot A juist B onjuist C juist D onjuist E juist Opgave 10.2 Stam-blad a w = 50 – 11 = 39 b n = 12, dus de middelste is 6½ mediaan = 22 c modus = 22 Opgave 10.3 Scheef of symmetrisch? A onjuist B onjuist C juist D juist Opgave 10.4 Tijdsduur Een groep van 12 studenten heeft een test gedaan. De tijden dat ze erover gedaan hebben zijn in minuten: 10, 9, 12, 15, 22, 11, 17, 20, 19, 26, 13, 17. Bepaal: a sorteren: 9, 10, 11, 12, 13, 15, 17, 17, 19, 20, 22, 26 dus w = 26 – 9 = 17 15 17 16 b n = 12, dus de middelste is 6½, dus mediaan = 2 c modus = 17 d gemiddelde = 15,92 (ZRM) e standaarddeviatie (populatie) = 4,99 4,99 100 % 31,3 % f variatiecoëfficiënt = 15,92 42 10 Extra oefeningen 2012 © Vervoortboeken Opgave 10.5 Zoutgehalte a 60,00 55,00 50,00 45,00 40,00 35,00 VAR00001 b c Opgave 10.6 SPSS: geen uitschieters 50,39 – 6,70 en 13,3 % b = ½σn-1 = 0,5 × 6,70 = 3,35 dichtstbijzijnde lagere macht van 10 = 1 dus afronden op 0 decimalen, zie tabel 50 – 7 en 13,3 % Autobanden a dus 6,92 % van de banden b 0,0692, dat is 1 op de 14 Opgave 10.7 43 Chloridegehalte variatieco efficient gemiddelde 0,012 7,17 0,08604 mg/L 10 Extra oefeningen 2012 © Vervoortboeken dus (7,11 – 7,23) Opgave 10.8 Cacaogehalte van chocolade a 35 % en 4,24 % 4,24 100 % 12,1 % b variatiecoëfficiënt = 35 c het valt binnen de 2 grenzen, dus de meetmethode is OK d het cacaogehalte is te laag Opgave 10.9 Onderzoek van afvalwater a 26,175 en 0,718 ppm b v = n–1 = 4 – 1 = 3 t = 3,18 0,718 x t n1 26,175 3,18 26,175 1,142 ppm n 4 dus afgerond 25,0 ppm < < 27,3 ppm Opgave 10.10 Controle van een standaardoplossing var iatiecoeff icient gemiddelde 0,02 3,16 0,0632 g/L KMnO4 (g/L) 3,4 3,4 3,3 (g/L) 3,3 3,2 3,2 3,1 3,1 3,0 3,0 2,9 0 2 4 6 8 10 dag dag 7 de 12 – regel: waarschuwing dus geen actie dag 10 de 41 – regel: hier moet actie ondernomen worden 44 10 Extra oefeningen 2012 © Vervoortboeken Opgave 10.11 Reproduceerbaarheid controlemonster (KVE/g) 5,00 4,50 4,00 (KVE/g) 3,50 3,00 2,50 2,00 1,50 1,00 0,50 0,00 0 5 10 15 20 dag dag 4 dag 7 dag 7+8 dag 9(8) t/m 12 dag 15 Opgave 10.12 7e Benzeen in sigaren en sigaretten Nulhypothese: Het benzeengehalte van sigaren is gelijk aan dat van sigaretten H0: µ = 81 g/g Alternatieve hypothese: Het benzeengehalte van sigaren is groter dan dat van sigaretten H1: µ > 81 g/g n 7 t ( x) 81 151 20,6 n-1 9 v=n–1=7–1=6 tabel: tkritisch = 2,45 20,6 > 2,45 dus de nulhypothese wordt verworpen Sigaren bevatten meer benzeen dan sigaretten BIJLAGE Meetgegevens grafisch Opgave B7.1 45 12 – regel waarschuwing geen actie nodig 12 – regel waarschuwing geen actie nodig 24 – regel actieregel 41 – regel actieregel 13 – regel actieregel Verschillende grafische weergaven 10 Extra oefeningen 2012 © Vervoortboeken Opgave B7.2 Zelf een diagram maken a A 5 B 8 AB 4 0 8 b 8 7 6 5 4 3 2 1 0 0 AB Opgave B7.3 B A c een steekproef van 25 is te klein om een uitspraak te doen over een zo grote groep als alle Nederlandse studenten Energieverbruik a PJ = Petajoule = 1015 J Energieverbruik in Nederland in 2006 (PJ) steenkool aardolie aardgas elektriciteit overig 9,9·1016 1,073·1019 1,172·1019 3,20·1018 1,35·1018 b Maak met behulp van Excel een handige grafiek. elektriciteit overig steenkool aardolie aardgas c d Opgave B7.4 46 Totaal verbruik = 99 + 1073 + 1172 + 320 + 135 = 2799 PJ 1073 100 % 38,3 % aardolie = 2799 kernenergie, windenergie, biomassa, waterkracht (import) Verkiezingen 10 Extra oefeningen 2012 © Vervoortboeken a b 17 % betekent tussen 16,5 % en 17,5 %. Voor 17 % heb je dus minstens 0,165 9.838.683 = 1.623.375 stemmen nodig Dat is 0,175 9.838.683 = 1.721.762 stemmen Er stemden 579.490 mensen op de PVV. 579.490 100 % 5,89 % , dat klopt d PVV stemmers = 9.838.683 dus e 5,89 % van 150 = 8,8 = 9 zetels Opgave B7.5 Wiskundecijfers a dan raak je het overzicht compleet kwijt b aantal cijfers 6 t/m 10 = 13 + 12 + 4 + 1 + 1 = 31 totaal aantal = 2 + 2 + 4 + 5 + 8 + 31 = 52 31 voldoendes = 100 % 59,6 % 52 Histogram 16 14 Frequentie 12 10 8 6 4 2 0 2 47 4 6 8 10 Extra oefeningen 10 12 14 16 18 20 2012 © Vervoortboeken Antwoorden Alle antwoorden en uitwerkingen van de opgaven en R-vragen zijn te vinden op de website: www.vervoortboeken.nl 48 10 Extra oefeningen 2012 © Vervoortboeken 1e Bijlage Dixons-test of Q-test Kritische waarden voor losse uitschieters n 3 4 5 6 7 8 9 10 11 Qkritisch 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41 0,39 n 12 13 14 15 16 17 18 19 20 Qkritisch 0,37 0,35 0,34 0,33 0,32 0,31 0,30 0,29 0,28 n 21 22 23 24 25 30 35 40 45 Qkritisch 0,29 0,29 0,28 0,28 0,28 0,26 0,25 0,24 0,23 49 Bijlagen 2012 © Vervoortboeken 2e Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 50 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 Bijlage Z-tabel normaalverdeling 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 Bijlagen 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 2012 © Vervoortboeken 3e Bijlage Student t-tabel T-verdeling Voorbeeld: tweezijdig 95% betrouwbaarheid n=5v=4 Tabel t = 2,78 v = n –1 eenzijdig tweezijdig v 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 51 90% 80% 95% 90% 97,5% 95% 99% 98% 99,5% 99% 3,08 1,89 1,64 1,53 1,48 1,44 1,41 1,40 1,38 1,37 1,36 1,36 1,35 1,35 1,34 1,34 1,33 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28 6,31 2,92 2,35 2,13 2,02 1,94 1,89 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,64 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,05 2,04 2,02 2,00 1,98 1,96 31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,49 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,05 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,85 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58 Bijlagen 2012 © Vervoortboeken 4e Bijlage F - tabel F-waarden 95% betrouwbaarheid tweezijdig vrijheidsgraden grootste standaarddeviatie (v = n – 1) v 1 2 3 4 5 6 7 8 9 10 15 20 60 ∞ 1 647,8 799,5 864,2 899,6 921,8 937,1 984,2 956,7 963,3 968,6 948,9 993,1 1010,0 1018,0 2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,43 39,45 39,48 39,50 3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,70 14,17 13,99 13,90 4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,56 8,36 8,26 5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,33 6,12 6,02 6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5,17 4,96 4,85 7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,57 4,47 4,25 4,14 8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 4,00 3,45 3,67 9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,67 3,20 3,33 10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,42 2,85 3,08 15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,76 2,52 2,40 20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,46 2,22 2,09 60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,06 1,94 1,67 1,48 ∞ 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,83 1,71 1,39 1,00 F-waarden 95% betrouwbaarheid eenzijdig (v = n – 1) vrijheidsgraden grootste standaarddeviatie v 1 2 3 4 5 6 7 8 9 10 15 20 60 ∞ 1 161,4 199,5 215,7 224,6 230,2 234,0 236,77 238,9 240,54 241,88 246,0 248,0 252,2 254,3 2 18,5 19,0 19,2 19,3 19,3 19,3 19,3 19,4 19,38 19,40 19,4 19,4 19,5 19,5 3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,84 8,81 8,79 8,70 8,67 8,57 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,80 5,69 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,56 4,43 4,36 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,87 3,74 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51 3,44 3,30 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,15 3,01 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,94 2,79 2,71 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,84 2,77 2,62 2,54 15 4,54 3,69 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,33 2,16 2,07 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,12 1,95 1,84 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 1,92 1,84 1,64 1,51 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,84 1,75 1,53 1,39 120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,75 1,66 1,43 1,25 ∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,67 1,57 1,32 1,00 52 Bijlagen 2012 © Vervoortboeken 5e Bijlage SPSS Onderzoek van data 1. Start een versie van SPSS. Je komt automatisch in de Data Editor. 2. Type de gegevens in of importeer ze vanuit een tabel in Word of Excel. 3. In de Variable View (tabblad linksonder op het scherm) kun je de meetserie een naam geven. 4. Kies Analyse – Descriptive Statistics – Explore 5. Kies de meetserie(s) die je wilt onderzoeken. 53 Bijlagen 2012 © Vervoortboeken 6. Stel in wat je wilt onderzoeken met het knopje Statistics 7. Vink Outliers (= uitschieters) en Percentiles (= kwartielen enzo) aan. Druk daarna op Continue. 8. Kies Plots en vink Histogram aan. Druk op Continue. 9. Druk tenslotte op OK. 54 Bijlagen 2012 © Vervoortboeken 10. Je krijgt een overzicht van: Descriptives: statische parameters zoals minimum, maximum gemiddelde, mediaan, standaarddeviatie Percentiles: de grenzen van 5, 10, 25, 50, 75, 90 en 95 % van de meetwaarden. Extreme Values: de 5 hoogste en 5 laagste waarden. Het Histogram. Het Stem and Leaf (= Stam en Blad) diagram, met uitschieters aangegeven. De Box Plot, met uitschieters aangegeven. Alle uitslagen kunnen bewaard worden en apart bekeken worden met de SPSS Viewer. Ook kunnen ze gekopieerd worden en bijvoorbeeld in Word worden geplakt. 55 Bijlagen 2012 © Vervoortboeken 6e BIJLAGE Meetgegevens grafisch Gegevens (data) kunnen op verschillende manieren grafisch (in een plaatje) weergegeven worden. Een uitstekend hulpmiddel hiervoor is Excel, het spreadsheetprogramma van Microsoft. Als voorbeeld de frisdrankenvoorkeur van 170 studenten. Frisdranken voorkeur ColaCola Dr.Pepper Light 65 30 20 7Up Sinas Overig 18 20 17 Deze tabel kan in Excel met de grafiekentool in een grafiek worden omgezet. Voorbeelden: Dranken voorkeur studenten Dranken voorkeur studenten B 70 60 Cola 50 A 40 Cola-Light Dr.Pepper 7Up 30 Sinas 20 Overig 10 0 Cola Cola-Light Dr.Pepper 7Up Sinas Overig Dranken voorkeur studenten 17 C Overig Sinas 7Up 20 Dr.Pepper 30 Cola-Light 65 12% 7Up 11% Dr.Pepper 12%Cola-Light 18% 18 Cola 37% Cola 0 Opgave B7.1 56 D 20 Overig Sinas10% Dranken voorkeur studenten 10 20 30 40 50 Verschillende grafische weergaven Welke naam hoort bij de bovenstaande grafische weergaven ? Bijlagen 2012 © Vervoortboeken 60 70 Opgave B7.2 Zelf een diagram maken Van 25 Utrechtse studenten is de bloedgroep bepaald: AB 0 B A A a b c Opgave B7.3 B B 0 0 B A 0 B AB AB 0 A B AB 0 B 0 B 0 A Maak een frequentietabel van deze uitslagen: (frequentie = hoe vaak iedere bloedgroep voorkomt). Maak een geschikt diagram met Excel. Kun je met dit resultaat ook een uitspraak doen over de bloedgroepenverdeling van alle Nederlandse studenten? Leg uit. Energieverbruik Energieverbruik in Nederland in 2006 (PJ) steenkool aardolie aardgas elektriciteit overig 99 1073 1172 320 135 a b c d Opgave B7.4 Schrijf bovenstaande waardes in een wetenschappelijke notatie. Maak met behulp van Excel een handige grafiek. Hoeveel % van ons energieverbruik is afkomstig van aardolie? Waaruit bestaat de categorie “overig”? Verkiezingen In de figuur zie je de uitslag van de Tweede-Kamerverkiezingen in 2006. Totaal brachten 9.838.683 mensen een stem uit. a b Hoeveel mensen hebben minstens SP gestemd? Boven welk aantal wordt het aantal 18%? Tweedekamer 2006 SGP overig PvdD ChristenU D66 2% 1% GroenLin 2% nie2% ks 4% PVV5% 6% CDA 26% VVD 15% SP 17% PvdA 20% Er stemden 579.490 mensen op de PVV. d Klopt het percentage? 57 Bijlagen 2012 © Vervoortboeken e Opgave B7.5 De Tweede Kamer heeft 150 zetels. Hoeveel zetels kreeg de PVV? Wiskundecijfers In de vorige opdrachten maakte de volgorde waarin de gegevens werden weergegeven niet uit. Zie als voorbeeld de frisdrankenvoorkeur van studenten. 70 70 70 60 60 60 50 50 50 40 40 40 30 30 30 20 20 20 10 10 0 10 0 Dr.Pepper Cola-Light Sinas Cola Overig 7Up 0 7Up Cola-Light Cola Dr.Pepper Overig Sinas Overig Cola-Light Sinas Dr.Pepper Vaak maakt de volgorde wel uit. In de tabel hieronder zijn de behaalde cijfers van een wiskundetoets van 52 studenten weergegeven in een frequentietabel. Cijfer 1 2 3 4 5 6 7 8 9 10 Aantal studenten 2 2 4 5 8 13 12 4 1 1 Hieronder zijn twee grafieken weergegeven. 58 Bijlagen 2012 © Vervoortboeken 7Up Cola Cijfers Wiskunde Klas 2A+2B Cijfers Wiskunde Klas 2A+2B 14 15 12 10 10 8 6 5 4 0 2 0 1 a b 2 3 4 5 6 7 8 9 10 Reeks1 1 2 3 4 5 6 7 8 9 10 2 2 4 5 8 13 12 4 1 1 Waarom is het in dit geval niet verstandig de plaatsen van de kolommen te wisselen? Een staafdiagram (van een variabele) waarvan de staven zo breed zijn dat ze tegen elkaar staan heet een histogram. Histogram 16 14 Frequentie 12 10 8 6 4 2 0 2 4 6 8 10 12 14 16 18 20 Teken zelf een histogram van de wiskundecijfers uit de vorige opgave. B7.1 S1 S2 S3 59 Welke soorten Excel grafieken zijn bruikbaar bij statistisch onderzoek en waarom? Wat is een frequentietabel? Hoe gebruik je die? Wat is het verschil tussen een staafdiagram en een histogram? Bijlagen 2012 © Vervoortboeken
© Copyright 2025 ExpyDoc