College Statistiek 2

Statistiek 2 – deel A
30 minuten over statistisch toetsen
R.J. Baars, MSc
Kruytgebouw N710
[email protected]
februari 2014
Opbouw van statistiek
 Statistiek 1
(periode 2: vandaag)
– Dit college + zelfstudie + thuisopdracht
 Statistiek 2
(periode 3: 3/10/17 februari)
– Mini-college 1: statistisch toetsen
– Mini-college 2: Powerfit en ijklijnen
– Mini-college 3: Harris en verder
 “Statistiek 3”
(periode 3: 12 maart)
– Toetsvraag in de Harris-toets
Thuisopdracht 2
 Wat heb je er voor nodig? Zie practicum.chem.uu.nl/
– 3 mini-colleges (vooral deze)
– Handleiding Statistiek 1
– Dictaat Statistiek voor Chemici
 Hoe, wanneer en waar lever je het in?
– uiterlijk 28 februari 2014, 17:00, op papier, Kruytgebouw
N710
SUCCES!
De zin van statistiek
 Stellen van de juiste vragen
– Is mijn steekproef wel representatief voor de populatie?
– Zijn mijn twee steekproeven hetzelfde?
– Heb ik uitschieters in mijn meetgegevens?
 Iedere omstandigheid heeft een juiste vraag nodig, en
een juiste toets.
4
Statistisch toetsen
R,I = Ratio, Interval
O = Ordinaal
N = Nominaal
Doel
beschrijving van
één groep
vergelijk van één
groep met theorie
R,I
NV
R,I
O
σ niet bekend
z-test
t-test
N
vergelijk van meer
dan twee groepen
correlatie tussen
twee variabelen
voorspellingen
ANOVA (+ variaties),
Kruskal-Wallis test,
Friedman test,
Cochrane Q, e.a.
N
R,I
onafhankelijk
(ongepaard)
R,I
O
Wilcoxon
test
afhankelijk
(gepaard)
NNV
N
R,I
O
N
logistische
regressie
Fisher’s test
O
χ2-test
NV
gemiddelde,
st.dev.
N
niet-parametrische
regressie
R,I
NV
O
(niet-)lineaire
regressie
NNV
σ bekend
O
vergelijk van twee
groepen
NV = Normaal Verdeeld
NNV = Niet NV
mediaan,
kwartielen
σ bekend
σ niet bekend
frequenties
z-test
(2 groepen)
t-test
(2 groepen)
NNV
NV
NV
NNV
t-test
(gepaard)
MannWhitney test
McNemar’s
test
Wilcoxon
test
NNV
Spearman
correlatie
Pearson
correlatie
kruistabel
N
Statistisch toetsen
 t-toets voor één steekproef (al bij Statistiek 1)
 t-toets voor twee steekproeven
– gelijke variantie
– ongelijke variantie
 F-toets voor varianties (zie dictaat)
 Dixon Q-toets voor uitschieters
t-toets voor één steekproef
 “Is mijn steekproef representatief voor de populatie?”
oftewel “Wijkt 𝑥 significant af van 𝜇?”
 Nodig: 𝜇, 𝑥 , s en n. Bereken toetsvariabele 𝑡 =
𝑥−𝜇
𝑠/ 𝑛
 Zoek kritieke waarde van t op (bv. in Harris) bij het juiste
aantal vrijheidsgraden ν = n − 1 en α = 0.05 (95%
betrouwbaarheid, tweezijdig)
 Als tberekend < tkritiek, dan is er geen significant verschil
tussen 𝑥 en 𝜇.
Grafische weergave van t-toets
t-verdeling met ν = 5
Toetsvariabele 𝑡 =
𝑥 −𝜇
𝑠/ 𝑛
Kritieke t-waarde
(α = 0.05, tweezijdig)
t = 2,571
95% gebied
Alle t-waarden binnen dit gebied (t < tkritiek)
duiden op geen significant verschil.
Intermezzo: eenzijdig vs. tweezijdig
t-verdeling met ν = 5
tweezijdig
95% gebied
eenzijdig
95% gebied
tkritiek
← −∞
tkritiek
Voor tweezijdig: tkritiek = 2,571
Toetsvraag: 𝑥 ≠ 𝜇
Voor eenzijdig:
Toetsvraag: 𝑥 > 𝜇 of 𝑥 < 𝜇
(α = 0.05)
(α = 0.05)
tkritiek = 2,015
Let op of tabellen t-waarden voor eenzijdige of tweezijdige onzekerheid geven.
Harris geeft tweezijdig. Desnoods omrekenen: tα,tweezijdig= t2α,eenzijdig.
t-toets voor twee steekproeven
 “Verschillen twee steekproef significant van elkaar?”
oftewel “Wijkt 𝑥A af van 𝑥B ?”
 Bepaal of de steekproeven uit een populatie met gelijke
variantie zijn genomen (F-toets):
– Gelijk
𝜎2A = 𝜎2B
Ongelijk
𝜎2A ≠ 𝜎2B
 Verder hetzelfde als anders: bereken t, zoek kritieke t op
en vergelijk. Als tberekend < tkritiek , dan is er geen significant
verschil tussen 𝑥A en 𝑥B .
t-toets voor twee steekproeven
 Toetsvariabele

𝜎2
A
=
𝜎2
B
𝑡=
𝑥A −𝑥B
𝑆AB
𝑆AB =
1
𝑛A
+
1
𝑛B
𝑛A −1 𝑠2 A +(𝑛B −1)𝑠2 B
𝑛A +𝑛B −2
𝜈 = 𝑛A + 𝑛B − 2

𝜎2
A
≠
𝜎2
B
𝑆AB =
𝜈=
𝑠2A
𝑛A
𝑠2A
𝑛A
+
𝑠2B
+𝑛
B
𝑠2B
𝑛B
2
𝑠2 A
𝑛A
2
𝑛A −1
+
 Varianties gelijk? Pas F-toets toe (zie dictaat)
𝑠2 B
𝑛B
2
𝑛B −1
Intermezzo: histogram
 Steekproef met n = 22 (waarden in mL)
 Hoe geef je dit slim grafisch weer?
10,8
10,5
10,2
10,4
10,6
10,4
10,7
10,9
10,3
10,3
10,8
10,4
10,6
10,7
10,5
10,1
10,6
10,5
10,6
10,5
10,5
11,3
Intermezzo: histogram
 Indelen in klassen
Klasse
(mL)
Aantal
10,0 – 10,2
2
10,2 – 10,4
5
10,4 – 10,6
9
10,6 – 10,8
4
10,8 – 11,0
1
11,0 – 11,2
0
11,2 – 11,4
1
10
Aantal
8
6
4
2
0
Klassen (mL)
 Kies klassenbreedte met makkelijke getallen, niet te klein en
niet te groot (of bekijk officiële procedure in het dictaat).
Intermezzo: histogram
 Indelen in klassen
Klasse
(mL)
Aantal
10,0 – 10,2
2
10,2 – 10,4
5
10,4 – 10,6
9
10,6 – 10,8
4
10,8 – 11,0
1
11,0 – 11,2
0
11,2 – 11,4
1
10
Aantal
8
6
4
2
0
Klassen (mL)
 Kies klassenbreedte met makkelijke getallen, niet te klein en
niet te groot (of bekijk officiële procedure in het dictaat).
Dixons Q-test voor uitschieters
 “Is er een significant afwijkende meetwaarde in mijn
steekproef aanwezig?”
 Statistisch verantwoord negeren van een dergelijke
uitschieter
10,2
10,8
10,6
10,4
10,9
10,6
10,3
10,5
10,7
10,1
10,6
10,6
10,4
10,4
10,5
10,7
10,5
10,8
10,5
10,5
10,3
11,3
Stap 1: sorteer de waarden zodat de verdachte waarde
voorop staat (hoog naar laag, of laag naar hoog)
11,3 10,9 10,8 10,8 … 10,3 10,3 10,2 10,1 mL
Dixons Q-test voor uitschieters
Stap 2: zoek op wat je moet berekenen (zie dictaat)
Qberekend
Qkritiek
Dixons Q-test voor uitschieters
 Voor n = 22, bereken Q = (x3 − x1)/(xn−2 − x1)
 11,3 10,9 10,8 10,8 … 10,3 10,3 10,2 10,1
mL
Stap 3: vergelijk Q’s en trek conclusie
 Qberekend = (10,8 − 11,3)/(10,3 − 11,3) = 0,500
Qkritiek = 0,430
 Als Qberekend < Qkritiek dan geen significante uitschieter.
 Hier: wel uitschieter! Dus: weglaten in de berekening van
gemiddelde, st.dev., 95%-betrouwbaarheidsgebied, etc.