Statistische paradoxen in de rechtszaal

Bayesiaanse statistiek
Statistische paradoxen in de rechtszaal
Charlotte Vlek
Rijksuniversiteit Groningen
1 februari, 2014
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
Amerikaans burgerrecht: aanklager wint als zijn claim
waarschijnlijker is dan niet (>50%).
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• 499 personen kochten een kaartje van 20
dollar voor een voetbalwedstrijd
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• 499 personen kochten een kaartje van 20
dollar voor een voetbalwedstrijd
• er zaten 1000 personen in het stadion ten
tijde van de wedstrijd
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• 499 personen kochten een kaartje van 20
dollar voor een voetbalwedstrijd
• er zaten 1000 personen in het stadion ten
tijde van de wedstrijd
• 501 personen hebben dus zonder te
betalen de wedstrijd gezien
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• 499 personen kochten een kaartje van 20
dollar voor een voetbalwedstrijd
• er zaten 1000 personen in het stadion ten
tijde van de wedstrijd
• 501 personen hebben dus zonder te
betalen de wedstrijd gezien
Tegen elk van de 1000 bezoekers kan de eigenaar van het stadion
een rechtszaak winnen met een kans van 0,501 dat die bezoeker in
overtreding was.
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• iedereen die in overtreding was moet het
geld voor een kaartje (20 dollar)
terugbetalen aan de eigenaar
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• iedereen die in overtreding was moet het
geld voor een kaartje (20 dollar)
terugbetalen aan de eigenaar
• de eigenaar krijgt 1000 keer 20 dollar,
terwijl hij maar 501 kaartjes had
misgelopen
Bayesiaanse statistiek
De gatecrasher paradox
Hoe de eigenaar van een voetbalstadion winst maakt.
• iedereen die in overtreding was moet het
geld voor een kaartje (20 dollar)
terugbetalen aan de eigenaar
• de eigenaar krijgt 1000 keer 20 dollar,
terwijl hij maar 501 kaartjes had
misgelopen
• kortom: de eigenaar krijgt 499 kaartjes
dubbel uitbetaald: een winst van
499 · 20 = 9980 dollar
Bayesiaanse statistiek
Kansen in de rechtszaal
Beruchte zaken met statistiek:
• Lucia de B.: kans dat zoveel overlijdensgevallen per toeval
plaatsvonden tijdens de diensten van Lucia: 1 op 342 miljoen
• Sally Clark: kans op 2 keer wiegendood: 1 op 73 miljoen
(want 1 op 8500 gekwadrateerd)
Bayesiaanse statistiek
Kansen in de rechtszaal
Kansen in de rechtszaal: waarom?
• Een forensisch expert rapporteert forensisch
bewijs aan de rechter
• De forensisch expert rapporteert dan ook de
onzekerheid van de vondst
• Ons onderzoek gaat over methodes waarmee de
rechter (niet geschoold in statistiek) kan
redeneren met deze onzekerheid
Bayesiaanse statistiek
Kansen in de rechtszaal
• DNA-bewijs: onzekerheid wordt uitgedruk in
random match probability
• Random match probability: de kans dat de
gevonden match er zou zijn terwijl het DNA niet
van de verdachte afkomstig is.
• Dat is dus niet de kans op schuld of onschuld!
Bayesiaanse statistiek
Kansen in de rechtszaal
Voorbeelden:
• Vaatstra-zaak: kans op DNA match terwijl het
DNA niet van Jasper S. was: 1 op 1500 miljard
miljard
• Anjumer moordzaak: DNA uit bloed op hamer
matchte met DNA van slachtoffer. Random
match probability: 1 op 1700
• O.J. Simpson: de kans dat een vrouw die
slachtoffer is van huiselijk geweld wordt
vermoord door de huiselijk geweldspleger is 1 op
2500
Bayesiaanse statistiek
O.J. Simpson-zaak
• De kans dat een vrouw die slachtoffer is van huiselijk geweld,
wordt vermoord door de huiselijk geweldspleger is 1 op 2500
Bayesiaanse statistiek
O.J. Simpson-zaak
• De kans dat een vrouw die slachtoffer is van huiselijk geweld,
wordt vermoord door de huiselijk geweldspleger is 1 op 2500
• De rechter concludeerde: de kans dat O.J. Simpson zijn vrouw
heeft vermoord, is 1 op 2500
Bayesiaanse statistiek
O.J. Simpson-zaak
• De kans dat een vrouw die slachtoffer is van huiselijk geweld,
wordt vermoord door de huiselijk geweldspleger is 1 op 2500
• De rechter concludeerde: de kans dat O.J. Simpson zijn vrouw
heeft vermoord, is 1 op 2500 Prosecutor’s fallacy!
Bayesiaanse statistiek
O.J. Simpson-zaak
• De kans dat een vrouw die slachtoffer is van huiselijk geweld,
wordt vermoord door de huiselijk geweldspleger is 1 op 2500
• De rechter concludeerde: de kans dat O.J. Simpson zijn vrouw
heeft vermoord, is 1 op 2500 Prosecutor’s fallacy!
• We weten dat de vrouw dood is. Gegeven dit feit, wat is de
kans dat zij vermoord is door O.J. Simpson?
Bayesiaanse statistiek
Bayesiaanse statistiek
• Bayesiaans vs. frequentistisch: subjectief (met de kennis die ik
heb schat ik de kans op...) vs. objectief (gegeven de data is
de kans...)
• Bayesiaanse statistiek kan laten zien hoe kansen veranderen
doordat nieuwe kennis wordt toegevoegd
• ... in de rechtszaal: hoe de kans op een hypothese H
verandert na bewijsstuk E
• Het draait dan om a priori kansen (vooraf ingeschat) en a
posteriori kansen (na het bewijs)
Bayesiaanse statistiek
A priori en a posteriori
Voorbeeld: de Vaatstra-zaak
• Ruim 8000 mannen stonden DNA af in grootschalig
onderzoek.
• Jasper S. was een van hen, tot dan toe nog niet speciaal
verdacht
• A priori kans dat Jasper S. de dader was: ongeveer
1
8000
= 0, 000125
• DNA-match met random match probability van 1 op 15
miljard miljard
• A posteriori kans dat Jasper S. dader was: bijna 1.
Bayesiaanse statistiek
Voorwaardelijke kansen
De a posteriori kans is een voorwaardelijke kans.
• P(H) is de kans op hypothese H
• P(¬H) is de kans op niet H. P(¬H) = 1 − P(H)
• P(H|E ) is de voorwaardelijke kans op H gegeven E
P(H|E ) =
• A priori: P(H)
• A posteriori: P(H|E )
P(H, E )
P(E )
Bayesiaanse statistiek
De regel van Bayes
Van a priori naar a posteriori: met de regel van Bayes
P(H|E ) =
P(E |H)P(H)
P(E )
Bayesiaanse statistiek
De Vaatstra-zaak met Bayes
• H: Jasper S. is de dader, E : DNA-bewijs
1
• A priori kans: P(H) = 8000
= 0, 000125, het bewijs:
E
¬E
H
1
0
¬H
6, 67 · 10−20
(1 − 6, 67 · 10−20 )
• A posteriori kans:
P(H|E ) =
P(E |H)P(H)
P(E )
1 · 0, 000125
1 · 0, 000125 + 6, 67 · 10−20 · (1 − 0, 000125)
= 0, 999999999999999472...
=
Bayesiaanse statistiek
Opdrachten
Maak opdracht 1 t/m 3
Bayesiaanse statistiek
Opdrachten
Maak opdracht 1 t/m 3
1. Regel van Bayes
2. Welk taxibedrijf krijgt de boete?
Bayesiaanse statistiek
Opdrachten
Maak opdracht 1 t/m 3
1. Regel van Bayes
2. Welk taxibedrijf krijgt de boete? Het groene taxibedrijf
Bayesiaanse statistiek
Opdrachten
Maak opdracht 1 t/m 3
1. Regel van Bayes
2. Welk taxibedrijf krijgt de boete? Het groene taxibedrijf
3. Is de kans op Adams als schuldige voldoende overtuigend?
Bayesiaanse statistiek
Opdrachten
Maak opdracht 1 t/m 3
1. Regel van Bayes
2. Welk taxibedrijf krijgt de boete? Het groene taxibedrijf
3. Is de kans op Adams als schuldige voldoende overtuigend?
Nee, de kans is 0,84
Bayesiaanse statistiek
Nogmaals de Adams-zaak
Een veroordeling in een strafzaak moet altijd steunen op tenminste
twee bewijsstukken. In de Adams-zaak bijvoorbeeld:
• DNA-match
• Oslo-confrontatie: slachtoffer herkende verdachte niet
• Verklaring vriendin van verdachte: hij was bij haar die avond
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bijvoorbeeld in de Sally Clark zaak:
• Sally Clark verloor plotseling twee van haar kinderen, mogelijk
aan wiegendood
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bijvoorbeeld in de Sally Clark zaak:
• Sally Clark verloor plotseling twee van haar kinderen, mogelijk
aan wiegendood
• Men vond dit verdacht en klaagde haar aan voor moord
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bijvoorbeeld in de Sally Clark zaak:
• Sally Clark verloor plotseling twee van haar kinderen, mogelijk
aan wiegendood
• Men vond dit verdacht en klaagde haar aan voor moord
• 1 op 8500 kinderen overlijdt aan wiegendood, dus een kans
van 0,00012
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bijvoorbeeld in de Sally Clark zaak:
• Sally Clark verloor plotseling twee van haar kinderen, mogelijk
aan wiegendood
• Men vond dit verdacht en klaagde haar aan voor moord
• 1 op 8500 kinderen overlijdt aan wiegendood, dus een kans
van 0,00012
• De kans dat twee kinderen overlijden aan wiegendood:
0, 000122 = 0, 000000014
Bayesiaanse statistiek
Afhankelijkheden tussen bewijsstukken
In berekeningen moeten we rekening houden met afhankelijkheden
Bijvoorbeeld in de Sally Clark zaak:
• Sally Clark verloor plotseling twee van haar kinderen, mogelijk
aan wiegendood
• Men vond dit verdacht en klaagde haar aan voor moord
• 1 op 8500 kinderen overlijdt aan wiegendood, dus een kans
van 0,00012
• De kans dat twee kinderen overlijden aan wiegendood:
0, 000122 = 0, 000000014 Niet onafhankelijk!
• Later bleek: wiegendood heeft een genetische factor
Bayesiaanse statistiek
Bayesiaanse netwerken
• Met een Bayesiaans netwerk kunnen we
(on)afhankelijkheden vangen in een
gerichte graaf
Bayesiaanse statistiek
Bayesiaanse netwerken
• Met een Bayesiaans netwerk kunnen we
(on)afhankelijkheden vangen in een
gerichte graaf
• Een gerichte graaf bestaat uit
• een collectie knopen V = {V1 , V2 , ...}
Verkrachter
Match
Bayesiaanse statistiek
Bayesiaanse netwerken
• Met een Bayesiaans netwerk kunnen we
(on)afhankelijkheden vangen in een
gerichte graaf
• Een gerichte graaf bestaat uit
• een collectie knopen V = {V1 , V2 , ...}
• Een knoop heeft verschillende waarden,
bijvoorbeeld waar en onwaar
Verkrachter
Match
Bayesiaanse statistiek
Bayesiaanse netwerken
• Met een Bayesiaans netwerk kunnen we
(on)afhankelijkheden vangen in een
gerichte graaf
• Een gerichte graaf bestaat uit
• een collectie knopen V = {V1 , V2 , ...}en
• een collectie paren van knopen: de pijlen
E = {(V1 , V2 ), (Vi , Vj )...}
• Een knoop heeft verschillende waarden,
bijvoorbeeld waar en onwaar
Verkrachter
Match
Bayesiaanse statistiek
Bayesiaanse netwerken
• Met een Bayesiaans netwerk kunnen we
(on)afhankelijkheden vangen in een
gerichte graaf
• Een gerichte graaf bestaat uit
• een collectie knopen V = {V1 , V2 , ...}en
• een collectie paren van knopen: de pijlen
E = {(V1 , V2 ), (Vi , Vj )...}
• Een knoop heeft verschillende waarden,
bijvoorbeeld waar en onwaar
• De pijlen geven (on)afhankelijkheden
tussen variabelen aan
Verkrachter
Match
Bayesiaanse statistiek
Bayesiaanse netwerken: de kansen
Tabellen voor elke knoop geven de kansen:
Verkrachter = waar
Verkrachter = onwaar
0,0000025
0,9999975
Verkrachter
Match
Bayesiaanse statistiek
Bayesiaanse netwerken: de kansen
Tabellen voor elke knoop geven de kansen:
Verkrachter = waar
Verkrachter = onwaar
0,0000025
0,9999975
Verkrachter
Match
Match = waar
Match = onwaar
Verkrachter = waar
1
0
Verkrachter = onwaar
0,0000005
0,9999995
Bayesiaanse statistiek
Bayesiaanse netwerken
Een Bayesiaans netwerk bestaat uit
• Een gerichte, acyclische graaf
• Conditionele kanstabellen voor elke knoop
Bayesiaanse statistiek
Bayesiaanse netwerken
Een Bayesiaans netwerk bestaat uit
• Een gerichte, acyclische graaf
• Conditionele kanstabellen voor elke knoop
Een Bayesiaans netwerk is een compacte representatie van een
simultane kansverdeling over alle variabelen in het domein.
• pa(A) = {B|B → A}
• P(U) = Πni=1 P(Ai |pa(Ai ))
Bayesiaanse statistiek
De Adams-zaak in een BN
Verkrachter
Match
Bayesiaanse statistiek
De Adams-zaak in een BN
Verkrachter
Match
Herkend
Bayesiaanse statistiek
De Adams-zaak in een BN
Vriendin liegt
Verkrachter
Match
Herkend
Getuigenis
Bayesiaanse statistiek
Opdrachten
Maak opdracht 4 en 5
Bayesiaanse statistiek
Verklaring van een verdachte
De Anjumer moordzaak:
• Marjan is eigenaresse van een pension in Anjum
• Beekman is haar buurman
• Het lijk van Leo de Jager wordt aangetroffen in de tuin van
het pension
• Beekman getuigt: Marjan heeft hem verteld dat ze Leo
vermoordde
Bayesiaanse statistiek
Verklaring van een verdachte
De Anjumer moordzaak:
• Marjan is eigenaresse van een pension in Anjum
• Beekman is haar buurman
• Het lijk van Leo de Jager wordt aangetroffen in de tuin van
het pension
• Beekman getuigt: Marjan heeft hem verteld dat ze Leo
vermoordde
Wat als Beekman zelf de schuldige is... zou hij het dan niet ook op
Marjan proberen af te schuiven?
Bayesiaanse statistiek
De Anjumer moordzaak
M needed a
signed contract
B and M
dragged body
to front yard
SCENARIO NODE:
M murdered L
because of
cannabis operation
M had a
cannabis
operation
B and M
wrapped body
in canvas
M called B to
help her with
the body
L was to be front
for cannabis
operation
L might tell
the police
M had a
false contract
M went to
get B
M drugged L
M needed a
signature
M wanted L’s
signature
B returned
late that night
M killed L
L signed form
M gave L
grog
M had access
to Temazepam
M gave L
Temazepam
M dragged L
to front stoop
L’s blood in
the hallway
L had alcohol
in his blood
L was in state
of impotence
L died
M hit L on the
head with a
hammer/stone
L had a
fractured skull
L was hit in the
head with a
hammer
L had high amount
of Temazepam
in blood
M hit L on the
head with a
hammer
M hit L on the
head with a
hammer
M wiped the
hammer
B came to
M’s house
M hit L on the
head with a
stone
L had brain
damage
L died
M wiped the
stone
M hit L on the
head with a
stone
Bayesiaanse statistiek
Verklaring van een verdachte
Marjan
Sleepspoor
Verklaring
• Als Marjan Leo vermoord heeft, zou dit met een hoge kans tot
de verklaring van Beekman leiden
Bayesiaanse statistiek
Verklaring van een verdachte
Marjan
Beekman
Sleepspoor
Verklaring
• Als Marjan Leo vermoord heeft, zou dit met een hoge kans tot
de verklaring van Beekman leiden
• Maar als Beekman Leo vermoord heeft, zou dit ook kunnen
leiden tot de verklaring dat Marjan het heeft gedaan
Bayesiaanse statistiek
Verklaring van een verdachte
Marjan
Beekman
Sleepspoor
Verklaring
• Als Marjan Leo vermoord heeft, zou dit met een hoge kans tot
de verklaring van Beekman leiden
• Maar als Beekman Leo vermoord heeft, zou dit ook kunnen
leiden tot de verklaring dat Marjan het heeft gedaan
• Als Marjan Leo vermoord heeft, zou er vrijwel zeker een
bloederig sleepspoor zijn aangetroffen. Als Marjan Leo niet
vermoord heeft, zou zo’n sleepspoor er niet zijn
Bayesiaanse statistiek
Tenslotte
Vragen, opmerkingen, contact:
• [email protected]
• www.charlottevlek.nl