Cijfer lijsters - Thomas Boeschoten

29-7-2014
(1) Blendle
DINSDAG 8 JULI 2014
Media Beschouwing Datajournalistiek
Cijfer lijsters
Het factchecken veranderde een paar jaar geleden het
politieke debat. Nu worden de WK-analisten ontmaskerd.
De datafetisjisten rukken op.
DOOR HARO KRAAK BEELD NADJA KIEFT
Op een avond zoals er zo veel waren de laatste tijd schoof Mart Smeets aan op
de rode bank van Studio Brasil. Smeets houdt niet van voetbal, dat zegt hij
graag. Hij is de man van het basketballen, het schaatsen en het fietsen, maar
voetbal - nee, laat dat maar aan anderen over.
Niettemin nam hij plaats naast Henry Schut om te praten over voetbal. En
als Smeets iets zegt, doet hij dat met overtuiging. Over Mario Balotelli
bijvoorbeeld, spits van het Italiaanse elftal: 'Deze man is in staat om in 27
doelpogingen - ik heb ze geteld - 8 keer te scoren. Dat is een gigantisch hoog
gemiddelde. Er zijn weinig voetballers in de wereld die dat kunnen.'
Verfrissend zo'n uitspraak: het is altijd fijn als iemand in een
praatprogramma uitstijgt boven de vrijblijvende anekdotiek en kroegpraat
die het genre domineren. Nergens wordt zo veel lucht gebakken en
verplaatst als in voetbalanalyses op tv. Als iemand dus eens wat keiharde
feiten en cijfers erbij pakt, levert dat meestal nieuwe, interessante inzichten
op.
Als de cijfers kloppen tenminste.
Thomas Boeschoten (27) kreeg via Twitter de vraag of dat zo was. Als
datadocent van de Universiteit Utrecht en blogger van catenaccio.nl buigt hij
zich regelmatig over statistieken. Hij kwam er snel achter dat Smeets niet
goed kan tellen. Het aantal schoten was onduidelijk (op doel of niet?) en het
aantal doelpunten klopte ook al niet. Sterker, gekeken naar een heel seizoen
scoorde Balotelli ondergemiddeld.
'Mart Smeets neemt zijn collega's de maat', schreef Boeschoten, 'maar
heeft ondertussen geen flauw idee wat de betekenis is van de gegevens die hij
zelf op televisie bespreekt. Hij bejubelt een speler op basis van onduidelijk
https://blendle.nl/#item/bnl-vkn-20140708-3358319
1/5
29-7-2014
(1) Blendle
gedefinieerde statistieken die hij lukraak interpreteert.'
De cijfermatige afrekening was tekenend voor dit WK: aan alle kanten
rukken de datafetisjisten op, ze pikken de lege hulzen en
nattevingeranalyses van het leger aan voetbaldeskundologen niet meer. En
dat slaat aan: in de digitale kiosk Blendle verkopen de sportstukjes van
catenaccio.nl beter dan die van De Telegraaf. Op Twitter houden talloze
accounts duizenden volgers realtime op de hoogte van de laatste feitjes.
Zoals het factchecken een paar jaar geleden het politieke debat veranderde, is
nu de arena van WK-analisten aan de beurt.
Bert van Marwijk, bijvoorbeeld, dacht bij de wedstrijd AustraliëNederland iets slims gesignaleerd te hebben: 'Robben en Van Persie spelen
meer samen dan Messi en Neymar, die alles alleen doen.' Klinkt plausibel.
Toch? 'Nu de feiten', twitterde catenaccio. 'Messi verstuurde 70 passes,
Neymar gemiddeld 36, Van Persie 24 en Robben 23. Aantal kansen voor
ploeggenoten gecreëerd: Messi 4, Neymar 3, Robben 2 en Van Persie 0.'
Ook de publieke opinie wordt onder vuur genomen: 'Voor de mensen die
denken dat Kuyt de meeste meters maakte', twitterde Tussen de linies, een
ander blog over voetbalstatistieken. 'Robben: 10.258 m, Wijnaldum: 10.114 m,
Blind: 10.103 m, Sneijder: 9.912 m, Kuyt: 9.695 m.'
Zelfs tijdens totale euforie beroepen dit soort liefhebbers zich op harde
data, getuige een tweet van Tussen de linies, direct na de 2-1 tegen Mexico:
'JAAAAAAAAAA! KLAAS-JAN HUNTELAAR! 5 balcontacten, één assist, één goal!'
De opmars van data in sportverslaggeving beperkt zich niet tot
Nederland. Met name in de Verenigde Staten, maar ook in Duitsland en
Engeland, is dezelfde tendens waar te nemen. Traditionele kranten als The
Washington Post wagen zich aan sportdata, maar ook zakenbank Goldman
Sachs doet WK-voorspellingen. Statisticus Nate Silver, bekend van griezelig
precieze voorspellingen van de Amerikaanse verkiezingen, maakte met zijn
blog FiveThirtyEight in 2013 onder veel bombarie de overstap van The New
York Times naar ESPN. De WK-voorspellingen zitten er vaak genoeg naast,
maar er staan ook veel interessante data-artikelen op de site.
Zo was een doorwrochte analyse van de prestaties van Messi vorige week
één van de populairste stukken online. De auteur kwam tot de conclusie dat
Messi zo goed is dat hij 'onmogelijk is'. Een grafiek van het totale aantal goals
en assists ten opzichte van het aantal gespeelde wedstrijden sinds het WK
van 2010, liet zien dat Messi samen met Ronaldo op eenzame hoogte staat.
Hun stipjes waren zo ver verwijderd van de amorfe massa dat het haast
https://blendle.nl/#item/bnl-vkn-20140708-3358319
2/5
29-7-2014
(1) Blendle
lachwekkend was. En zo waren er nog talloze andere grafieken waarin het
Messi-stipje als een eenzame ster aan de hemel stond.
De grafieken tonen dat data pas echt tot leven komen door geslaagde
visualisaties. Een kale opsomming zegt - in een oogopslag - weinig. Sinds dit
WK is de heatmap helemaal ingeburgerd: een warmtekaart waarop
inzichtelijk is gemaakt waar de spelers liepen. Henk Hoijtink van Trouw
schreef dat de Italiaanse middenvelder Pirlo zich op een 'bar klein gedeelte
van het veld voortbewoog'. Catenaccio twitterde snel de heatmaps: de
waarheid liet weinig heel van de bewering.
Ook interessant: de wave-visualisaties van statistiekbureau Infostrada
Sports. Aan beide kanten van een lijn is aan de hand van de aanvallende
productie van twee ploegen - schoten, corners, vrije trappen, et cetera - de
fluctuaties van een wedstrijd te zien. In de wedstrijden van Nederland tegen
Chili en Mexico viel het bijvoorbeeld op dat het aanvallende vermogen van de
tegenstanders van Oranje zeer vlak en mat was. 'Critici zeggen dat Nederland
pas na die 1-0 goed begon te voetballen', schreef analist Simon Gleave in zijn
datarubriek De Zestien op volkskrant.nl, 'maar voor de 1-0 was het solide.' De
datagolven toonden zijn gelijk.
Het gebruik van data in sport is niet nieuw. In sporten als honkbal en
basketbal is het niet vreemd als een transfer puur op statistieken is
gebaseerd. Ook in het voetbal wordt steeds meer gewerkt met analyses op
basis van tot cijfers gereduceerde prestaties. En op tv zien we al een aantal
jaar allerlei statistieken in beeld: het aantal meters dat een speler heeft
afgelegd, het aantal passes dat is aangekomen, het aantal schoten op het
doel, het percentage balbezit.
Toch heeft het betrekkelijk lang geduurd tot statistieken doordrongen in
de reguliere verslaggeving. Kale cijfers zijn niet altijd verhalen en dat is waar
het allemaal om draait in de sportjournalistiek. Niet zelden zijn
krantenjournalisten wars van cijfers.
Nu is de tijd rijp: data zijn overal voorhanden. Via bureaus als Opta en
Infostrada komen allerlei statistieken online. Openbare bronnen als
squawka.com, whoscored.com, Four Four two Stats Zone van de site
fourfourtwo.com, statsbomb.com en de FIFA zelf bieden een eindeloze
hoeveelheid aan datasets. In wezen kan iedere liefhebber datajournalistiek
bedrijven. En dat is ook vaak het geval.
'Je ziet dat veel wetenschappers, statistici en andere mensen die handig
zijn met data, veelal jonge enthousiastelingen, in hun vrije tijd journalistiek
https://blendle.nl/#item/bnl-vkn-20140708-3358319
3/5
29-7-2014
(1) Blendle
bedrijven', zegt Michiel de Hoog, die op basis van data over voetbal schrijft
voor De Correspondent en de Volkskrant. 'In Amerika heb je Colin Trainor,
een accountant, en James Grayson, een wetenschapper, die interessante
voetbalblogs schrijven. Zelf werk ik samen met Sander IJtsma, die chirurg is.
Hij doet de cijfermatige analyses erbij voor de lol. Ik schrijf het verhaal.'
Het verhaal van datajournalistiek in de sport is tot dusver het verhaal van
de rebellen versus de gevestigde orde. Vooral catenaccio.nl maakt er een
sport van de grijze mannen op tv en van de krant op hun plek te zetten. 'Ons
werk
komt
voort
uit
een
frustratie
over
wat
ontbreekt
in
de
sportjournalistiek', zegt Boeschoten, een van de drie vaste redacteuren van
Catenaccio. 'Veel journalisten doen hun huiswerk niet. Er zijn veel analisten
of commentatoren die zich verspreken of het verkeerd zien - dat is menselijk,
dat kan gebeuren. Maar ik ben allergisch voor mensen die dik worden
betaald en zich slecht voorbereiden.'
Als voorbeeld noemt hij het ontbreken van Daryl Janmaat in de wedstrijd
tegen Mexico. 'Niemand begreep dat bij de NOS. Maar als je even naar de
statistieken kijkt, zie je dat zijn passzuiverheid tegen Chili beroerd was:
slechts 53 procent.' Toen Youri Mulder Bruno Martins Indi kopsterk noemde,
factcheckte Boeschoten de bewering: de verdediger verloor tijdens het WK
alle drie zijn kopduellen. En in de eredivisie verloor hij 24 van 49 kopduels.
'Mulder roept dat alleen omdat Martins Indi 1.87 meter is.'
Data kunnen volgens Boeschoten op twee manieren worden gebruikt: om
mythes te ontkrachten of te bevestigen. En om nieuwe inzichten te
verschaffen. Boeschoten: 'Na de wedstrijd AC Milan-Ajax zei Louis van Gaal dat
Nigel de Jong te veel balverlies leed. Maar hij bleek een passzuiverheid van
100 procent te hebben. En hij werd ook nauwelijks van de bal gezet. Dat komt
door het beeld dat van zo'n speler bestaat: een botte werker, tikkeltje lomp,
geen fijnzinnige passer. Met data kun je de beeldvorming rechtzetten.' Toch
zijn data niet zaligmakend. Verkeerde interpretaties zijn snel gemaakt.
'Assists worden nog steeds veel gebruikt als graadmeter', zegt De Hoog. 'Maar
we weten allang dat het een onnauwkeurige variabele is. Als een briljante
voorzet niet wordt afgemaakt, is het immers geen assist. Je bent als
voorzetter afhankelijk van de spits.'
Boeschoten stoort zich vooral aan feiten zonder context. 'Er wordt vaak
gestrooid met cijfers zonder dat het in een breder verhaal past. We weten dat
er geen enkele relatie is tussen balbezit en de uitslag, toch wordt dat
percentage er telkens bij gepakt. Bij Duitsland-Portugal werd gezegd dat het
https://blendle.nl/#item/bnl-vkn-20140708-3358319
4/5
29-7-2014
(1) Blendle
gelijk opging omdat ze allebei dertien schoten hadden gelost. Maar er werd
niet vermeld dat Duitsland van veel kansrijkere posities schoot. Cristiano
Ronaldo schoot uit onmogelijke hoeken.'
Hij stelt voor iedere tv-analist te koppelen aan een statisticus. 'Samen
kijken ze naar de wedstrijd en testen de interpretaties van de analist.' Is dit
een open sollicitatie? Lachend: 'Nou, we hebben de NOS zo vaak afgezeken dat
ik elke illusie heb laten varen dat we nog worden uitgenodigd.'
1-5 in data
Na de 1-5 van Spanje-Nederland toonde The New York Times overtuigend
aan hoe hoog op het veld de Spanjaarden verdedigden, waardoor Oranje de
mogelijkheid kreeg met dieptepasses aanvallen op te zetten: 14 schoten,
waarvan 11 op het doel en 5 in het doel. In een fotosequentie werd de kopgoal
van Van Persie en de assist van Blind in beeld gebracht. Overigens schatte The
Washington Post de kansen van Nederland vooraf slecht in: Oranje zou niet
door de groepsfase komen vanwege een onhoudbaar doelpuntenratio
(weinig kansen, veel doelpunten). Ook data kunnen ernaast zitten.
https://blendle.nl/#item/bnl-vkn-20140708-3358319
5/5