Weboratie Welleing 1..30

Van veel data, snelle computers en
complexe modellen tot lerende
machines
Van veel data, snelle computers en
complexe modellen tot lerende
machines
Rede
uitgesproken bij de aanvaarding
van het ambt van hoogleraar Machine Learning
aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica
van de Universiteit van Amsterdam
op woensdag  januari 
door
Max Welling
Dit is oratie , verschenen in de oratiereeks van de Universiteit van Amsterdam.
Opmaak: JAPES, Amsterdam
Foto auteur: Jeroen Oerlemans
© Universiteit van Amsterdam, 
Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in
een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze,
hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere manier, zonder
voorafgaande schriftelijke toestemming van de uitgever.
Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel B Auteurswet  j° het Besluit van  juni , St.b. , zoals gewijzigd bij het Besluit van  augustus , St.b.  en artikel  Auteurswet , dient men de daarvoor wettelijk verschuldigde
vergoedingen te voldoen aan de Stichting Reprorecht (Postbus ,  AW Amstelveen). Voor
het overnemen van gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel  Auteurswet ) dient men zich tot de uitgever te wenden.
Mevrouw de rector magnificus,
Mevrouw de decaan,
Geachte leden van het curatorium,
Beste collega’s van het Instituut voor Informatica,
Beste familie en vrienden,
Zeer gewaardeerde toehoorders,
 De dataficatie van onze samenleving
“Big Data”; de term kan u niet ontgaan zijn. Big data is de nieuwe goudmijn.
“Data mijnen” is de activiteit die zijn waarde ontsluit. Zoals olie de industriële
revolutie aandreef, zo is big data de nieuwe grondstof waarop de moderne
economie draait. Jim Gray noemde data-gedreven wetenschappelijk onderzoek het “vierde paradigma” (na experiment, theorie en computer-gedreven
simulatie). De “datascope” is de nieuwe telescoop en microscoop waarmee we
verder en dieper kunnen kijken (zie figuur ). Niet in de fysieke wereld, maar
meer zoals in “The Matrix” in een digitale projectie van onze wereld, een wereld van nullen en enen. Het is duidelijk, de verwachtingen zijn hooggespannen. Is big data een big hype of stevenen we echt af op een maatschappij die
gedomineerd wordt door data? En wat betekent die dataficatie van onze samenleving nu eigenlijk voor ons?

Eerst een paar feiten op een rijtje. De totale hoeveelheid data in de wereld
wordt op dit moment geschat op ongeveer  zettabyte. Dat is ,,,,
,,, =  x  bytes. Als we er even van uitgaan dat de harde
schijf in uw computer  gigabytes (= ½ terabyte = ½ x  bytes) kan bevatten dan zijn dat dus  miljard harde schijven. Zeg even dat een harde schijf
 cm dik is, dan zou de totale stapel harde schijven die alle data van de wereld
bevat even hoog zijn als de afstand tussen de aarde en de maan.
Figuur 
De “Square Kilometer Array” (SKA) radio telescoop is misschien wel het wetenschappelijke experiment dat de grootste hoeveelheid data gaat opleveren in
: ongeveer  exabyte ( bytes) per dag, ofwel een zettabyte per  jaar
(zie figuur ).
Die data-tsunami komt er dus aan. Net zoals de snelheid waarmee computers kunnen rekenen iedere twee jaar verdubbelt (Moore’s wet), zo verdubbelt
ook de hoeveel data in iets minder dan twee jaar. De data-berg is zo groot dat
het onmogelijk is om deze door mensen te laten inspecteren. We moeten dit
dus aan slimme algoritmen overlaten. Maar hoe ontwerp je een slim algoritme? Dit is het domein van “machine learning” (vrij vertaald: kunstmatig
leren), het onderwerp van mijn leerstoel.
Naast sociologische oorzaken zijn er drie technologische redenen te bedenken waarom big data nu zo in de aandacht staat:
. De data explosie
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

.
.
De enorme computerkracht
Sterk verbeterde algoritmen om deze data te analyseren.
Het samenkomen van deze drie factoren gaat het eindelijk mogelijk maken
om de hooggespannen verwachtingen over kunstmatige intelligentie uit de
jaren  waar te maken. Misschien niet precies zoals we ons hadden voorgesteld met op mensen lijkende robots, maar op een manier die misschien nog
wel veel verstrekkender is. Met digitale artsen die beter patiënten kunnen behandelen dan menselijke artsen. Met digitale advocaten die beter in staat zijn
om u in een strafzaak te verdediging dan menselijk advocaten, met zelfrijdende auto’s die geen ongelukken meer maken, met een digitale politie die
heel efficiënt misdaad kan opsporen of kan voorkomen en ga zo maar door.
Om een analogie van Vance Packard te gebruiken: een mes in de handen van
een chirurg redt levens, maar datzelfde mes in de handen van een misdadiger
neemt levens. Het zou dan ook naïef zijn om de gevaren van de dataficatie
van onze samenleving te ontkennen: privacyschendingen, misbruik van persoonsgegevens, discriminatie, het trekken van verkeerde conclusies, de ontmenselijking van de zorg, de verdringing van arbeidsplaatsen door automatische systemen en ga zo maar door.
Big data staat dus voor geweldige mogelijkheden maar tegelijkertijd ook
voor niet te onderschatten gevaren. Deze ontwikkelingen tegen houden is een
futiele strijd, analoog aan het tegenhouden van elektriciteit in de e eeuw.
Maar er voor zorgen dat de gevaren zoveel mogelijk worden onderkend en
ondervangen is wel degelijk mogelijk en verdient onze volle aandacht.
 Wat is mogelijk met big data?
Om het concept big data wat minder abstract te maken laat ik eerst wat voorbeelden de revue passeren. Het eerste voorbeeld komt direct uit de praktijk.
In  ben ik met twee masterstudenten en een studiegenoot een nieuw bedrijfje begonnen, “Scyfer”, dat als doel heeft moderne state-of-the-art machine learning methoden te implementeren in het bedrijfsleven. Onze eerste
klant was een grote Nederlandse bank die zijn klanten betere aanbiedingen
wilde doen. Deze bank heeft miljoenen klanten en verwerkt miljoenen transacties per dag. Wanneer klanten op hun account inloggen krijgen ze een aanbieding te zien, een nieuwe hypotheek bijvoorbeeld. Er zijn een paar honderd
van dat soort producten. Niet iedereen is geïnteresseerd in dezelfde producten. Piet, die  jaar oud is, hoeft waarschijnlijk geen nieuwe hypotheek op
zijn huis, maar misschien wel hulp bij het beheren van zijn bankrekeningen.

MAX WELLING
De bank weet veel over iedere klant: leeftijd, geslacht, samenstelling gezin,
inkomen, woonplaats, hoeveel en hoe grote transacties hij/zij in het verleden
heeft gedaan enzovoort. Ook kent de bank eigenschappen van de mogelijke
producten: prijs, type rekening, looptijd, enzovoort. Bovendien volgt de bank
hoe een klant door de verschillende internetpagina’s heen navigeert, en met
name hoe hij/zij heeft gereageerd op eerdere aanbiedingen. Al deze informatie
kan gebruikt worden om preciezere persoonsgerichte aanbiedingen te doen.
Bijvoorbeeld, als Kees, een getrouwde man van , positief heeft gereageerd
op een aanbieding van de bank om hem te helpen zijn geld te beleggen, dan
heeft deze zelfde aanbieding ook een grote kans van slagen bij Piet van . U
snapt nu misschien ook waarom supermarkten maar al te graag willen dat u
die bonuskaart gebruikt.
Nog een voorbeeld. Stel dat we alle medische gegevens van iedereen centraal beschikbaar hebben voor analyse. Dat wil zeggen, alle bezoekjes naar de
dokter, de symptomen, de diagnose, de behandelingen en medicijnen, het
eindresultaat van de behandeling, maar ook persoonlijke gegevens zoals gewicht, bloeddruk, suikergehalte, huidskleur, aantal kanker gevallen in de directe familie, en in het meest extreme geval ook de genetische informatie. Met
al deze gegevens zouden we voor iedereen persoonlijk heel precies diagnoses
kunnen stellen en medicijnen of therapieën aanbevelen. Anders dan nu het
geval is kunnen we dan de werking van medicijnen zeer nauwkeurig bepalen:
onder welke omstandigheden werkt welke cocktail van medicijnen het beste
voor welke aandoening? Het is in deze zin dat we kunnen spreken van een
“datascope” (figuur ) als metafoor van de microscoop, die veel dieper kan
doordringen in het woud van complexe relaties tussen persoonsgebonden
medische eigenschappen, ziektes, medicijnen en/of therapieën en andere externe factoren zoals geografische locatie.
Figuur 
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

Ten slotte een voorbeeld over veiligheid. In Los Angeles doet de politie aan
“predictive policing”, ofwel het voorspellen waar de volgende golf aan criminaliteit zal plaatsvinden en deze voorkomen door er meer politieagenten te
laten surveilleren. Dit blijkt mogelijk omdat er structuur zit in de manier
waarop golven criminaliteit zich door een stad heen bewegen, niet veel anders
dan de geografische verdeling van naschokken die volgen op een aardbeving.
In Los Angeles heeft dit geleid tot een vermindering van % aan inbraken in
het gebied waar deze techniek is toegepast. Recentelijk heeft ook de Nederlandse politie inbraakinformatie vrijgegeven via internet.
Deze voorbeelden illustreren dat big data de potentie heeft om een eerlijkere, gemakkelijkere, veiligere en gezondere samenleving te creëren. Maar
zo’n krachtige technologie kan niet zonder gevaren zijn. Hierover meer in het
volgende hoofdstuk.
 Wat is gevaarlijk aan big data?
Bij het lezen van de voorbeelden uit het vorige hoofdstuk bekroop u misschien al een “unheimisch” gevoel. Op welke manieren kan de datascope tegen ons gebruikt worden? Gaat de dataficatie van onze samenleving niet veel
te ver? Leidt big data niet tot George Orwell’s “big brother”?
Laten we een aantal doemscenario’s doornemen. Stel een verzekeringsmaatschappij weet de toekomstige centrale patiënten databank te hacken en
krijgt toegang tot alle medische gegevens van alle Nederlanders. Daaruit kan
zij een kans berekenen dat iemand binnen  jaar ernstig ziek wordt. Het zou
dan heel verleidelijk zijn om deze mensen een verzekering te weigeren.
Of neem het voorbeeld van “predictive policing”. Stel dat de politie, gebruik makende van sociale achtergrond, genetische informatie, crimineel verleden enz. op persoonlijk niveau kan voorspellen wat de kans is dat iemand in
de toekomst een misdaad begaat. Mag de politie met die informatie iemand
arresteren voordat hij/zij die misdaad begaat? Dit scenario is mooi verbeeld in
de film Minority Report waar een politieafdeling wordt beschreven die zich
bezig houdt met “pre-crimes”: misdaden die met grote zekerheid in de toekomst worden gepleegd. Ik denk dat de meesten onder ons het onwenselijk
vinden om verdachten van toekomstige misdaden maar vast te arresteren.
We zien dus dat privacyschendingen en het misbruik van gevoelige informatie op de loer liggen. Ik zie ook nog twee minder genoemde gevaren. Het
eerste gevaar is dat we verkeerde conclusies gaan trekken uit data die gemakkelijk op internet te oogsten zijn. Stel we willen weten hoeveel mensen zich
zorgen maken over privacy schendingen van de binnenlandse veiligheids
MAX WELLING
dienst. Als we op internet zoeken vinden we heel veel bezorgde tweets, blogs,
chats, enzovoort. De mensen die zich geen zorgen maken laten zich over het
algemeen niet horen. Dit noemen we “selectie bias”, omdat de steekproef die
we nemen niet representatief is voor de hele bevolking. In dit geval vergaren
we vooral informatie van mensen die zich druk maken over het probleem en
zich ook van dit soort moderne media bedienen. We moeten dus met het
trekken van conclusies heel erg oppassen om niet ten prooi te vallen aan deze
selectie bias.
Ten slotte zie ik een reëel gevaar dat de kunstmatige intelligentie op den
duur heel veel banen overbodig gaat maken. Zelfrijdende auto’s zouden zomaar alle vrachtwagenchauffeurs hun baan kunnen ontnemen. Het standaardantwoord is altijd dat er weer nieuwe banen bijkomen, maar ik ben er
niet zeker van dat dit in de toekomst zo zal blijven. Misschien moeten we er
rekening mee houden dat we allemaal wat meer vrije tijd gaan krijgen, en er
goed over nadenken hoe we onze samenleving daar naar gaan inrichten.
Ik wil ook nog één misverstand noemen voordat ik dit hoofdstuk afsluit.
Vaak hoor je dat met big data men alleen nog oog zou hebben voor voorspellingen (wat) en niet meer voor de onderliggende oorzaken (waarom). Dit
wordt ook wel het correlatie (wat) versus causatie (waarom) probleem genoemd. Zoeken naar correlaties in plaats van oorzaken kan misschien een
verleiding zijn, maar heeft niets met big data te maken. Meer data leidt altijd
tot betere inzichten mits men de juiste vragen stelt. Met dezelfde data kan
men proberen te voorspellen welke bevolkingsgroepen een grotere kans hebben om in de misdaad terecht te komen, maar kan men ook proberen te achterhalen waarom deze bevolkingsgroepen in de misdaad terechtkomen (bijvoorbeeld door een grotere werkeloosheid). De gulden regel is: meer data is
altijd beter dan minder data mits je de goede vragen stelt en de goede algoritmen gebruikt.
Concluderend: de datascope is een krachtig instrument waarmee we dieper
inzicht kunnen krijgen in allerlei complexe problemen en relaties. Zoals altijd
kunnen krachtige technologieën ook misbruikt worden. We moeten daarvoor
oppassen en onze maatschappij via wetgeving zo inrichten dat die negatieve
aspecten worden beteugeld en ondervangen. We mogen simpelweg niet toestaan dat verzekeringsmaatschappijen discrimineren op medische profielen.
We hoeven ook niet toe te laten dat de politie preventief gaat arresteren.
Door de snelle ontwikkelingen lopen we hier wellicht wat achter op de feiten,
dus dit verdient onze volle aandacht.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

 De derde groeiwet
De wet van Moore (Moore, ) stelt dat ruwweg iedere twee jaar de rekenkracht van computers verdubbelt, voornamelijk als gevolg van de miniaturisering van transitoren, zie figuur . Deze wet blijkt al sinds  op te gaan. We
zullen dit de eerste groeiwet (van Moore) noemen.
Figuur 
Bron: Intel
De explosie van data blijkt ook aan eenzelfde wetmatigheid onderhevig. Ook
hier geldt dat ruwweg iedere twee jaar de hoeveelheid data verdubbelt. We
zullen dit de tweede (big data) groeiwet noemen.
Ik stel hier dat er waarschijnlijk nog een derde groeiwet actief is. Deze
derde wet beschrijft de exponentiële groei van de capaciteit van de modellen
die onderzoekers gebruiken. Simpele modellen hebben maar een klein aantal
vrijheidsgraden (ook wel parameters genoemd) terwijl complexe modellen
heel veel vrijheidsgraden hebben. De taak van de onderzoeker is om de vrijheidsgraden zo te kiezen dat het resulterende model de geobserveerde data zo
goed mogelijk beschrijft. Dit gebeurt automatisch via zogenaamde “leeralgoritmen” die in het vakgebied machine-learning worden ontwikkeld.

MAX WELLING
Tijdens mijn bezoek aan Google en Yahoo in  vernam ik dat men daar nu
modellen traint met meer dan  miljard parameters! Dit was ondenkbaar
toen ik in  tot het veld toetrad. Ik wil mezelf niet branden aan een precieze voorspelling van het aantal jaar dat nodig is voor een verdubbeling van
de modelcapaciteit (het aantal vrije parameters), maar het zou me niks verbazen als dat ook rond de twee jaar is. Ter illustratie, in  had het state-ofthe-art neurale netwerk “NetTalk” , parameters. Dat ijkpunt gecombineerd met de omvang van de hedendaagse modellen van  miljard parameters leidt tot een verdubbeling iedere één en een kwart jaar (maar dit getal
moet met een flinke korrel zout worden genomen). In figuur  heb ik de
exponentiële groei van het aantal parameters van neurale netwerken (zie
hoofdstuk ) geplot. Dit is een zogenaamde log-log plot, wat betekent dat een
rechte lijn met exponentiële groei overeenkomt.
Figuur 
Het menselijk brein heeft ongeveer  triljoen synapsen. Synapsen reguleren
het gemak waarmee één neuron zijn informatie doorgeeft aan zijn buurman.
Synapsen zijn net als vrije parameters in een model aangezien het brein de
sterkte van deze synapsen aanpast aan de nieuwe informatie die via de zintuigen binnenstroomt. Als we uitgaan van een verdubbeling iedere twee jaar dan
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

zal het nog  jaar duren voordat onze modellen hetzelfde aantal vrije parameters hebben als ons brein, zie figuur . Neuronen zijn hele langzame rekenaars: zij hebben tenminste één milliseconde nodig om een signaal door te
geven. Als we ooit een kunstmatig brein bouwen met evenveel transistors en
connecties als in het menselijk brein, dan zal deze misschien evenveel informatie kunnen bevatten als ons brein maar wel vele ordes van grootte sneller
kunnen rekenen. Maar goed, aan dat laatste feit waren we eigenlijk al gewend.
De derde groeiwet is in principe consistent met de eerste wet van Moore.
We hebben immers exponentieel groeiende rekenkracht nodig om een exponentieel groeiend aantal parameters te leren. Maar de derde groeiwet lijkt niet
consistent met de tweede groeiwet. De reden van deze paradox is dat de hoeveelheid nuttige informatie in data veel kleiner is dan de hoeveelheid data zelf.
Figuur 
We kunnen ons ruwe data voorstellen als gouderts, zie figuur . De nuttige
informatie is dan het goud zelf dat uit de erts moet worden gewonnen met de

MAX WELLING
gereedschappen van de machine learning. Het overgebleven gruis komt overeen met nutteloze informatie, ofwel ruis. De term datamining kan dus vrij
letterlijk worden geïnterpreteerd als het bevrijden van nuttige informatie uit
data.
 Nuttige informatie
Claude Shannon introduceerde in  een rigoureuze definitie van het concept informatie (Shannon, ). Men wint één bit aan informatie als men
antwoord krijgt op één ja/nee vraag waarvan men daarvóór geen benul had
van het antwoord. Bijvoorbeeld, Lieke gooit een munt op en laat niet zien of
die kop of munt was gevallen. Nadat Lieke mij vertelt hoe het muntje was
gevallen heb ik precies  bit aan informatie ingewonnen.
Neem nu een plaatje met  pixels die de waarde  of  kunnen aannemen.
Als alle pixels onafhankelijk van elkaar met een kans van een half de waarde 
of  aannemen zeggen we dat het plaatje  bits aan informatie bevat (zie
figuur -C). Figuur -A daarentegen bestaat helemaal uit pixels die allemaal
de waarde  aannemen. Dit plaatje representeert veel minder dan  bits.
Figuur 
A
B
C
We kunnen deze intuïtie preciezer maken door ons voor te stellen dat Sera
het plaatje naar Eline moet sturen. Hoeveel bits heeft Sera nodig om alle informatie over te sturen? In het eerste geval heeft ze weinig keus: ze moet voor
alle  pixels zeggen of ze de waarde  of  hadden,  bits dus. Maar in het
tweede geval kan ze alle informatie in één zin stoppen: “alle bits hebben waarde ”. Nu moet Sera natuurlijk wel deze zin opsturen en ook dat is informatie,
maar de hoeveelheid bits is onafhankelijk van de grootte van het plaatje. De
zin “alle bits hebben waarde ” noemen we het model. Dus in het eerste geval
is er geen model dat ons kan helpen om het plaatje efficiënter te coderen,
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

terwijl in het tweede geval alle informatie met een heel simpel model kan
worden beschreven.
“Echte data” heeft een complexiteit die ergens tussen deze twee extremen in
ligt, zoals in figuur -B. Gedeeltelijk kunnen we de informatie comprimeren
door een model te gebruiken, maar er blijven ook een hoop bits nodig om de
afwijkingen van dit model te beschrijven (pixel  is  i.p.v. de  die het model
voorspelde). De informatie die niet met een model te vangen is noemen we de
ruis. Deze informatie is niet nuttig in de zin dat we er niets mee kunnen
voorspellen. De informatie die we met een model kunnen beschrijven is wel
nuttig want daar kunnen we wel voorspellingen mee doen. Het is de taak van
de modellenbouwer om de nuttige informatie te scheiden van de ruis, en deze
op te slaan in de parameters van het model, zie figuur .
Figuur 
De hoeveelheid nuttige informatie groeit veel langzamer dan de totale hoeveelheid informatie in data. We observeren dus een “afnemende meerwaarde”
aan informatie als we observaties toevoegen: het  miljoenste data-punt voegt
veel minder voorspellende waarde toe dan het e data-punt. De metafoor

MAX WELLING
van de goudmijn helpt ons dit weer te begrijpen: hoe langer we in dezelfde
goudmijn graven naar goud hoe moeilijker het wordt het goud te delven. Immers, de grote brokken zijn er in het begin al uitgevist, en de mijn raakt op
den duur uitgeput.
We hebben de paradox nu dus scherp voor ogen. Ondanks het feit dat de
hoeveelheid ruwe data exponentieel groeit (de tweede groeiwet), groeit de
hoeveel nuttige informatie in die data veel langzamer. Waarom groeit de
complexiteit (het aantal vrije parameters) van modellen dan toch exponentieel (de gepostuleerde derde groeiwet)? De huidige modellen lijken dus een
enorme overcapaciteit te hebben om de hoeveelheid nuttige informatie in de
data op te slaan. Modellen met zo’n overcapaciteit lopen het gevaar om te
“overfitten”. Ze gaan proberen deze overcapaciteit te vullen met ruis (de informatie zonder voorspellende waarde). En helaas kunnen modellen die overfitten minder goed voorspellen. Ik heb deze conclusie in figuur  samengevat.
Figuur 
In de metafoor van de goudmijn komt dit neer op de volgende situatie. Om
het goud op te slaan heb ik een enorme silo aangeschaft. Maar deze silo is veel
te groot, namelijk groot genoeg om niet alleen het goud maar ook alle gouderts in op te slaan. De machines die de silo vullen hebben de neiging de silo
helemaal vol te storten, wat betekent dat er naast het pure goud ook een hoop
gruis in de silo terechtkomt. Een grote silo is niet alleen duur, door de aanwezigheid van het gruis is het ook moeilijk om bij het goud te komen.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

 Overfitting
Het begrip “overfitten” is het centrale concept in machine learning. Men kan
het zich voorstellen als een geheugen dat te goed werkt. Stel je voor dat je
 plaatjes van verschillende stoelen te zien krijgt. Iemand met een perfect
geheugen onthoudt alle details van alle stoelen. Als we hem een plaatje van
een stoel laten zien die hij al eens eerder heeft gezien dan roept hij tevreden:
dat is een stoel! Maar laat je hem een plaatje zien van een stoel die iets anders
is dan één van die  voorbeelden, dan raakt hij in de war. Iemand met een
slechter geheugen probeert eigenschappen te vinden die alle stoelen gemeen
hebben: een leuning, een zitvlak, poten etc. Bij het zien van de nieuwe stoel
herkent hij deze eigenschappen en concludeert dus dat dit ook een stoel moet
zijn. Een goed model moet dus alleen de essentiële eigenschappen onthouden,
en de rest vergeten. (Dat het generaliseren van kennis te maken heeft met slim
vergeten is goed nieuws voor een hoop vergeetachtigen zoals ikzelf.) Op eenzelfde manier kan een computer ook heel makkelijk onthouden wat je er instopt. Maar dit is heel wat anders dan een computer die goed kan generaliseren naar nieuwe input en goed kan voorspellingen kan doen.
Goede modellen zoeken naar nuttige informatie: abstracte concepten om
de data te beschrijven. Het concept stoel is natuurlijk zo’n abstractie. We zijn
continue bezig met nieuwe concepten te formuleren om de wereld om ons
heen beter te begrijpen. Een concept is niets meer dan het extraheren van de
nuttige informatie en het vergeten van ruis. Leren is dus equivalent aan abstraheren en conceptualiseren, aan het wegfilteren van de ruis en aan het
comprimeren van de data zodat alleen nuttige informatie achterblijft.
Om te kunnen leren moeten we aannames maken. In het voorbeeld hierboven waren onze aannames dat leuningen en zitvlakken belangrijke eigenschappen zijn die een stoel definiëren. Deze aannames noemen we “inductieve bias”. Je leest nog wel eens dat iemand een nieuw leeralgoritme heeft
verzonnen dat aannamevrij is. Neem van mij aan dat dit onzin is. Er zijn altijd
verborgen aannames. Zonder aannames kan je niet generaliseren.
De lakmoestest voor een goed model is zijn voorspelkracht. Alleen goede
modellen kunnen voorspellingen doen op nieuwe, nooit eerder geziene data.
Maar test een model nooit op de data die het al eerder heeft gezien, want het
onthouden van data is geen kunst. Voorspellen is ook wat ons brein doet. Als
de voorspellingen goed zijn merk je niks, maar als ze eens een keer falen dan
merk je wel degelijk dat je onbewust een voorspelling deed. Een goed voorbeeld is die keer dat je het melkpak uit de koelkast pakte en je arm ineens
omhoogschoot. Je voorspelling omtrent de hoeveel melk in dat melkpak zat
er naast en je spieren hadden zich te hard aangespannen.

MAX WELLING
Maar waarom leidt overfitten eigenlijk tot verminderde voorspelkracht?
We illustreren dit eerst met figuur . We willen een curve door de punten
trekken om hun relatie zo goed mogelijk te beschrijven. Als we een rechte lijn
trekken ( vrije parameters) dan is de bias groot en de fit dus slecht. Als we
een heel flexibele curve gebruiken met heel veel vrije parameters dan gaat de
curve precies door alle punten maar de fit is intuïtief toch ook erg slecht omdat we niet verwachten dat de niet geobserveerde punten op deze curve zullen
liggen. Het optimum zit ergens in het midden.
Figuur 
Om de relatie tussen overfitten, inductieve bias en voorspelkracht verder te
verduidelijken neem ik even aan dat de dataset met N datapunten die wij tot
onze beschikking hebben er maar één uit vele mogelijke datasets met N datapunten is. We stellen ons het model dat we leren voor als een pijl die we in
een roos willen schieten, zie de figuur . Schieten we in de roos dan is het
model perfect, schieten we er flink naast dan is het een slecht model met weinig voorspelkracht. Als we een heel simpel model gebruiken (met heel weinig
vrije parameters) dan maken we impliciet sterke aannames (een sterke inductieve bias). Deze bias kan natuurlijk precies goed zijn, maar in het algemeen is
de wereld veel ingewikkelder dan we met een simpel model kunnen bevatten.
We zullen dus in alle waarschijnlijkheid flink naast de roos schieten en slechte
voorspellingen doen. We noemen dit “underfitten”. Als we ons nu voorstellen
dat we ook de beschikking hadden over nog  andere datasets met N datapunten, en we trainen ons simpele model ook met deze  andere datasets
dan krijgen we  verschillende voorspellingen. De pijlen komen dus op verschillende plekken terecht. Maar omdat het model zo simpel is, verandert er
ook niet veel aan de voorspellingen, en de pijlen landen ongeveer in hetzelfde
gebied. Dit correspondeert met de rode kruisjes op het linkerbord in figuur
. We zeggen dat de variantie klein is.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

Figuur 
Nu het omgekeerde geval: een model met heel veel vrije parameters. De inductieve bias is nu klein want we kunnen hele complexe functies beschrijven.
Maar als we kijken naar de variatie die ontstaat als we het model trainen op de
 verschillende datasets van ieder N datapunten, dan zien we een enorm
verschil: de variantie is groot. Dit correspondeert met de rode kruisjes op het
rechterbord in figuur . Dit komt omdat het algoritme nu zelfs de kleinste
details van de dataset probeert te fitten. Het fit dus de ook de ruis die geen
enkele voorspelkracht heeft. Het model lijdt aan overfitting. Overfitting is dus
equivalent aan een grote variantie in de voorspellingen.
De conclusie is dus dat zowel underfitten en overfitten leiden tot slechte
voorspellingen. Zoals zo vaak in het leven, moeten we op zoek naar de gulden
middenweg. De filosofie dat we het simpelste model moeten kiezen dat de
data nog goed beschrijft heet ook wel Occam’s scheermes. Maar de realiteit is
iets ingewikkelder want het is niet duidelijk hoe goed nog goed genoeg is;
complexere modellen fitten immers de trainingsdata beter. Maar er zijn gelukkig goede methoden ontwikkeld om toch de juiste balans te vinden.
Terug naar de paradox. De derde groeiwet laat zien dat onderzoekers juist
wel hele complexe modellen gebruiken. Hoe vermijden ze dan toch overfitten? Een hele elegante methode, die gebaseerd is op de “wijsheid van de menigte” zal ik nu uitleggen.

MAX WELLING
 Wijsheid van de menigte
Probeer het volgende experiment eens thuis. Stel u wilt de hoogte van de Eiffeltoren weten. Vraag dan aan  mensen (of een ander oneven aantal mensen) om deze waarde te schatten, ongeacht of ze er veel of weinig vanaf denken te weten. Ze mogen niet met elkaar overleggen. Sorteer alle schattingen
van klein naar groot en gebruik de e schatting (de middelste schatting) als je
antwoord. Wat blijkt? Bijna altijd levert deze procedure een heel precies antwoord op, bijna net zo precies als de beste schatting uit het rijtje (maar je weet
natuurlijk niet van te voren wat de beste schatting is). In de volksmond heet
dit “de wijsheid van menigte”. Wat nog beter blijkt te werken is als je de
menigte laat gokken met geld. Mensen die heel zeker zijn van hun antwoord
zijn bereid veel geld in te zetten en hun stem weegt dan ook zwaarder mee in
het gewogen gemiddelde. Je kan hier aan meedoen op websites die “prediction markets” worden genoemd. De filosofie is niet heel anders dan die van de
aandelenmarkt waar mensen aandelen kopen en verkopen en zo heel precies
gezamenlijk de werkelijke waarde van een bedrijf bepalen.
In het vakgebied machine learning bestaat een analoge methode om betere
voorspellingen te bewerkstelligen. We laten nu niet mensen maar algoritmen
voorspellingen doen en nemen net zoals hierboven is beschreven de middelste
waarde of het gemiddelde van alle voorspellingen. Vaak zien we dat hoe meer
verschillende algoritmen meedoen, des te beter deze gecombineerde voorspelling wordt. Dit fenomeen werd heel duidelijk toen het Amerikaanse bedrijf
Netflix een competitie uitschreef waar de winnaar maar liefst  miljoen dollar
kon winnen. De participanten moesten het “recommender” systeem van Netflix dat films aan klanten aanbeveelt met tenminste % verbeteren. Het bleek
een enorm succes. Meer dan twintigduizend teams streden drie jaar lang en
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

verbeterde uiteindelijk Netflix’s eigen systeem met meer dan %. Wat bleek?
Het winnende team had meer dan  verschillende modellen getraind en
hun voorspellingen op een slimme manier gecombineerd. De wijsheid van de
menigte had gezegevierd. Deze methode noemen we “ensemble learning” in
machine learning (Breiman, ).
Het is niet heel moeilijk om te begrijpen waarom deze methode zo succesvol is. We gaan hiervoor weer even terug naar het verhaal over bias en variantie. Als we een heleboel modellen trainen die allemaal heel flexibel zijn dan
hebben die modellen een kleine bias maar een grote variantie. Maar als deze
modellen onafhankelijke voorspellingen doen, dan is er voor de fout die model A maakt ook een model B dat precies de omgekeerde fout maakt, en de
fouten vallen tegen elkaar weg als we de voorspellingen middelen. Middelen
vermindert dus de variantie en helpt tegen overfitten. Dit fenomeen is duidelijk te zien in figuur . De twee blauwe kruisjes stellen het gemiddelde voor
van alle rode kruisjes. In het rechterplaatje waar de modellen overfitten zien
we duidelijk dat het gemiddelde blauwe kruisje veel dichter bij de roos zit dan
de rode kruisjes.
We hebben nu een sterk argument in handen om de paradox van de derde
wet op te lossen. We kunnen best heel grote flexibele modellen trainen, als we
daarna maar door het middelen van de voorspellingen het overfitten tegengaan. Dit is een vorm van regularisatie, wat neer komt op het verkleinen van
de capaciteit van een model, zodat de ruis er niet in past. Het alsof je een
dubbele bodem in je silo legt: van buiten ziet de silo er nog steeds even groot
uit, maar er past toch niet meer zoveel in.
Er zijn ook andere methoden om een model te regulariseren. Bijvoorbeeld,
we kunnen proberen ervoor te zorgen dat voor iedere voorspelling maar een
klein deel van het model mag worden geactiveerd (dit heet “sparsity”), of we
kunnen eisen dat een model nog steeds goed werkt als we de data een klein
beetje veranderen (dit heet “robustness”). De conclusie is dus dat we wel degelijk hele complexe modellen met heel veel vrije parameters kunnen trainen
als we er maar op de één of andere manier voor zorgen dat die overcapaciteit
wordt weggeregulariseerd.
We hebben vrij abstract over modellen gesproken tot dusver. Maar wat is
nou een goed voorbeeld van een model dat we willekeurig complex kunnen
maken? In het volgende hoofdstuk zal ik het neurale netwerk verder uitlichten. Dit model heeft een interessante geschiedenis omdat het aan de wieg
stond van het vakgebied kunstmatige intelligentie, vervolgens twee keer in
diskrediet is geraakt en nu opnieuw reïncarneert onder de naam “deep learning”.

MAX WELLING
 Deep learning, de derde generatie kunstmatige
neurale netwerken
Kunstmatige neurale netwerken zijn zo oud als het vak kunstmatige intelligentie zelf. McCulloch and Pitts (McCulloch & Pitts, ) bedachten als eersten in  een model dat in grote lijnen nog steeds overeenkomt met wat we
vandaag de dag verstaan onder de term neuraal netwerk. Het model is een
versimpeling van de echte neuronen en synapsen die ons brein bevolken. Volgens deze abstractie is een neuron een schakelaar die “aan” gaat als er genoeg
signaal binnenkomt van andere, naburige neuronen. Als een neuron aangaat,
zal het ook weer een signaal doorsturen naar zijn buren, enzovoort. Neuronen
zijn verbonden met elkaar via synapsen. Als de synaptische verbinding sterk
is zal het signaal tussen twee neuronen versterkt worden. Door nu de sterkte
van deze synapsen aan te passen zodat het netwerk als geheel betere voorspellingen gaat doen kunnen we het netwerk trainen met data.
Rond  raakten de neurale netwerken voor het eerst in diskrediet doordat misschien wel de meest beroemde onderzoeker in de kunstmatige intelligentie uit die tijd, Marvin Minsky (samen met Seymore Papert) een boek
schreef (Minsky & Papert, ) dat neurale netwerken zwaar bekritiseerde.
Volgens hen waren neurale netwerken niet flexibel genoeg om moeilijke problemen op te lossen. Maar hun kritiek betrof alleen neurale netwerken met
twee lagen neuronen.
In  echter ontstond er een hernieuwde interesse in neurale netwerken
doordat Rumelhart, Hinton & Williams (Rumelhart, Hinton, & Williams,
) en onafhankelijk LeCun (LeCun, ) een algoritme heruitvonden dat
al eerder in  door Werbos (Werbos, ) was gepubliceerd. Met dit algoritme, “backpropagation”, konden onderzoekers nu voor het eerst neurale
netwerken met drie lagen neuronen trainen. Soms noemen mensen deze heropstanding de “ReNNaissance” (waar NN voor neurale netwerken staat).
Helaas ging het weer mis rond  toen Vladimir Vapnik de “support vector machines” uitvond. Dit model kon ook ingewikkelde niet lineaire relaties
modelleren, maar met als groot voordeel dat het leeralgoritme maar één (en
dus reproduceerbaar) antwoord kon opleveren. Neurale netwerken convergeerden vaak naar heel verschillende modellen afhankelijk van hoe je het leeralgoritme startte. (Dit noemen we lokale minima). Het probleem daarvan is
niet zozeer dat deze verschillende modellen slecht zijn, maar meer dat je niets
theoretisch kan bewijzen over hoe het netwerk zich gedraagt in nieuwe situaties. Dat kon wel met de support vector machines en dus verdwenen de neurale netwerken opnieuw in de la.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

Maar recent zijn ze aan hun tweede comeback begonnen in een nieuw
“deep learning” jasje. Waar de eerste generatie neurale netwerken maar twee
lagen neuronen hadden, kwam de tweede generatie niet verder dan drie lagen
neuronen. Het probleem was dat het backpropagation algoritme dat de vrije
parameters aanpast om het model te verbeteren niet door meer dan twee lagen kon penetreren: alle aanpassingen werden minuscuul klein. Maar rond
 kwam Geoffrey Hinton met nieuwe ideeën om netwerken met vele lagen
te kunnen trainen (Hinton, Osindero, & Teh, ) (zie figuur ). Voordat
hij het neurale netwerk met backpropagation trainde stapelde hij eerst een
aantal netwerken met twee lagen boven op elkaar. Hij trainde die lagen los
van elkaar waarbij de output van één laag de input van de laag erboven
vormde. Bovendien gebruikte hij in deze fase nog niet het backpropagation
algoritme maar een algoritme dat gebruik kan maken van ongelabelde data
(bijvoorbeeld een foto van een stoel zonder dat erbij wordt verteld dat het
een stoel betreft) dat in veel grotere hoeveelheden voorhanden is. Een andere
belangrijke ontwikkeling is dat onderzoekers gebruik gingen maken van
GPUs (graphics cards) die oorspronkelijk waren ontwikkeld voor game-computers, en zo veel meer computerkracht tot hun beschikking hadden. De
eerste groeiwet (van Moore) schoot dus te hulp om de neurale netwerken
weer nieuw leven in te blazen.
Figuur 
Bron: Google

MAX WELLING
Het probleem van de lokale minima werd niet opgelost en het is nog steeds
heel moeilijk om performance garanties af te leiden, maar de nieuwe technologie bleek zo goed te werken dat “diepe neurale netwerken” vele competities
begonnen te winnen. Na jaren van marginale verbeteringen (een paar procent
per jaar) in automatische spraakherkenning waren het de diepe neurale netwerken die ineens voor % verbetering zorgden. Maar de successen gingen
verder dan alleen spraakherkenning. Deep learning is ook het beste algoritme
gebleken in beeldherkenning (welke objecten zijn aanwezig in deze foto?) en
protein prediction (welke eigenschappen heeft een eiwit?).
Deze wapenfeiten hebben ervoor gezorgd dat bedrijven zoals Microsoft,
Google, Apple, Yahoo! en IBM zich op deze technologie hebben gestort. De
Chinese tegenhanger van Google, Baidu, heeft recentelijk zelfs een heel instituut opgericht in Silicon Valley dat zich louter met deep learning bezighoudt.
En zeer recentelijk, in December  tijdens een machine learning conferentie (NIPS) die ik mede heb georganiseerd, kondigde Mark Zuckerberg van
Facebook aan dat hij de “deep learning guru” Yann LeCun had ingehuurd
om zijn nieuwe AI-lab te gaan leiden.
Deep learning is misschien wel het mooiste voorbeeld van een methode
waar de drie groeiwetten samenwerken. De huidige modellen hebben tientallen miljarden vrije parameters en worden op miljoenen Youtube videoclips
getraind, gebruik makende van duizenden computers. Zoals ik al eerder heb
uitgelegd lijken dat veel te veel parameters voor de hoeveelheid nuttige informatie die we verwachten te vinden in de data. Maar de trainingsalgoritmen
worden moedwillig gefrustreerd in het leren van de parameterwaarden via
regularisatie om op die manier de capaciteit van het model te beperken en
overfitten te voorkomen. Op dit moment representeren de diepe neurale netwerken de absolute state-of-the-art in mijn vakgebied.
 Citizen science
Machine learning is niet alleen iets voor de experts. Er is een toenemende
trend te ontwaren waarin “de gewone burger” participeert in de activiteiten
van het vak, bewust of onbewust. In dit hoofdstuk zal ik daar wat meer over
vertellen.
In  beschreef Luis von Ahn (Von Ahn & Dabbish, ) dat in dat jaar
“gamers” over de hele wereld negen miljard uur het spelletje Solitaire hadden
gespeeld. Ter vergelijking: het bouwen van de Empire State Building kostte 
miljoen manuren (. uur Solitaire online), en het bouwen van het Panama
kanaal  miljoen manuren (minder dan een dag Solitaire online). Wat een
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

verkwisting!? Von Ahn bedacht dat we de wetenschap een enorme dienst
zouden kunnen bewijzen als we ook maar een klein deel van die inspanning
zouden kunnen kanaliseren. En dus bedacht hij een “label game” om de objecten in foto’s te identificeren. Eén van de eerste label games was ESP waar
twee anoniemen participanten hetzelfde plaatje voorgeschoteld kregen en allebei objecten die in dat plaatje aanwezig waren moesten benoemen. (Er was
ook een blacklist van objecten die al door eerdere deelnemers waren
benoemd). Als ze hetzelfde object gelijktijdig benoemden kregen ze punten.
Het vernuft van dit spelletjes was dat de deelnemers vaker hetzelfde object
benoemden dan ze zelf verwachtten en dus dachten dat ze een soort buitenzintuigelijke band met elkaar hadden! In de tussentijd waren ze natuurlijk gewoon bezig (gratis) de objecten van een foto te benoemen en zo de wetenschap een dienst te bewijzen. Een ander creatief voorbeeld in deze sfeer
ontwikkeld door dezelfde persoon zijn “reCaptcha’s” waar je een stukje tekst
moet intikken voordat je een website op mag. Ook hier digitaliseer je een
stukje gescande tekst zonder dat je er erg in hebt.
Het idee om mensen op heel grote schaal in te zetten voor maar een heel
klein beetje financiële compensatie heeft ook zijn intrede gedaan in de gedaante van “crowdsourced marketplaces”, een andere vorm van citizen
science. Het bekendste voorbeeld is Amazon’s “Mechanical Turk”. Als je een
simpele maar tijdrovende taak hebt dan kan je deze online als een vragenlijst
presenteren aan enorme hoeveelheden “Turkers” in de hele wereld. Het antwoord op elke vraag is een paar cent waard, maar voor sommigen in minder
welvarende landen kan dat toch oplopen tot een aardige zakcent. Het gaat ook
vrijwel altijd om taken waar mensen heel goed in zijn maar computers (nog)
niet. In zekere zin gebruiken computers dus de denkkracht van het menselijk
brein om zelf slimmer te worden. Interessant genoeg zien we dus een soort
omdraaiing van de rollen van mens en computer: in plaats van mensen die de
rekenkracht van computers gebruiken, gebruiken computers hier de denkkracht van menselijke breinen… Computers en mensen raken steeds meer
vervlochten met elkaar. Ze vullen elkaar aan in de taken waarin ze goed zijn:
mensen met hun intuïtie, creativiteit en begrip van de wereld, computers met
hun extreme rekensnelheid.
Crowdsourcing heeft zich ook op een ander niveau gemanifesteerd. Toen
Netflix zijn eerste competitie uitschreef (zie hoofdstuk ) bedacht de webservice “Kaggle” dat dit wel eens een goed model zou kunnen zijn om de
data-science problemen die bij bedrijven spelen via online competities aan te
pakken. Tegen soms enorme geldbedragen (oplopend tot wel  miljoen dollar!) proberen duizenden teams de beste voorspellingen te realiseren. Dit idee
bleek succesvol: vele honderden competities zijn ondertussen tot een goed

MAX WELLING
einde gebracht. Niet alleen “experts” in gevestigde instituten kunnen deelnemen, ook de enthousiasteling in een schuur in ergens in Siberië kan zo’n
competitie winnen.
Maar citizen science zal veel verder gaan dan de voorbeelden die ik hierboven heb beschreven. Big data vormt de nieuwe economische pijler waaraan
eenieder met energie en talent kan meedoen. Steden zoals Chicago en New
York evenals de Amerikaanse overheid zetten een groot deel van hun data
online in de hoop dat anderen hier toepassingen omheen zullen bouwen. Een
bedrijf als Ford wil bijvoorbeeld sensordata uit auto’s online zetten om zo
enthousiastelingen uit te dagen nieuwe toepassingen te ontwikkelen die op
hun beurt Ford’s auto’s weer aantrekkelijker maken.
Deze ontwikkelingen vormen een unieke kans voor wetenschappers om uit
hun ivoren torens te klimmen en de interactie aan te gaan met burger en
bedrijf. Door het ontwikkelen en vrij beschikbaar stellen van gebruikersvriendelijke en nuttige software kan de brug tussen wetenschapper en burger misschien wel beter dan ooit tevoren worden geslagen. Een recente revolutie in
het onderwijs vormt misschien nog wel de belangrijkste pijler onder deze
brug en sluit naadloos aan bij de ontwikkelingen die ik in dit hoofdstuk heb
beschreven. De MOOC, ofwel “massive open online course” staat voor gratis
onderwijs voor de massa’s. Hierover meer in het volgende hoofdstuk.
 Onderwijs
In  schreef het McKinsey Global Institute het volgende in haar rapport
“Big data: The next frontier for innovation competition, and productivity”
(Manyika, et al., ):
A significant constraint on realizing value from big data will be a shortage
of talent, particularly of people with deep expertise in statistics and machine learning.
In  kopte de Harvard Business Review met de volgende titel (Davenport
& Patil, ): Data Scientist: The Sexiest Job of the st Century. De conclusie
mag duidelijk zijn: we gaan een toename zien in het aantal banen en hopelijk
het aantal studenten in dit vakgebied. Universiteiten staan voor de belangrijke
taak om genoeg data-wetenschappers op te leiden en zo het gat te dichten dat
dreigt te ontstaan tussen vraag een aanbod op deze arbeidsmarkt. Ik denk dat
de UvA uniek is gepositioneerd om hier een vooraanstaande rol te spelen.
Ten eerste zal de eventuele fusie tussen UvA en VU nieuwe mogelijkheden
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

scheppen op het gebied van onderwijs en onderzoek. Ik hoop dat in de discussie over het onderwijs aan de nieuwe “Amsterdam Faculty of Science” het
vak data science een belangrijke rol krijgt toebedeeld. We doen onszelf tekort
als we deze kans niet aangrijpen om “data science central” van Nederland te
worden. Het gloednieuwe “Data Science Research Center”, dat een gezamenlijk initiatief van de UvA en VU is kan hier een belangrijke rol in gaan vervullen.
Maar we moeten verder kijken dan de studenten die zich aanmelden bij de
poorten van de universiteit. We moeten ook de enthousiaste burger en bedrijfsvoerder bedienen en hen zo betrekken bij de mogelijkheden die de big
data revolutie te bieden heeft. Ik zie dan ook een heel belangrijke rol weggelegd voor MOOCs om dit doel te bereiken. Een MOOC (“massive open online course”) is een cursus die gratis online wordt aangeboden en die soms
door wel , studenten tegelijk wordt gevolgd. Studenten helpen elkaar
via online chatrooms met opgaven, hun examens worden automatisch nagekeken en de aandachtspunten kunnen voor iedere student individueel worden
geïdentificeerd via zogenaamde “recommender systemen” (zie hoofdstuk ).
Ook het onderwijs wordt zo data science. Het is dan ook niet voor niets dat de
twee grootste MOOC instituten (Udacity en Coursera) spin-offs zijn van machine learning medewerkers op Stanford University.
Wat de uiteindelijke impact van MOOCs zal zijn moet nog blijken, maar
deze ontwikkeling dwingt ons ook om onze eigen rol als docenten nog eens
flink onder de loep te nemen. Worden wij dadelijk ook door onze eigen
MOOCs verdrongen, net zoals Wikipedia in het verleden de klassieke encyclopedie grotendeels verving? Wat wordt de rol van de docent, de expert en

MAX WELLING
het kennis instituut? Allemaal dringende vragen die ons de komende tijd onvermijdelijk gaan bezighouden.
 Machine learning, een gouden toekomst
Ik heb dit moment aangegrepen om mijn vakgebied beter voor het voetlicht
brengen. Gevoed door exponentiële groei van rekenkracht en data is de complexiteit van modellen zelf ook explosief gegroeid. Zozeer zelfs dat de overcapaciteit van hedendaagse modellen, ondanks de enorme datasets, alleen maar
lijkt toe te nemen. Deze paradox levert interessante inzichten op, namelijk dat
een combinatie van complexe modellen en regularisatie in de context van big
data heel succesvol blijkt in de praktijk. Tegen deze achtergrond doe ik mijn
onderzoek dat zich richt op het ontwikkelen van complexe, statistisch goed
gefundeerde modellen en de bijbehorende big data leeralgoritmen.
Figuur 
Machine learning is de laatste jaren heel snel in populariteit gegroeid. Figuur
 laat zien dat het aantal bezoekers van de grootste machine learning confeVAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

rentie, NIPS, ook aan een exponentiële groeiwet onderhevig is! Ik vermoed
dat de onderliggende oorzaak gezocht moet worden in het feit dat we steeds
vaker toepassingen van de kunstmatige intelligentie zien in het dagelijkse leven. Apple’s Siri op onze iPhone begrijpt wat we zeggen, Amazon begrijpt wat
voor boeken we willen lezen, navigatie systemen leiden ons feilloos naar onze
bestemming enzovoort. Over nog veel geavanceerdere technologie kan men al
lezen op het internet: Star Trek’s “universal translator” wordt werkelijkheid in
een nieuw systeem van Microsoft dat gesproken zinnen kan begrijpen, vertalen en dan weer in een andere taal uitspreken; IBM’s Watson verslaat de beste
menselijke tegenstander in het spel “Jeopardy” waar taal op een heel hoog
niveau begrepen moet worden, zelfsturende auto’s rijden al rond in Californië
en Nevada enzovoort. Deze zichtbare vooruitgang inspireert een grote groep
jong talent met een rijke fantasie voor wat er allemaal nog meer mogelijk is.
Een van die talenten is ontegenzeggelijk de CEO van Facebook, Mark
Zuckerberg. Tijdens zijn bezoek aan de grootste conferentie in machine learning (NIPS) droeg hij zijn visie uit over het ontwikkelen van een persoonlijke
“theory of mind” voor elke Facebookgebruiker. Gezien de enorme hoeveelheden data en rekenkracht die Facebook tot zijn beschikking heeft, is dit op
de lange termijn misschien niet eens zo’n heel onrealistische idee. Maar willen
we dit wel? Dankzij Edward Snowden weten we nu dat dit soort informatie
gemakkelijk in handen van overheden kan vallen. Naast grote beloften zijn er
dus ook grote gevaren. Hoe kunnen wij onze privacy waarborgen in een tijd
dat computermodellen onze innerlijke drijfveren misschien wel beter doorgronden dan wijzelf? Hoe kunnen wij voorkomen dat een zeer gedetailleerde
prognose van onze gezondheid onze verzekeringspolis gaat beïnvloeden? Hoe
kunnen we voorkomen dat we preventief worden gearresteerd als we een genetische aanleg voor terroristische activiteiten blijken te hebben?
Dit zijn aspecten van machine learning en big data waar we de komende
tijd ons hoofd over moeten breken. We moeten een balans vinden tussen wat
kan en wat wenselijk is. Ik heb er een groot vertrouwen in dat dat lukt. Ik
voorzie een gouden toekomst voor mijn vakgebied.
 Dankwoord
Voordat ik mijn verhaal afsluit wil ik graag een aantal mensen bedanken.
Allereerst wil ik het College van Bestuur van de Universiteit van Amsterdam, en het bestuur van de Faculteit der Natuurwetenschappen, Wiskunde en
Informatica en in het bijzonder de decaan van de faculteit bedanken voor het
in mij gestelde vertrouwen.

MAX WELLING
Verder wil ik het Instituut voor Informatica en in het bijzonder de directeur Jan Bergstra bedanken voor het creëren van deze leerstoel.
Daarnaast wil ik de leden van mijn groep “Intelligent Autonomous Systems” (IAS), en met name de secretaresse Petra Best bedanken voor de warme
ontvangst bij mijn aantrede. De organisatie en structuur van deze groep is wat
veranderd het afgelopen jaar en dat vergde enige aanpassing van iedereen.
Hartelijk dank voor jullie geduld in deze.
In het bijzonder wil ik mijn huidige AIO’s Durk en Taco en mijn postdoc
Ted bedanken voor de vele interessante discussies. Ik was heel druk het afgelopen jaar, maar ik hoop dat er meer tijd komt voor onderzoek in het komende jaar. Ik wil hierbij ook mijn AIOs in Amerika niet vergeten: Ian, Yutian, Anoop, Sungjin, Levi en Andrew: thanks for many wonderful and
exciting years together.
Ik ben diep geroerd door het feit dat mijn beide ouders van respectievelijk
 en  jaar oud hier vandaag aanwezig zijn. Pa en ma, jullie hebben voor mij
een stabiele en warme omgeving weten te creëren waarin mijn wetenschappelijke ambities goed konden gedijen. Hiervoor mijn welgemeende dank.
En dan mijn lieve gezin, Marga, Eline en Sera. Het is elke dag weer een feest
om te mogen thuiskomen in de warmte van jullie aanwezigheid. De verhuizing naar Nederland vanuit Amerika was geen sinecure, maar ik denk dat we
er samen iets heel moois van gaan maken.
Ook aan mijn broer Hans heb ik veel te danken. Onze lange gesprekken
over alles wat ons bezig houdt, inclusief de details van mijn onderzoek, heb ik
altijd gekoesterd.
Verder ben ik dank verschuldigd aan de medeoprichters van mijn startup
Scyfer: Jörgen, Taco en Tijmen. We gaan er een prachtig bedrijf van maken.
Dan wil ik mijn jeugdvriend Robert nog noemen. We kennen elkaar ruim
 jaar en nog steeds lachen we heel wat af. Ook mijn trouwe vriend Michel
en de leden van de “Visclub” wil ik graag bedanken voor hun vriendschap.
Ik bedank de volgende mensen voor hun nuttige feedback met betrekking
tot deze oratie: mijn vader, mijn moeder, Jörgen, Noud, en vooral Anja, die
ondanks haar ziekbed de moeite heeft genomen deze tekst van commentaar te
voorzien. Ten slotte dank ik al mijn vrienden en familie voor hun steun.
Ik heb gezegd.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN

Works cited
Breiman, L. (). Bagging Predictors. Machine Learning,  (), -.
Davenport, T., & Patil, D. (). Data Scientist: The Sexiest Job of the st Century.
Harvard Business Review, pp. -.
Hinton, G.E., Osindero, S., & Teh, Y.W. (). A fast learning algorithm for deep
belief nets. Neural Computation,  (), -.
LeCun, Y. (). Connectionist Learning Models. Universitè de P. et M. Curie.
Manyika, J., Chui, M., Bughin, J., Brown, B., Dobbs, R., Roxburgh, C., et al. (). Big
Data: The next frontier for innovation, competition, and productivity. McKinsey
Global Institute.
McCulloch, W., & Pitts, W. (). A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, , -.
Minsky, M., & Papert, S. (). Perceptrons: An Introduction to Computational Geometry. Cambridge, MA: MIT Press.
Moore, G.E. (). Cramming more components onto integrated circuits. Electronics,
-.
Rumelhart, D.E., Hinton, G.E., & Williams, R.J. (). Learning representations by
back-propagating errors. Nature, , -.
Shannon, G.E. (). A Mathematical Theory of Communication. Bell System Technical Journal, , -, -.
Von Ahn, L., & Dabbish, L. (). Labeling images with a computer game. Proceedings of the  conference on Human factors in computing systems, (pp. -).
Werbos, P.J. (). New Tools for Prediction and Analysis in the Behavioral Sciences.
Harvard University.

MAX WELLING