Klik hier voor meer info

Big Data: de technologie achter de hype
Iedereen lijkt tegenwoordig de mond vol te hebben van Big
Data. Toch is het niet altijd even duidelijk wat er met deze term
juist bedoeld wordt, of wat dan wel precies de concrete
meerwaarde hiervan zou zijn. In dit project willen we dan
ook, in samenspraak met een gebruikerscommissie van
geïnteresseerde bedrijven, op zoek gaan naar de technologie
achter de Big Data hype. Concreet zullen we hierbij volgende
specifieke onderwerpen bekijken.
Big data is like teen sex. Everybody is
talking about it, everyone thinks everyone
else is doing it, so everyone claims they
are doing it.
— Dan Ariely
BigData-opslag. Er bestaan een groot aantal verschillende manieren om, typisch bovenop een
standaard HDFS file system, gegevens op te slaan op een Big Data cluster: NoSQL, MongoDB,
CouchDB, Redis, ... In dit werkpakket zullen we deze verschillende mogelijkheden uittesten en hun
voor-/nadelen op een rijtje zetten. Tijdens een hands-on workshop krijgen geïnteresseerde leden
uit de gebruikerscommissie de kans om te experimenteren met een aantal van deze systemen,
geïnstalleerd op onze eigen cluster.
BigData-crunching. Naast het louter opslaan van gegevens is ook
de mogelijkheid om data gedistribueerd te verwerken een belangrijk onderdeel van de Big
Data filosofie. Het MapReduce raamwerk van Google, meestal in zijn Apache Hadoop
incarnatie, is hierbij de standaard oplossing, maar dit is lang niet de enige mogelijkheid.
Diverse uitbreidingen of varianten zetten in op, bijvoorbeeld, meer rekenkracht (Mars,
MGMR) of groter gebruiksgemak (Hive, Elasticsearch, Impala).
BigData-science. Het terugvinden van nuttige kennis in grote hoeveelheden data
is geen triviale taak. De "data scientist" heeft hiervoor een gamma van gespecialiseerde tools ter
beschikken, gaande van statistische methodes tot data-mining algoritmes. Veel van deze algoritmes
zijn beschikbaar als open source software, bijvoorbeeld binnen het pakket R
of als Python module.!
BigData-visualisatie. Naarmate hoeveelheden gegevens! groter en
groter worden, wordt ook het visualiseren hiervan een steeds uitdagendere taak. Tegelijk zijn
sommige van de meest tot de verbeelding sprekende toepassingen van Big Data (zie
bijvoorbeeld ekisto.sq.ro, senseable.mit.edu/livesingapore of vele anderen) juist geslaagde
creatieve visualisaties. Daarnaast zijn visualisaties ook nodig bij het monitoren van machines,
webservers, ... Technologie zoals Graphite en Dashing kan hierbij helpen.
BigData-streaming. Veel hedendaagse Big Data toepassingen zijn gebaseerd op een continue
stroom aan gegevens, afkomstig van bijvoorbeeld sensornetwerken of sociale media zoals
Twitter. Gespecialiseerde frameworks zoals Storm kunnen helpen om een dergelijke datastroom
in real-time te verwerken.
Juridische vraagstukken. Bij de ontwikkeling van Big Data toepassingen, komen typisch ook
een aantal juridische vragen tevoorschijn, bijvoorbeeld naar privacy of eigenaarschap van data. Samen met experts ter
zake worden hier al de relevante aspecten op een rijtje gezet.
De uitwerking van elk van deze onderwerpen volgt hetzelfde stramien:
1) We gaan van start met een vergadering met de bedrijven uit de
gebruikerscommissie om een beeld te krijgen van de noden en
wensen rond dit specifieke onderwerp.
2) Onze onderzoekers gaan na, indien nodig in samenwerking met andere
experts van KU Leuven, welke beschikbare technologie het best
aan deze wensen kan voldoen.
3) De resultaten van de studie worden gepresenteerd, waarna de leden
van de gebruikscommissie de kans krijgen om zelf hands-on ervaring
op te doen met ontwikkelde implementaties en/of systemen.