Big Data: de technologie achter de hype Iedereen lijkt tegenwoordig de mond vol te hebben van Big Data. Toch is het niet altijd even duidelijk wat er met deze term juist bedoeld wordt, of wat dan wel precies de concrete meerwaarde hiervan zou zijn. In dit project willen we dan ook, in samenspraak met een gebruikerscommissie van geïnteresseerde bedrijven, op zoek gaan naar de technologie achter de Big Data hype. Concreet zullen we hierbij volgende specifieke onderwerpen bekijken. Big data is like teen sex. Everybody is talking about it, everyone thinks everyone else is doing it, so everyone claims they are doing it. — Dan Ariely BigData-opslag. Er bestaan een groot aantal verschillende manieren om, typisch bovenop een standaard HDFS file system, gegevens op te slaan op een Big Data cluster: NoSQL, MongoDB, CouchDB, Redis, ... In dit werkpakket zullen we deze verschillende mogelijkheden uittesten en hun voor-/nadelen op een rijtje zetten. Tijdens een hands-on workshop krijgen geïnteresseerde leden uit de gebruikerscommissie de kans om te experimenteren met een aantal van deze systemen, geïnstalleerd op onze eigen cluster. BigData-crunching. Naast het louter opslaan van gegevens is ook de mogelijkheid om data gedistribueerd te verwerken een belangrijk onderdeel van de Big Data filosofie. Het MapReduce raamwerk van Google, meestal in zijn Apache Hadoop incarnatie, is hierbij de standaard oplossing, maar dit is lang niet de enige mogelijkheid. Diverse uitbreidingen of varianten zetten in op, bijvoorbeeld, meer rekenkracht (Mars, MGMR) of groter gebruiksgemak (Hive, Elasticsearch, Impala). BigData-science. Het terugvinden van nuttige kennis in grote hoeveelheden data is geen triviale taak. De "data scientist" heeft hiervoor een gamma van gespecialiseerde tools ter beschikken, gaande van statistische methodes tot data-mining algoritmes. Veel van deze algoritmes zijn beschikbaar als open source software, bijvoorbeeld binnen het pakket R of als Python module.! BigData-visualisatie. Naarmate hoeveelheden gegevens! groter en groter worden, wordt ook het visualiseren hiervan een steeds uitdagendere taak. Tegelijk zijn sommige van de meest tot de verbeelding sprekende toepassingen van Big Data (zie bijvoorbeeld ekisto.sq.ro, senseable.mit.edu/livesingapore of vele anderen) juist geslaagde creatieve visualisaties. Daarnaast zijn visualisaties ook nodig bij het monitoren van machines, webservers, ... Technologie zoals Graphite en Dashing kan hierbij helpen. BigData-streaming. Veel hedendaagse Big Data toepassingen zijn gebaseerd op een continue stroom aan gegevens, afkomstig van bijvoorbeeld sensornetwerken of sociale media zoals Twitter. Gespecialiseerde frameworks zoals Storm kunnen helpen om een dergelijke datastroom in real-time te verwerken. Juridische vraagstukken. Bij de ontwikkeling van Big Data toepassingen, komen typisch ook een aantal juridische vragen tevoorschijn, bijvoorbeeld naar privacy of eigenaarschap van data. Samen met experts ter zake worden hier al de relevante aspecten op een rijtje gezet. De uitwerking van elk van deze onderwerpen volgt hetzelfde stramien: 1) We gaan van start met een vergadering met de bedrijven uit de gebruikerscommissie om een beeld te krijgen van de noden en wensen rond dit specifieke onderwerp. 2) Onze onderzoekers gaan na, indien nodig in samenwerking met andere experts van KU Leuven, welke beschikbare technologie het best aan deze wensen kan voldoen. 3) De resultaten van de studie worden gepresenteerd, waarna de leden van de gebruikscommissie de kans krijgen om zelf hands-on ervaring op te doen met ontwikkelde implementaties en/of systemen.
© Copyright 2024 ExpyDoc