artikel

Door onze redactie
Data & Analyse
Text-mining en datavisualisatie:
Vinden, zonder precies
te weten wat je zocht
AMSTERDAM – Bij juridisch, strafrechtelijk en veel ander onderzoek
is ‘gewoon’ zoeken met zoektermen
al lang niet meer afdoende. Ook in
het dagelijkse, commerciële leven
wordt in grote hoeveelheden gegevens
steeds vaker naar verborgen patronen
en verbanden gezocht. Text-mining
biedt daarbij uitkomst, zo stelt Jan
Scholtes, hoogleraar aan de Universiteit van Maastricht en verantwoordelijk voor de strategie van ZyLAB,
leverancier van oplossingen voor
eDiscovery en informatierisicomanagement.
Het doorzoeken van elektronische bestanden wordt volgens Scholtes snel moeilijker
als je van tevoren niet precies weet waarnaar je op zoek bent. “Gegevensverzamelingen zijn tegenwoordig zo kolossaal, dat
zoeken eigenlijk niets meer oplost. Het
aantal mogelijke zoekvragen is te groot en
de lijst met zoekresultaten veel te lang om
nog te kunnen uitvoeren of te bevatten. De
enorme hoeveelheden gegevens om te gaan,
is ze automatisch te verrijken, patronen te
“Emotion-mining kan
worden ingezet om
te voorspellen hoe
klanten zich gaan
gedragen”
ren, visualiseren en prioriteren op ontdekte
Tekstanalyse
Text-mining, ook wel tekstanalyse genoemd, verschilt van het traditionele
zoeken waarbij de gebruiker weet wat hij of
zij zoekt. “Er wordt geprobeerd informatie
te ontdekken in de vorm van patronen en
semantische relaties die niet van tevoren
bekend zijn”, zo vertelt de ZyLAB-strateeg.
Door gebruik te maken van geavanceerde
technieken zoals patroonherkenning,
semantische informatie-extractie, natuurlijke taalverwerking en machine learning,
zoekt de computer naar de basiseenheden
in een tekst. Scholtes: “Dit kunnen personen zijn, bedrijven, locaties, producten,
feiten, leeftijden, adressen. Maar ook meer
complexe patronen zoals gebeurtenissen,
relaties tussen objecten, sentimenten of
emoties. Daarnaast analyseert de computer
naar wie er binnen de teksten wordt verwezen en welke namen en synoniemen er in
de teksten voorkomen. Daarna worden de
Nadat alle informatie uit de documenten is
seerd, worden de bevindingen weergegeven
in overzichtelijke diagrammen waarin de
relaties tussen de verschillende elementen
duidelijk zichtbaar worden.
Visualisatie
Emotion-mining is een nieuwe toepassing
waarnaar op dit moment onderzoek wordt
gedaan door de Universiteit van Maastricht.
geanalyseerd. De bewuste en onbewuste
emoties die deze teksten bevatten, kunnen
gedetecteerd en gevisualiseerd worden.
Deze informatie vergroot het inzicht in de
mining al geruime tijd commercieel wordt
gepast, zijn er nog legio mogelijkheden te
bedenken. “Emotion-mining kan bijvoorbeeld worden ingezet om te voorspellen
hoe klanten zich gaan gedragen of bij het
ontdekken van oplopende spanningen in
een fraude- of compliance-onderzoek.”
De tijd van handmatige zoekopdrachten
met zoekmachines is volgens Jan Scholtes
voorbij. “De enorme hoeveelheden informatie in onze hedendaagse samenleving vereisen een computer die deze ongestructureerde gegevensverzamelingen zelfstandig
verrijkt, patronen ontdekt, ordent, sorteert
en overzichtelijk visualiseert op basis van
kenmerken, eigenschappen en patronen.”
Actie ondernemen
Text-mining- en datavisualisatietechnieken
maken snel een automatische analyse van
overzicht van de inhoud. “Aan de hand
daarvan kunnen we vervolgens snel de
relevante delen van grote gegevensen indien nodig actie ondernemen”, aldus
de ZyLAB-specialist.
Emotion-mining gebaseerd op de analyse van de songteksten van 200 artiesten.
17
Door Victor Meerloo
De stofzuigerzak
is vol
M’n stofzuiger twitterde vorige week dat
zijn stofzak alweer vol zat. Dat was wel
en ik wist niet wat er aan de hand was.
Misschien dat het over twintig jaar zo
gaat. Dat je kinderen het bericht retweeten onder de hashtag #dtv (durf te vragen) om erachter te komen wat ze moeten
doen. Immers, hoe slimmer de apparaten,
hoe dommer de gebruiker kan worden.
Als straks alle apparaten berichtjes gaan
sturen, dan houd je geen tijd meer over
voor andere zaken. Dan moet ik een app
kopen om alle meldingen op te vangen
en de belangrijkste meldingen eruit te
z’n vel zit, de cv-ketel verkouden is, en m’n
koelkast zich zo leeg voelt. En oh ja, de kip
is bijna over de datum en denkt een salmonellavergiftiging te hebben. Daar komt
bij dat m’n thermostaat waarschijnlijk is
gehackt. Een week geleden is er namelijk ingebroken. Buiten vroor het en de
thermostaat stond constant op 16 graden.
Gecombineerd met de Facebook-updates
van mijn zoon, en het licht dat elke dag op
exact hetzelfde tijdstip aanging door de
aan de thermostaat gekoppelde domotica,
wist men kennelijk dat ik op vakantie
was. Misschien moet ik maar eens wat
apparaten loskoppelen van het web.
Niet handig
Ik ben benieuwd of dit het beeld is over
tien jaar. We hebben het over the internet
of things: slimme apparaten die verbonden zijn met andere apparaten in de
buitenwereld. Sowieso denk ik dat het niet
handig is dat je voor ieder apparaat een
app’je hebt, ook hier zal geconsolideerd
moeten worden. Stel dat er voor iedere
sensor in je auto een app zou bestaan.
Je zou knettergek worden van de pingetjes op je mobiel. We moeten een balans
zoeken tussen zelfsturende machines die
bijvoorbeeld zelf een monteur bellen, en
machines waarbij de machinedata en
streaming data complementair zijn aan
onze eigen beslissingen.
Dus daar zal het dan ook naartoe moeten.
Veel berichten die buiten het beeld van
de gebruiker worden uitgewisseld en
het dagelijks leven gewoon handiger en
grond informatie te analyseren, kunnen
gebruikers op allerlei manieren worden
geholpen. De streams die uit sensordata
ontstaan, zullen op platformen behandeld
moeten worden die hiervoor zijn ingericht: specialistische appliances zodat
realtime data ook realtime behandeld kan
worden. Technologiewijs kan het. Wat
beveiliging en ethiek betreft moeten er
nog wat ideetjes worden uitgewerkt. Je
wil immers niet dat iedereen alles van je
weet. Of zou dat mijn ouderwetse beeld
zijn? Wellicht denken m’n kinderen daar
straks ook anders over. Of eigenlijk doen
ze dat nu al.
VICTOR MEERLOO is big-dataconsultant
bij Smart Information Solutions, onderdeel
van i groep.
Beslissingen
onvoldoende
onderbouwd
HOOFDDORP – Onderzoek onder
bijna 400 beslissers in Europa, NoordAmerika en Azië toont aan dat pakweg de helft van bestuurders over de
noodzakelijke informatie beschikt om
zakelijke beslissingen voor de aankomende zes maanden met vertrouwen
te kunnen nemen.
Het onderzoek, gehouden door Harvard
Business Review in opdracht van Qlik, leverancier van BI-oplossingen, maakt helder
dat vertrouwen in de kwaliteit van de eigen
bedrijfsgegevens gecorreleerd is aan groeiverwachtingen. De helft van de beslissers
die vertrouwen heeft in zijn data zegt groei
binnen de organisatie te verwachten, terwijl
een deel van de respondenten dat minder
vertrouwen heeft in de data pessimistisch is
over het aankomende jaar (22 procent).
Gevraagd naar de belangrijkste struikelblokken bij het beslisproces, geeft 44 procent de schuld aan gebrek aan toegang tot
interne data en volgens 36 procent ligt het
aan de kwaliteit van de interne data. Bijna
de helft van de bestuurders (48 procent)
zegt moeite te hebben om toegang te krijgen
tot de juiste klantgegevens. Ook snelheid is
iets waar bestuurders zich druk over maken.
Bijna 90 procent geeft aan dat het belang
van inzicht in realtime data toeneemt.