THESISONDERWERPEN 2015-2016 (versie 20 februari 2015) Prof

THESISONDERWERPEN 2015-2016
(versie 20 februari 2015)
Prof. Dr. M. Vandebroek
Dit document is nog niet volledig en wordt nog regelmatig geüpdatet.
Indien interesse of extra uitleg nodig: mail naar [email protected].
Studenten kunnen ook zelf onderwerpen voorstellen:
thesisonderwerpen met een kwantitatieve/statistische onderbouw zijn steeds welkom.
onderwerpen i.s.m. CoScale (statistiek – handelsingenieurs - beleidsinformatica)
Title: Data mining for business-critical web applications
CoScale (http://www.coscale.com/) is a startup, located in Ghent, focused on optimizing large-scale web
applications (like e-commerce, media, social and other web sites) by gathering thousands of metrics related to
web application performance and efficiency. We are looking for motivated students that want to work closely
with our own data scientist in analyzing the large captured amount of data.
Because the vast amount of data, several topics related to data mining are possible, including (but not restricted
to) the following ones:
-
Building accurate forecasting models for predicting future bottlenecks (i.e. what component will become
the bottleneck when the number of users increases by a factor of 2), for deriving trends (i.e. when will our
server capacity reach its limit) or for doing capacity planning (i.e. can we predict how much extra capacity
we need for supporting an increase with x users). These models will allow our customers to plan their
application and infrastructure for the future.
-
Automatic outlier detection for automatically detecting when one or more metrics deviate from their
normal behavior. For example, the end-user response time might follow a sine-wave pattern, where
response time is different depending on the exact time of the day. If there is a significant difference
compared to the same time period of the previous day, this might be considered as an outlier. These
detection techniques will make it possible to automatically detect when something goes wrong within a
web application.
-
Constructing causility models for determining causal relations. Given the large amount of metrics, and the
fact that a lot of these metrics are correlated, it is valuable to find out which metrics have causal
relations. For example, when a peak in end-user response time is detected, it would be interesting to find
out what exactly caused the peak. Maybe this was caused by a backend database system or a background
job running on the server infrastructure.
The results of this master thesis are very likely to be integrated into our future product. However, the presented
topics are just an example of the numerous data mining possibilities at CoScale. The student will be encouraged
to think about other data mining questions.
onderwerpen i.s.m. Delhaize (statistiek – handelsingenieurs - beleidsinformatica)
Er zijn 2 onderwerpen op komst: eentje over de prijssetting en dan vooral het verschil t.o.v. de
concurrenten, eentje over store sequencing. Hopelijk is er meer informatie beschikbaar eind februari.
onderwerp: Excel add-ins voor statistiek aanmaken in Visual Basic
(statistiek – handelsingenieurs - beleidsinformatica)
onderwerp: User Interface in R voor Toepassingen van Statistiek
(statistiek – handelsingenieurs - beleidsinformatica)
onderwerpen i.s.m. Colruyt (statistiek – handelsingenieurs - beleidsinformatica)
De verschillende onderwerpen die hieronder beschreven worden, hebben allemaal hetzelfde doel voor
ogen: de alignering en de ontwikkeling van sturingsinstrumenten om te komen tot beter geïnformeerde
beslissingen doorheen de organisatie.
1. Opkuis van de business objecten door middel van tekst mining van de tekstuele metadata

Uitdaging
o Binnen Colruyt Groep bestaan momenteel zo’n 56000 objecten binnen de
beleidsondersteuning. Deze objecten omvatten maatstaven, dimensies, hiërarchieën,
filters en details. Door de wildgroei van deze objecten –er bestaan tal van synoniemenen de vervuiling die opgetreden is– er bestaan maatstaven waar een dimensie in verwerkt
zit – dringt een opkuis zich op. Zeker in het licht van de opdracht om tot generieke
groepskpi’s en unieke partnerkpis te komen als voorbereiding van de Colruyt
groepscockpit.
 Aanpak
o Analyse van de tekstuele metadata van alle objecten uit alle Business Objects Universes
– door de toepassing van een aantal multivariate data reductie methodes.
 Deliverables
o Inventarisatie en kwantificatie van de wilgroei en vervuiling, analyse en indikking van de
business objecten, formuleren van advies en aanpak tot generalisatie van een aantal
processturingsinstrumenten
2. Gebalanceerde samenstelling rapporterings- en analysedesks door middel van empirisch
onderzoek
 Uitdaging
o Het decision-making process van de organisatie wordt via rapporterings- en analysedesks
ondersteund. Dit gebeurt op een op maat gesneden manier teneinde maximale
meerwaarde voor de zakelijke gebruiker op te leveren. Meer en meer self service wordt
daardoor bekomen. Om de uitrol van de nieuwe desks nog te verbeteren, is er nood aan
een onderbouwde wijze om de desks samen te stellen.
 Aanpak
o Doorlichting van de huidige rapporteringsomgeving en de bijhorende ondersteuning.
Modellering via logistische regressie van discreet aantal leden van de bestaande afdeling
als predictor voor de toekomstige desks.
 Deliverables
o Formules om het aantal desk leden te berekenen aan de hand van de karakteristieken
van de huidige omgeving zoals het gebruik, het aantal rapporten, het aantal gebruikers,
enz. Kwantitatieve onderbouwing en advies voor de uitrol van de volgende 10 desks.
3. Ontwikkeling van reporting templates via sandboxing - op zoek naar effectieve visualisaties voor
de aanmaak van standaard rapporteringswijzen
 Uitdaging
o Heel wat analyses gebeuren momenteel nog in een Excel omgeving omwille van de
flexibiliteit, gewoonte en gemak. Repetitieve zaken worden soms via dezelfde omgeving
semi-geïndustrialiseerd hetgeen niet altijd even duurzaam is. Dit onderzoek zal bekijken
welke visualisaties idealiter in standaard rapporten zouden worden ondergebracht ipv in
Excel bestanden.
 Aanpak
o Inventarisatie van huidige rapporteringsinstrumenten, descriptief onderzoek om meer
effectieve visualisaties aan te maken, formuleren voorstellen tot standaardisatie van
typische visualisaties van bijvoorbeeld financiële gegevens – vb waterfall breakdown van
loonkost componenten.
 Deliverables
o Inzicht in generieke visualisaties. Design van nieuwe tactische en strategische vormen
van rapportage.
4. Creatie gepaste information quality maatstaven
 Uitdaging
o Binnen Performance Management speelt Data Quality nog te veel een slechts
symbolische rol. Door de veelheid en specificiteit van de uitdagingen is het in kaart
brengen van de kwaliteit niet evident. Slechte data wordt meestal achteraf rechtgezet
eenmaal de zakelijke gebruikers gemerkt hebben dat iets niet in orde is.
 Aanpak
o Deze opdracht zal klaarheid scheppen in de wirwar aan datakwaliteitsindicatoren op het
vlak van beschikbaarheid voor de dimensies en qua waarden voor de maatstaven. Deze
maatstaven zullen getest worden op effectieve data binnen het data warehouse.
 Deliverables
o Beschrijving van set aan gepaste DQ-indicatoren. Nulmeting van de indicatoren en design
van ondersteunende BI-visualisaties zoals DQ-dashboards om de governance te
monitoren.
5. Text mining keywords – contextualisering van de keywords van in te checken rapporten
 Uitdaging
o Bij het inchecken van rapporten in iRap worden trefwoorden opgegeven. De uniciteit van
deze trefwoorden is momenteel niet goed genoeg om gevat rapporten terug te vinden. Er
is nood aan meer inzicht in de trefkansen in functie van trefwoorden aan de ene kant en
aan een automatische bepaling van relevante en unieke trefwoorden.
 Aanpak
o Een methode dient nog ontwikkeld te worden om de uniciteit van de huidige trefwoorden
afdoende te meten. Een specifieke data reductie methode dient te worden toegepast om
de kleur van documenten in te schatten op basis van de tekst labels van de gebruikte
business objecten.
 Deliverables
o Doorlichting van de huidige trefwoorden en indicatie van uniciteit. Ad hoc
berekeningswijze van trefwoorden op basis van de metadata van de objecten die op het
rapport voorkomen.