THESISONDERWERPEN 2015-2016 (versie 20 februari 2015) Prof. Dr. M. Vandebroek Dit document is nog niet volledig en wordt nog regelmatig geüpdatet. Indien interesse of extra uitleg nodig: mail naar [email protected]. Studenten kunnen ook zelf onderwerpen voorstellen: thesisonderwerpen met een kwantitatieve/statistische onderbouw zijn steeds welkom. onderwerpen i.s.m. CoScale (statistiek – handelsingenieurs - beleidsinformatica) Title: Data mining for business-critical web applications CoScale (http://www.coscale.com/) is a startup, located in Ghent, focused on optimizing large-scale web applications (like e-commerce, media, social and other web sites) by gathering thousands of metrics related to web application performance and efficiency. We are looking for motivated students that want to work closely with our own data scientist in analyzing the large captured amount of data. Because the vast amount of data, several topics related to data mining are possible, including (but not restricted to) the following ones: - Building accurate forecasting models for predicting future bottlenecks (i.e. what component will become the bottleneck when the number of users increases by a factor of 2), for deriving trends (i.e. when will our server capacity reach its limit) or for doing capacity planning (i.e. can we predict how much extra capacity we need for supporting an increase with x users). These models will allow our customers to plan their application and infrastructure for the future. - Automatic outlier detection for automatically detecting when one or more metrics deviate from their normal behavior. For example, the end-user response time might follow a sine-wave pattern, where response time is different depending on the exact time of the day. If there is a significant difference compared to the same time period of the previous day, this might be considered as an outlier. These detection techniques will make it possible to automatically detect when something goes wrong within a web application. - Constructing causility models for determining causal relations. Given the large amount of metrics, and the fact that a lot of these metrics are correlated, it is valuable to find out which metrics have causal relations. For example, when a peak in end-user response time is detected, it would be interesting to find out what exactly caused the peak. Maybe this was caused by a backend database system or a background job running on the server infrastructure. The results of this master thesis are very likely to be integrated into our future product. However, the presented topics are just an example of the numerous data mining possibilities at CoScale. The student will be encouraged to think about other data mining questions. onderwerpen i.s.m. Delhaize (statistiek – handelsingenieurs - beleidsinformatica) Er zijn 2 onderwerpen op komst: eentje over de prijssetting en dan vooral het verschil t.o.v. de concurrenten, eentje over store sequencing. Hopelijk is er meer informatie beschikbaar eind februari. onderwerp: Excel add-ins voor statistiek aanmaken in Visual Basic (statistiek – handelsingenieurs - beleidsinformatica) onderwerp: User Interface in R voor Toepassingen van Statistiek (statistiek – handelsingenieurs - beleidsinformatica) onderwerpen i.s.m. Colruyt (statistiek – handelsingenieurs - beleidsinformatica) De verschillende onderwerpen die hieronder beschreven worden, hebben allemaal hetzelfde doel voor ogen: de alignering en de ontwikkeling van sturingsinstrumenten om te komen tot beter geïnformeerde beslissingen doorheen de organisatie. 1. Opkuis van de business objecten door middel van tekst mining van de tekstuele metadata Uitdaging o Binnen Colruyt Groep bestaan momenteel zo’n 56000 objecten binnen de beleidsondersteuning. Deze objecten omvatten maatstaven, dimensies, hiërarchieën, filters en details. Door de wildgroei van deze objecten –er bestaan tal van synoniemenen de vervuiling die opgetreden is– er bestaan maatstaven waar een dimensie in verwerkt zit – dringt een opkuis zich op. Zeker in het licht van de opdracht om tot generieke groepskpi’s en unieke partnerkpis te komen als voorbereiding van de Colruyt groepscockpit. Aanpak o Analyse van de tekstuele metadata van alle objecten uit alle Business Objects Universes – door de toepassing van een aantal multivariate data reductie methodes. Deliverables o Inventarisatie en kwantificatie van de wilgroei en vervuiling, analyse en indikking van de business objecten, formuleren van advies en aanpak tot generalisatie van een aantal processturingsinstrumenten 2. Gebalanceerde samenstelling rapporterings- en analysedesks door middel van empirisch onderzoek Uitdaging o Het decision-making process van de organisatie wordt via rapporterings- en analysedesks ondersteund. Dit gebeurt op een op maat gesneden manier teneinde maximale meerwaarde voor de zakelijke gebruiker op te leveren. Meer en meer self service wordt daardoor bekomen. Om de uitrol van de nieuwe desks nog te verbeteren, is er nood aan een onderbouwde wijze om de desks samen te stellen. Aanpak o Doorlichting van de huidige rapporteringsomgeving en de bijhorende ondersteuning. Modellering via logistische regressie van discreet aantal leden van de bestaande afdeling als predictor voor de toekomstige desks. Deliverables o Formules om het aantal desk leden te berekenen aan de hand van de karakteristieken van de huidige omgeving zoals het gebruik, het aantal rapporten, het aantal gebruikers, enz. Kwantitatieve onderbouwing en advies voor de uitrol van de volgende 10 desks. 3. Ontwikkeling van reporting templates via sandboxing - op zoek naar effectieve visualisaties voor de aanmaak van standaard rapporteringswijzen Uitdaging o Heel wat analyses gebeuren momenteel nog in een Excel omgeving omwille van de flexibiliteit, gewoonte en gemak. Repetitieve zaken worden soms via dezelfde omgeving semi-geïndustrialiseerd hetgeen niet altijd even duurzaam is. Dit onderzoek zal bekijken welke visualisaties idealiter in standaard rapporten zouden worden ondergebracht ipv in Excel bestanden. Aanpak o Inventarisatie van huidige rapporteringsinstrumenten, descriptief onderzoek om meer effectieve visualisaties aan te maken, formuleren voorstellen tot standaardisatie van typische visualisaties van bijvoorbeeld financiële gegevens – vb waterfall breakdown van loonkost componenten. Deliverables o Inzicht in generieke visualisaties. Design van nieuwe tactische en strategische vormen van rapportage. 4. Creatie gepaste information quality maatstaven Uitdaging o Binnen Performance Management speelt Data Quality nog te veel een slechts symbolische rol. Door de veelheid en specificiteit van de uitdagingen is het in kaart brengen van de kwaliteit niet evident. Slechte data wordt meestal achteraf rechtgezet eenmaal de zakelijke gebruikers gemerkt hebben dat iets niet in orde is. Aanpak o Deze opdracht zal klaarheid scheppen in de wirwar aan datakwaliteitsindicatoren op het vlak van beschikbaarheid voor de dimensies en qua waarden voor de maatstaven. Deze maatstaven zullen getest worden op effectieve data binnen het data warehouse. Deliverables o Beschrijving van set aan gepaste DQ-indicatoren. Nulmeting van de indicatoren en design van ondersteunende BI-visualisaties zoals DQ-dashboards om de governance te monitoren. 5. Text mining keywords – contextualisering van de keywords van in te checken rapporten Uitdaging o Bij het inchecken van rapporten in iRap worden trefwoorden opgegeven. De uniciteit van deze trefwoorden is momenteel niet goed genoeg om gevat rapporten terug te vinden. Er is nood aan meer inzicht in de trefkansen in functie van trefwoorden aan de ene kant en aan een automatische bepaling van relevante en unieke trefwoorden. Aanpak o Een methode dient nog ontwikkeld te worden om de uniciteit van de huidige trefwoorden afdoende te meten. Een specifieke data reductie methode dient te worden toegepast om de kleur van documenten in te schatten op basis van de tekst labels van de gebruikte business objecten. Deliverables o Doorlichting van de huidige trefwoorden en indicatie van uniciteit. Ad hoc berekeningswijze van trefwoorden op basis van de metadata van de objecten die op het rapport voorkomen.
© Copyright 2024 ExpyDoc