Semi-supervised multi-label classificatie voor bioinformatica Promotor: Yvan Saeys Begeleider: Isaac Triguero Doelgroep: Wiskundige informatica Situering Standaard classificatietechnieken in machinaal leren gaan er typisch van uit dat een leervoorbeeld tot één enkele klasse uit een discrete, eindige verzameling van klassen behoort. Recente ontwikkelingen in het veld hebben echter geleid tot een nieuwe klasse van technieken, die multi-label classificatietechnieken genoemd worden. Bij deze nieuwe technieken is het mogelijk dat een leervoorbeeld niet slechts tot één maar tot meerder klassen tegelijk kan behoren. Stellen we ons bijvoorbeeld het probleem van topic detection op beelden voor, waarbij het de bedoeling is beelden onder te verdelen op basis van wat ze voorstellen, bijvoorbeeld “boom”, “strand”, “berglandschap”. Een beeld van een palmboom op een strand zou op deze manier zowel tot de klasse “boom” als “strand” kunnen behoren. Andere voorbeelden kunnen gevonden worden in het domein van de bioinformatica, waarbij bepaalde eiwitten tot meerdere functionele klassen kunnen behoren. Probleemstelling Multi-label classificatie is een uitdagende, nieuwe setting voor classificatiemodellen omdat het de complexiteit van de modellen verhoogt. Daarbij komt nog dat in vele gevallen het aantal mogelijke klasselabels vaak drastisch verhoogt, terwijl het aantal leervoorbeelden vaak beperkt is. Om deze modellen te verbeteren zouden we ook kunnen proberen om ongelabelde leervoorbeelden te gebruiken om het model te verbeteren. Ongelabelde leervoorbeelden zijn vaak veel talrijker, en gemakkelijker te vergaren dan gelabelde voorbeelden. Het combineren van gelabelde en ongelabelde leervoorbeelden resulteert in zogenaamd semi-gesuperviseerd leren. De combinatie van semigesuperviseerd leren met multi-label classificatie is een probleem dat tot op heden nog onvoldoende gekarakteriseerd is, maar potentieel heel wat kan opleveren voor domeinen zoals bioinformatica, natuurlijke taalverwerking en beeldverwerking, waar ongelabelde informatie in overvloed aanwezig is. Doelstellingen Binnen dit project zal de student in eerste instantie een literatuurstudie uitvoeren die de huidige stateof-the-art in het domein van semi-supervised multi-label leren karakteriseert. Hierbij zal in hoofdzaak nagegaan worden wat de voordelen en nadelen van de huidige modellen in dit domein zijn. Vervolgens zal de student nieuwe technieken exploreren die in staat zijn bepaalde nadelen van de huidige modellen te verbeteren. Vermits in dit domein typisch zeer veel ongelabelde data (big data) voorhanden is biedt dit onderwerp zeker ook de mogelijkheid tot het bestuderen van nieuwe paradigma’s voor parallellisatie zoals MapReduce en Spark. De expertise om deze technieken succesvol te gebruiken is aanwezig, alsook verschillende uitdagende datasets in het gebied van bioinformatica. Referenties: [1] X . Zhu, AB. Goldberg , Introduction to semi-supervised learning, 1st edn. Morgan and Claypool, San Rafael, CA (2009) [2] JQ. Jiang, LJ McQuay, Predicting Protein Function by Multi-Label Correlated Semi- Supervised Learning. IEEE Transactions on Computational Biology and Bioinformatics 9 (4) (2012) 1059-1069
© Copyright 2024 ExpyDoc