Semi-supervised multi-label classificatie voor bioinformatica

Semi-supervised multi-label classificatie voor bioinformatica
Promotor: Yvan Saeys
Begeleider: Isaac Triguero
Doelgroep: Wiskundige informatica
Situering
Standaard classificatietechnieken in machinaal leren gaan er typisch van uit dat een leervoorbeeld tot
één enkele klasse uit een discrete, eindige verzameling van klassen behoort. Recente ontwikkelingen
in het veld hebben echter geleid tot een nieuwe klasse van technieken, die multi-label
classificatietechnieken genoemd worden. Bij deze nieuwe technieken is het mogelijk dat een
leervoorbeeld niet slechts tot één maar tot meerder klassen tegelijk kan behoren. Stellen we ons
bijvoorbeeld het probleem van topic detection op beelden voor, waarbij het de bedoeling is beelden
onder te verdelen op basis van wat ze voorstellen, bijvoorbeeld “boom”, “strand”, “berglandschap”.
Een beeld van een palmboom op een strand zou op deze manier zowel tot de klasse “boom” als
“strand” kunnen behoren. Andere voorbeelden kunnen gevonden worden in het domein van de
bioinformatica, waarbij bepaalde eiwitten tot meerdere functionele klassen kunnen behoren.
Probleemstelling
Multi-label classificatie is een uitdagende, nieuwe setting voor classificatiemodellen omdat het de
complexiteit van de modellen verhoogt. Daarbij komt nog dat in vele gevallen het aantal mogelijke
klasselabels vaak drastisch verhoogt, terwijl het aantal leervoorbeelden vaak beperkt is. Om deze
modellen te verbeteren zouden we ook kunnen proberen om ongelabelde leervoorbeelden te
gebruiken om het model te verbeteren. Ongelabelde leervoorbeelden zijn vaak veel talrijker, en
gemakkelijker te vergaren dan gelabelde voorbeelden. Het combineren van gelabelde en ongelabelde
leervoorbeelden resulteert in zogenaamd semi-gesuperviseerd leren. De combinatie van semigesuperviseerd leren met multi-label classificatie is een probleem dat tot op heden nog onvoldoende
gekarakteriseerd is, maar potentieel heel wat kan opleveren voor domeinen zoals bioinformatica,
natuurlijke taalverwerking en beeldverwerking, waar ongelabelde informatie in overvloed aanwezig
is.
Doelstellingen
Binnen dit project zal de student in eerste instantie een literatuurstudie uitvoeren die de huidige stateof-the-art in het domein van semi-supervised multi-label leren karakteriseert. Hierbij zal in hoofdzaak
nagegaan worden wat de voordelen en nadelen van de huidige modellen in dit domein zijn.
Vervolgens zal de student nieuwe technieken exploreren die in staat zijn bepaalde nadelen van de
huidige modellen te verbeteren. Vermits in dit domein typisch zeer veel ongelabelde data (big data)
voorhanden is biedt dit onderwerp zeker ook de mogelijkheid tot het bestuderen van nieuwe
paradigma’s voor parallellisatie zoals MapReduce en Spark. De expertise om deze technieken
succesvol te gebruiken is aanwezig, alsook verschillende uitdagende datasets in het gebied van
bioinformatica.
Referenties:
[1] X . Zhu, AB. Goldberg , Introduction to semi-supervised learning, 1st edn. Morgan and
Claypool, San Rafael, CA (2009)
[2] JQ. Jiang, LJ McQuay, Predicting Protein Function by Multi-Label Correlated Semi- Supervised
Learning. IEEE Transactions on Computational Biology and Bioinformatics 9 (4) (2012) 1059-1069