4.¨Ubung Skriptsprachen in der Bioinformatik

4. Übung Skriptsprachen in der Bioinformatik
Sommersemester 2016
Kai Dührkop
Ausgabe: 27.05.2016
Aufgabe 1 Laden Sie sich den Newsgroup Datensatz herunter und separieren Sie ihn zufällig in einen
Test- und Trainingsdatensatz
from s k l e a r n . d a t a s e t s import f e t c h 2 0 n e w s g r o u p s
newsgroups = f e t c h 2 0 n e w s g r o u p s ( )
Aufgabe 2 Trainieren Sie einen linearen und polynomiellen SVM Klassifikator, der die News nach
Kategorien unterscheiden kann. Nutzen Sie einen CountVectorizer um die Strings in Vektoren
umzuwandeln. Verwenden Sie eine Grid-Search um die Parameter zu lernen.
Aufgabe 3 Trainieren Sie einen Random Forest für das gleiche Problem. Welche Methode performt
besser?
Aufgabe 4 Geben sie die 10 wichtigsten Wörter für die Klassifizierung des Problems an.
1