4. Übung Skriptsprachen in der Bioinformatik Sommersemester 2016 Kai Dührkop Ausgabe: 27.05.2016 Aufgabe 1 Laden Sie sich den Newsgroup Datensatz herunter und separieren Sie ihn zufällig in einen Test- und Trainingsdatensatz from s k l e a r n . d a t a s e t s import f e t c h 2 0 n e w s g r o u p s newsgroups = f e t c h 2 0 n e w s g r o u p s ( ) Aufgabe 2 Trainieren Sie einen linearen und polynomiellen SVM Klassifikator, der die News nach Kategorien unterscheiden kann. Nutzen Sie einen CountVectorizer um die Strings in Vektoren umzuwandeln. Verwenden Sie eine Grid-Search um die Parameter zu lernen. Aufgabe 3 Trainieren Sie einen Random Forest für das gleiche Problem. Welche Methode performt besser? Aufgabe 4 Geben sie die 10 wichtigsten Wörter für die Klassifizierung des Problems an. 1
© Copyright 2024 ExpyDoc