ESERCIZIO – Utilizzo del software WEKA per l’ implementazione di processi di data mining 12/12/2014, Consegna: 21/12/2014, ore 23.59 Modalità di consegna à tramite email a: [email protected]. Allegare un file pdf, contenente le soluzioni degli esercizi. Subject della email: “[BONUS3] Nome_Studente Cognome_Studente Matricola” Facendo riferimento al dataset: marketing_dataset_weka.arff (disponibile sulla pagina del corso), ed utilizzando il software WEKA (disponibile presso l’URL: http://www.cs.waikato.ac.nz/ml/weka/), svolgere i seguenti esercizi: a) Confrontare l’accuracy dei seguenti algoritmi di classificazione, utilizzando un test di cross-‐validation (10 folds, attributo classe: Income): Ø ZeroR (path: weka àclassifiers à rules à ZeroR) Ø OneR (path: weka àclassifiers à rules à OneR) Ø RandomForest (path: weka à classifiers à trees à RandomForest) Ø DecisionTable (path: weka à classifiers à rules à DecisionTable) Ø NaiveBayes (path: weka à classifiers à bayes à NaiveBayes) Produrre la tabella sotto indicata. Quale algoritmo produce l’accuracy più alta? Nome Algoritmo Accuracy (%) b) Riportare la confusion matrix relativa all’algoritmo di Naïve Bayes. Per quale classe si registra il maggior numero di istanze classificate correttamente? c) Ripetere l’analisi per il classificatore Naïve Bayes nel caso in cui si applichi una selezione degli attributi presenti nel data-‐set. Indicare gli attributi selezionati, e la nuova accuracy ottenuta. Confrontare il risultato con quanto ottenuto al punto (a). d) Ripetere l’analisi per il classificatore Naïve Bayes nel caso in cui si sostuiscano i valori mancanti (“?”) di un attributo con il rispettivo valor medio (Applicare filtro di WEKA: weka à filters à unsupervised à attribute à ReplaceMissingValues). Indicare la nuova accuracy ottenuta. Confrontare il risultato con quanto ottenuto al punto (a). e) Ripetere l’analisi per il classificatore Naïve Bayes nel caso in cui si scartino le righe contenenti valori mancanti (“?”) (utilizzare data_set: marketing_dataset_weka_nomissing.arff). Indicare la nuova accuracy ottenuta. Confrontando i risultati ottenuti al punto (d) ed (e), quale politica di gestione dei valori mancanti risulta maggiormente performante? f) Applicare iterativamente l’algoritmo di clustering K-‐means (weka à clusterers à SimpleKMeans), aumentando il numero di clusters creato ad ogni iterazione (start=2), fin quando l’errore (within cluster sum of squared errors) diventa minore del valore soglia, posto uguale a 45000. Ø Quanti clusters sono creati? Ø Riportare la composizione dei clusters creati, con i valori degli attributi per ciascun cluster.
© Copyright 2024 ExpyDoc