Universit´e de Caen Basse-Normandie 1 11 septembre 2014 D´epartement de Math´ematiques et M´ecanique Validation crois´ ee avec rattle Sommaire 1.1 1.2 1.3 1.4 1.5 Objectifs . . . . . . . . . . . . Description . . . . . . . . . . Pr´ eparation des donn´ ees . . . Exploration . . . . . . . . . . Mod´ elisation . . . . . . . . . 1.5.1 S´election de variables . . 1.5.2 Construction d’un mod`ele 1.6 Evaluation d’un mod` ele . . . 1.6.1 Matrice de confusion . . . 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 2 2 2 2 2 Objectifs Utilisez la biblioth`eque ratlle de R [Williams(2011), R Core Team(2013)] R´ ef´ erences [R Core Team(2013)] R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2013. URL http://www.R-project.org/. 1.1 [Williams(2011)] Graham J. Williams. Data Mining with Rattle and R: The art of excavating data for knowledge discovery. Use R ! Springer, 2011. 1.1 1.2 Description Cette table concerne une ´etude sur une maladie du coeur. Plusieurs hˆ opitaux ont r´ealis´e cette ´etude. — Cleveland Clinic Foundation [R. et al.(1989)R., A., W., Pfisterer, M., S., K., S., and V] — Hungarian Institute of Cardiology, Budapest — V.A. Medical Center, Long Beach, CA — University Hospital, Zurich, Switzerland Elles ont ´et´e ´etudi´ees en 89 par le laboratoire Center for machine learning and intelligent systems de l’universit´e de californie Irvine. Un descriptif des bases de donn´ees peut ˆetre trouv´ee `a https://archive.ics.uci.edu/ml/datasets/Heart+Disease. 1 2 3 nom age sex cp type quanti quali quali 4 trestbps quanti 5 chol quanti 6 fbs quali 7 restecg quali 8 9 thalach exang quanti quali 10 oldpeak quanti 11 slope quali 12 ca qualiordonne 13 thal quali 14 Y quali label modalit´es chest pain type resting blood pressure (in mm Hg on admission to the hospital) serum cholestoral in mg/dl (fasting blood sugar > 120 mg/dl) (1 = true ; 0 = false) resting electrocardiographic results maximum heart rate achieved exercise induced angina ST depression induced by exercise relative to rest the slope of the peak exercise ST segment number of major vessels (0-3) colored by flourosopy thal: 3 = normal ; 6 = fixed defect ; 7 = reversable defect http://www.math.unicaen.fr/~kauffman/cours female ;male asympt ;atyp angina ;non anginal ;typ angina f ;t left vent hyper ;normal ;st t wave abnormality no ;yes down ;flat ;up 0 ;1 ;2 ;3 fixed defect ;normal ;reversable defect normal ;malade 1 [email protected] Universit´e de Caen Basse-Normandie 11 septembre 2014 D´epartement de Math´ematiques et M´ecanique Table 1: Catalogue des variables Nous allons utiliser les donn´ees de l’hˆ opital de Cleveland. Elles sont disponibles au formats : arff http://www.math.unicaen.fr/~kauffman/data/heart-c.arff. csv http://www.math.unicaen.fr/~kauffman/data/heart-c.csv. Elle comporte 303 lignes et 14 colonnes. Dans R on peut les lire avec les instructions suivantes : DATA="http://www.math.unicaen.fr/~kauffman/data/" X=foreign::read.arff(paste(DATA,"heart-c.arff",sep="")) # 303x14 cleveland X=read.table(paste(DATA,"heart-c.csv",sep=""),sep=";",header=TRUE) # 303x14 cleveland R´ ef´ erences [R. et al.(1989)R., A., W., Pfisterer, M., S., K., S., and V] Detrano R., Janosi A., Steinbrunn W., Pfisterer, Schmid J. M., Sandhu S., Guppy K., Lee S., and Froelicher V. International application of a new probability algorithm for the diagnosis of coronary artery disease. American Journal of Cardiology, 64:304–310, 1989. 1.2 1.3 Pr´ eparation des donn´ ees 1. T´el´echarger le fichier au format heart-c.arff, s´electionner la source des donn´ees depuis le menu Donn´ ees -> Nom du fichier au format ARFF, et faire Ex´ ecuter. Puis v´erifier les types des variables ainsi que leurs utilisations comme variables explicatives ou cible. 2. Le partitionnement est propos´e par default, les proportions des bases apprentissage, validation test sont de 70/15/15. 3. On peut consulter ou modifier les donn´ees. 1.4 Exploration Depuis le menu Explorer 1. faire un r´ esum´ e des variables, quelles sont les variables ayant au moins une valeur manquante. 2. Depuis le menu distribution r´ealiser des diagrammes de type boˆıtes `a moustaches des variables quantitatives en fonction de la variable cible. 3. Puis faire des diagrammes en bˆ atons des variables qualitatives en fonction de la variable cible. 4. Etudier les variables explicatives li´ees ` a la variable cible. 1.5 1.5.1 Mod´ elisation S´ election de variables A l’aide des r´esultats obtenus s´electionner des variables li´ees `a la variable cible. 1.5.2 Construction d’un mod` ele Construire un mod`ele de type arbre de d´ecision expliquant la variable cible. 1.6 1.6.1 Evaluation d’un mod` ele Matrice de confusion Calculer la matrice de confusion et le taux d’erreur de classification pour les bases d’apprentissages, test et validation. http://www.math.unicaen.fr/~kauffman/cours 2 [email protected]
© Copyright 2024 ExpyDoc