A tutorial for cross-validation model with rattle

Universit´e de Caen Basse-Normandie
1
11 septembre 2014
D´epartement de Math´ematiques et M´ecanique
Validation crois´
ee avec rattle
Sommaire
1.1
1.2
1.3
1.4
1.5
Objectifs . . . . . . . . . . . .
Description . . . . . . . . . .
Pr´
eparation des donn´
ees . . .
Exploration . . . . . . . . . .
Mod´
elisation . . . . . . . . .
1.5.1 S´election de variables . .
1.5.2 Construction d’un mod`ele
1.6 Evaluation d’un mod`
ele . . .
1.6.1 Matrice de confusion . . .
1.1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. .
. .
. . .
. . .
. .
. . .
1
1
2
2
2
2
2
2
2
Objectifs
Utilisez la biblioth`eque ratlle de R [Williams(2011), R Core Team(2013)]
R´
ef´
erences
[R Core Team(2013)] R Core Team. R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria, 2013.
URL
http://www.R-project.org/. 1.1
[Williams(2011)] Graham J. Williams. Data Mining with Rattle and R: The art of excavating data
for knowledge discovery. Use R ! Springer, 2011. 1.1
1.2
Description
Cette table concerne une ´etude sur une maladie du coeur. Plusieurs hˆ
opitaux ont r´ealis´e cette ´etude.
— Cleveland Clinic Foundation [R. et al.(1989)R., A., W., Pfisterer, M., S., K., S., and V]
— Hungarian Institute of Cardiology, Budapest
— V.A. Medical Center, Long Beach, CA
— University Hospital, Zurich, Switzerland
Elles ont ´et´e ´etudi´ees en 89 par le laboratoire Center for machine learning and intelligent systems
de l’universit´e de californie Irvine. Un descriptif des bases de donn´ees peut ˆetre trouv´ee `a
https://archive.ics.uci.edu/ml/datasets/Heart+Disease.
1
2
3
nom
age
sex
cp
type
quanti
quali
quali
4
trestbps
quanti
5
chol
quanti
6
fbs
quali
7
restecg
quali
8
9
thalach
exang
quanti
quali
10
oldpeak
quanti
11
slope
quali
12
ca
qualiordonne
13
thal
quali
14
Y
quali
label
modalit´es
chest pain type
resting blood pressure (in mm Hg
on admission to the hospital)
serum cholestoral in mg/dl
(fasting blood sugar > 120
mg/dl) (1 = true ; 0 = false)
resting electrocardiographic results
maximum heart rate achieved
exercise induced angina
ST depression induced by exercise relative to rest
the slope of the peak exercise ST
segment
number of major vessels (0-3) colored by flourosopy
thal: 3 = normal ; 6 = fixed defect ; 7 = reversable defect
http://www.math.unicaen.fr/~kauffman/cours
female ;male
asympt ;atyp angina ;non anginal ;typ angina
f ;t
left vent hyper ;normal ;st t wave abnormality
no ;yes
down ;flat ;up
0 ;1 ;2 ;3
fixed defect ;normal ;reversable defect
normal ;malade
1
[email protected]
Universit´e de Caen Basse-Normandie
11 septembre 2014
D´epartement de Math´ematiques et M´ecanique
Table 1: Catalogue des variables
Nous allons utiliser les donn´ees de l’hˆ
opital de Cleveland. Elles sont disponibles au formats :
arff http://www.math.unicaen.fr/~kauffman/data/heart-c.arff.
csv http://www.math.unicaen.fr/~kauffman/data/heart-c.csv.
Elle comporte 303 lignes et 14 colonnes. Dans R on peut les lire avec les instructions suivantes :
DATA="http://www.math.unicaen.fr/~kauffman/data/"
X=foreign::read.arff(paste(DATA,"heart-c.arff",sep="")) # 303x14 cleveland
X=read.table(paste(DATA,"heart-c.csv",sep=""),sep=";",header=TRUE) # 303x14 cleveland
R´
ef´
erences
[R. et al.(1989)R., A., W., Pfisterer, M., S., K., S., and V] Detrano R., Janosi A., Steinbrunn W., Pfisterer, Schmid J. M.,
Sandhu S., Guppy K., Lee S., and Froelicher V. International application of a new probability algorithm for the diagnosis
of coronary artery disease. American Journal of Cardiology, 64:304–310, 1989. 1.2
1.3
Pr´
eparation des donn´
ees
1. T´el´echarger le fichier au format heart-c.arff, s´electionner la source des donn´ees depuis le menu Donn´
ees -> Nom
du fichier au format ARFF, et faire Ex´
ecuter. Puis v´erifier les types des variables ainsi que leurs utilisations comme
variables explicatives ou cible.
2. Le partitionnement est propos´e par default, les proportions des bases apprentissage, validation test sont de 70/15/15.
3. On peut consulter ou modifier les donn´ees.
1.4
Exploration
Depuis le menu Explorer
1. faire un r´
esum´
e des variables, quelles sont les variables ayant au moins une valeur manquante.
2. Depuis le menu distribution r´ealiser des diagrammes de type boˆıtes `a moustaches des variables quantitatives en fonction
de la variable cible.
3. Puis faire des diagrammes en bˆ
atons des variables qualitatives en fonction de la variable cible.
4. Etudier les variables explicatives li´ees `
a la variable cible.
1.5
1.5.1
Mod´
elisation
S´
election de variables
A l’aide des r´esultats obtenus s´electionner des variables li´ees `a la variable cible.
1.5.2
Construction d’un mod`
ele
Construire un mod`ele de type arbre de d´ecision expliquant la variable cible.
1.6
1.6.1
Evaluation d’un mod`
ele
Matrice de confusion
Calculer la matrice de confusion et le taux d’erreur de classification pour les bases d’apprentissages, test et validation.
http://www.math.unicaen.fr/~kauffman/cours
2
[email protected]