Analyse des données Travaux Pratiques sous R

P OLYTECH ’L ILLE
D ÉPARTEMENT GTGC
Analyse des données
Travaux Pratiques sous R
Le logiciel R
R est un logiciel libre de statistique, disponible sur http ://www.r-project.org/, fonctionnant sous la
forme de lignes de commandes. Le logiciel R peut fonctionner en mode lignes de commandes. Pour cela, il suffit de
se loguer sous Linux et de taper dans un terminal la commande “R”. Nous utiliserons plutôt le logiciel Rstudio, qui
propose une interface conviviale pour travailler avec R.
Pour obtenir de l’aide sur une fonction (par exemple sur la fonction plot), il suffit d’exécuter la commande help(plot).
Concrete compressive strength
L’objectif de ce TP est d’établir un modèle permettant de prédire la résistance à la compression du béton en fonction
de ses composants et de l’âge du béton. Le fichier de données contient, pour 1030 échantillons de béton, les variables
suivantes :
– Cement (kg.m−3 )
– Blast Furnace Slag (kg.m−3 )
– Fly Ash (kg.m−3 )
– Water (kg.m−3 )
– Superplasticizer (kg.m−3 )
– Coarse Aggregate (kg.m−3 )
– Fine Aggregate (kg.m−3 )
– Age ({1, ..., 365})
– Concrete compressive strength (M P a)
A quoi correspondent chacune de ces variables ? L’objectif est dans un premier temps d’importer sous R ce jeu de
données. Pour cela :
1. Récupérer le fichier Concrete_Data.dat sur
http ://labomath.univ-lille1.fr/∼ jacques/Download/DataSet/
2. Charger le fichier de données sous R à l’aide de la commande
data=read.table(’Concrete_Data.dat’,header=TRUE)
L’objet data est alors un data-frame, une table de données, dont les colonnes (accessibles par l’instance
data$Cement par exemple) correspondent aux variables décrivant les 1030 échantillons de béton.
1 Analyse descriptive univariée
Pour chaque variable :
1. Donner les principales statistiques descriptives (moyenne, écart-type...) à l’aide de la fonction summary.
2. Illustrer la distribution à l’aide d’un histogramme (fonction hist). Si vous voulez afficher plusieurs histogrammes sur un même graphique, vous pouvez pour cela partager la fenêtre graphique en n × p graphiques à
l’aide de la commande par(mfrow=c(n,p)).
3. Les distributions vous semblent-elles gaussiennes ? Si non, essayer quelques transformations élémentaires des
variables afin de la rendre les plus gaussiennes possibles (log, exp, 2 ...).
On utilisera par la suite les variables transformées.
1
2 Liens avec la résistance à la compression du béton
1. Représenter à l’aide d’un nuage de point la liaison de la résistance à la compression du béton avec chaque
variable, en utilisant la fonction plot. En donnant en paramètre à cette fonction directement le nom du dataframe, R représente des nuages de points en croisant chaque variable du data-frame deux à deux.
Quelles variables semblent liées avec la résistance à la compression du béton ?
2. Calculer un coefficient de corrélation avec la résistance à la compression du béton, à l’aide de la fonction cor.
3. Ces corrélations sont-elles significatives ? Vous pourrez utiliser un test statistique pour répondre à cette question,
implémenté dans la fonction cor.test. Parmi les résultats de cette fonction, la p-value du test est le risque
que l’on prend en décidant à tort de conclure à une corrélation significative.
Nous garderons pour la suite uniquement les variables corrélées avec la résistance à la compression du béton.
3 Modélisation et utilisation du modèle
En utilisant uniquement les variables sélectionnées à l’étape précédente
1. Construire un modèle de régression de la résistance à la compression du béton en fonction de la variable l’âge
du béton, en utilisant la fonction lm. Représenter la droite de régression sur le nuage de points à l’aide de la
commande lines. Cela vous semble-t-il correct ?
2. Tester un modèle de régression polynomiale ? Utiliser le R2 ajusté (que l’on peut obtenir en appliquant la
fonction summary au résultat de la fonction lm) pour déterminer si ce modèle est meilleur que le précédent.
3. Construire un modèle de régression de la résistance à la compression du béton en fonction des variables sélectionnées précédemment.
4. Analyser la qualité du modèle construit à l’aide de la fonction summary appliquée au résultat de la fonction
lm. Cette analyse du modèle de régression permet notamment d’évaluer la significativité de l’apport de chaque
variable au modèle de régression. Ainsi, pour chaque variable, un test statistique est réalisé afin de savoir si
l’apport est significatif ou non. Le résultat du test est indiqué par une p-value, représentant le risque que l’on
prend en décidant à tort de conclure à un apport significatif.
5. Si certaines variables ont été jugées inutiles par l’analyse de variance précédente, supprimez-les et ré-estimer un
nouveau modèle. Comparer les R2 ajustés.
6. A l’aide du modèle obtenu, indiquer comment évolue, d’après ce modèle, la résistance à la compression lorsqu’on augmente d’une unité chaque composant du mélange.
7. Est-il possible d’utiliser ce modèle pour établir comment réaliser un béton le plus résistant possible ?
2