P OLYTECH ’L ILLE D ÉPARTEMENT GTGC Analyse des données Travaux Pratiques sous R Le logiciel R R est un logiciel libre de statistique, disponible sur http ://www.r-project.org/, fonctionnant sous la forme de lignes de commandes. Le logiciel R peut fonctionner en mode lignes de commandes. Pour cela, il suffit de se loguer sous Linux et de taper dans un terminal la commande “R”. Nous utiliserons plutôt le logiciel Rstudio, qui propose une interface conviviale pour travailler avec R. Pour obtenir de l’aide sur une fonction (par exemple sur la fonction plot), il suffit d’exécuter la commande help(plot). Concrete compressive strength L’objectif de ce TP est d’établir un modèle permettant de prédire la résistance à la compression du béton en fonction de ses composants et de l’âge du béton. Le fichier de données contient, pour 1030 échantillons de béton, les variables suivantes : – Cement (kg.m−3 ) – Blast Furnace Slag (kg.m−3 ) – Fly Ash (kg.m−3 ) – Water (kg.m−3 ) – Superplasticizer (kg.m−3 ) – Coarse Aggregate (kg.m−3 ) – Fine Aggregate (kg.m−3 ) – Age ({1, ..., 365}) – Concrete compressive strength (M P a) A quoi correspondent chacune de ces variables ? L’objectif est dans un premier temps d’importer sous R ce jeu de données. Pour cela : 1. Récupérer le fichier Concrete_Data.dat sur http ://labomath.univ-lille1.fr/∼ jacques/Download/DataSet/ 2. Charger le fichier de données sous R à l’aide de la commande data=read.table(’Concrete_Data.dat’,header=TRUE) L’objet data est alors un data-frame, une table de données, dont les colonnes (accessibles par l’instance data$Cement par exemple) correspondent aux variables décrivant les 1030 échantillons de béton. 1 Analyse descriptive univariée Pour chaque variable : 1. Donner les principales statistiques descriptives (moyenne, écart-type...) à l’aide de la fonction summary. 2. Illustrer la distribution à l’aide d’un histogramme (fonction hist). Si vous voulez afficher plusieurs histogrammes sur un même graphique, vous pouvez pour cela partager la fenêtre graphique en n × p graphiques à l’aide de la commande par(mfrow=c(n,p)). 3. Les distributions vous semblent-elles gaussiennes ? Si non, essayer quelques transformations élémentaires des variables afin de la rendre les plus gaussiennes possibles (log, exp, 2 ...). On utilisera par la suite les variables transformées. 1 2 Liens avec la résistance à la compression du béton 1. Représenter à l’aide d’un nuage de point la liaison de la résistance à la compression du béton avec chaque variable, en utilisant la fonction plot. En donnant en paramètre à cette fonction directement le nom du dataframe, R représente des nuages de points en croisant chaque variable du data-frame deux à deux. Quelles variables semblent liées avec la résistance à la compression du béton ? 2. Calculer un coefficient de corrélation avec la résistance à la compression du béton, à l’aide de la fonction cor. 3. Ces corrélations sont-elles significatives ? Vous pourrez utiliser un test statistique pour répondre à cette question, implémenté dans la fonction cor.test. Parmi les résultats de cette fonction, la p-value du test est le risque que l’on prend en décidant à tort de conclure à une corrélation significative. Nous garderons pour la suite uniquement les variables corrélées avec la résistance à la compression du béton. 3 Modélisation et utilisation du modèle En utilisant uniquement les variables sélectionnées à l’étape précédente 1. Construire un modèle de régression de la résistance à la compression du béton en fonction de la variable l’âge du béton, en utilisant la fonction lm. Représenter la droite de régression sur le nuage de points à l’aide de la commande lines. Cela vous semble-t-il correct ? 2. Tester un modèle de régression polynomiale ? Utiliser le R2 ajusté (que l’on peut obtenir en appliquant la fonction summary au résultat de la fonction lm) pour déterminer si ce modèle est meilleur que le précédent. 3. Construire un modèle de régression de la résistance à la compression du béton en fonction des variables sélectionnées précédemment. 4. Analyser la qualité du modèle construit à l’aide de la fonction summary appliquée au résultat de la fonction lm. Cette analyse du modèle de régression permet notamment d’évaluer la significativité de l’apport de chaque variable au modèle de régression. Ainsi, pour chaque variable, un test statistique est réalisé afin de savoir si l’apport est significatif ou non. Le résultat du test est indiqué par une p-value, représentant le risque que l’on prend en décidant à tort de conclure à un apport significatif. 5. Si certaines variables ont été jugées inutiles par l’analyse de variance précédente, supprimez-les et ré-estimer un nouveau modèle. Comparer les R2 ajustés. 6. A l’aide du modèle obtenu, indiquer comment évolue, d’après ce modèle, la résistance à la compression lorsqu’on augmente d’une unité chaque composant du mélange. 7. Est-il possible d’utiliser ce modèle pour établir comment réaliser un béton le plus résistant possible ? 2