Programme

Introduction à l'analyse des données et aux
statistiques multivariées
Du 02 au 06 février 2015
Responsables : Michel BAYLAC (1), Sandrine PAVOINE (2)
(1)
UMR 7205 : ISYEB ; Plate-forme Morphométrie UMS 2700 ; MNHN-CNRS Département
« Systématique et Evolution »
Tél : 01 40 79 34 06 ; fax : 01 40 79 36 99 ; e-mail: [email protected]
(2)
UMR 7204 Centre d'Ecologie et de Sciences de la Conservation , Département « Ecologie et Gestion de
la Biodiversité »
Tél. : 01 40 79 39 28 ; fax : 01 40 79 38 35 ; courriel : [email protected]
Lieu : salle informatique de Phanérogamie
Inscription obligatoire sur : http://rug.mnhn.fr/semin-r/inscription.html
____________________________________________________________________________________________________________
Objectifs du module : fournir les connaissances et outils nécessaires à la pratique de l’analyse
des données multivariées. Le module inclut une introduction au logiciel R, environnement
graphique et statistique puissant, largement utilisé en recherche et disponible gratuitement sur la
plupart des plateformes informatiques.
Un rappel des principales notions vues lors d’un cursus universitaire standard sera fait : le module
ne nécessite donc pas de connaissances particulières en statistiques ou en informatique. Avant
tout pratique, le module sera illustré par de nombreux exemples. Des fichiers pdf reprenant
l'ensemble des diapositives des cours seront téléchargeables pour les participants inscrits.
Lundi 2 février 2015
09h 30 à 12h 30 : Michel BAYLAC
Introduction. Présentation du contenu du module. Présentation du logiciel R :
modules de base et bibliothèques spécialisées ; types de données et
manipulation des données (lectures-écritures, sélections, modifications,
génération).
14h 00 à 17h 30 : Michel BAYLAC
Rappels de statistiques descriptives, histogrammes et boxplots. Graphes
bivariés.analyses exploratoires. Biais des approches univariées, justification
des approches multivariées. Paramètres des distributions, moyennes,
(co)variances et corrélations, matrices correspondantes
Mardi 3 février 2015
09h 30 à 12h 30 : Michel BAYLAC
Recherche de directions dans un espace multivarié centré : ggobi ; Analyse en
Composantes Principales (ACP), première partie : principes, réalisations,
variantes. Diagonalisation et décomposition en valeurs singulières.
Signification géométrique de l'ACP.
14h 00 à 17h 30 : Michel BAYLAC
ACP, deuxième partie : interprétation des composantes, vecteurs propres,
corrélations, biplots. Exemples. Conclusions. ACP en tant qu'analyse
factorielle. Présentation des différents types d'analyses factorielles.
9
Mercredi 4 février 2015
09h 30 à 12h 30 : Sandrine PAVOINE
Analyse des données qualitatives. Analyse Factorielle des Correspondances
(AFC) simples. Introduction. Exemples, interprétations.
14h 00 à 17h 30 : Sandrine PAVOINE
Analyse Factorielle des Correspondances multiples
Jeudi 5 février 2015
09h 30 à 12h 30 : Michel BAYLAC
Discrimination linéaire et analyse factorielle discriminante ; Probabilités a
priori et a posteriori, classements, validations croisées et bootstrap.
Interprétation des axes discriminants. Distance de Mahalanobis. Problèmes
de dimensionalité.
14h 00 à 17h 30 : Michel BAYLAC
Matrices de similitude et de distances. Distances usuelles. Analyse d'un
tableau de distances, cadrage multidimensionnel, positionnement nonmétrique. Comparaison de matrices de distances : test de Mantel, test RV et
test Procuste. Applications.
Vendredi 6 février 2015
09h 30 à 12h 30 : Michel BAYLAC
Classifications et partitions. Classifications hiérarchiques. Moyennes mobiles.
Mélanges Gaussiens
14h00 à 17h 30 : Michel BAYLAC et Sandrine PAVOINE
Synthèse. Quelle(s) méthode(s) utiliser. Méthodes, alternatives. Pour aller
plus loin.
10