TD12 : Examen de l’an dernier (Correction) 1 Valeur maximale des valeurs propres en AFC On sait que dans une AFC, les valeurs propres v´erifient toutes λk ≥ 0. On veut montrer ici qu’on a aussi λk ≤ 1. Pour cela on utilisera les formules de barycentre, qui relient les composantes principales de lignes aik et celles de colonnes, not´ees bjk : m2 1 X nij aik = √ bjk , λk j=1 ni· m1 1 X nij bjk = √ aik . λk i=1 n·j On utilise la notation suivante pour la plus grande coordonn´ee des modalit´es d’une variable : max aik = max(a1k , a2k , . . . , am1 k ) max bjk = max(b1k , b2k , . . . , bm2 k ) i mod. de X1 j mod. de X2 Rappel : si une question semble trop difficile, on peut juste utiliser son r´ esultat dans la suivante ! Question 1: Montrer que, pour toute modalit´e i et tout axe k, p λk aik ≤ max j mod. de X2 bjk . Montrer de mˆeme que p λk bjk ≤ max i mod. de X1 aik . On part de la premi`ere relation barycentrique pour obtenir m2 m2 X X p nij nij λk aik = bjk ≤ n n j=1 i· j=1 i· max j 0 mod. de X2 bj 0 k = max bj 0 k . max aik . j 0 mod. de X2 De mˆeme, on peut ´ecrire m1 m1 X X p nij nij λk bjk = aik ≤ n n ·j i=1 i=1 ·j max i0 mod. de X1 ai0 k = i mod. de X1 Question 2: En d´eduire que, pour tout axe k, λk max i mod. de X1 aik ≤ p λk max j mod. de X2 bjk ≤ max i mod. de X1 aik . √ Comme tous les aik v´erifient λk aik ≤ maxj mod. de X2 bjk , cette relation est aussi vraie pour leur maximum : p λk max aik ≤ max bjk , i mod. de X1 √ λk , on obtient p max aik ≤ λk et donc, en multipliant des deux cot´es par λk j mod. de X2 i mod. de X1 max j mod. de X2 bjk , La deuxi`eme in´egalit´e que nous cherchons est obtenue comme la toute premi`ere : p λk bjk ≤ max aik pour tout j =⇒ max bjk ≤ max i mod. de X1 j mod. de X2 i mod. de X1 aik . Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 1 Question 3: En d´eduire finalement que, pour tout axe k, λk ≤ 1. On a montr´e ` a le question pr´ec´edente que λk max i mod. de X1 aik ≤ max i mod. de X1 aik . On sait que les aik sont centr´es. S’ils ne sont pas tous nuls, alors certains sont n´egatifs et d’autres positifs, et donc maxi mod. de X1 aik > 0. On peut donc diviser l’in´egalit´e ci-dessus par ce terme et on obtient λk ≤ 1. Dans le cas o` u tous les aik sont nuls, alors λk = var ak = 0 ≤ 1 . 2 ´ AFC : Etude des r´ eponses ` a une question ouverte On a pos´e deux questions ` a un ´echantillon de plusieurs centaines de personnes : — « Quelles sont les raisons qui, selon vous, peuvent faire h´esiter une femme ou un couple `a avoir un enfant ? » — « Quel est votre niveau d’´etudes ? » Pour la deuxi`eme question, les r´eponses possibles ´etaient : sans diplˆome (SANS), certificat d’´etudes primaires (CEP), brevet d’´etudes du premier cycle (BEPC), baccalaur´eat ou ´equivalent (BAC), universit´e, grandes ´ecoles ou ´equivalent (UNIV). Pour la premi`ere question, les r´eponses ont ´et´e analys´ees. On a retenu 15 des mots utilis´es : peur, sante, avenir, argent, emploi, guerre, chomage, travail, egoisme, finances, logement, difficile, economique, financieres, conjoncture. Chaque personne peut avoir utilis´e plusieurs de ces mots. Les tableaux suivants indiquent, pour chacun des 15 mots retenus, le nombre d’occurrences des mots en fonction du niveau d’´etude, ainsi que les poids des modalit´es des deux variables (exprim´es en 10000i`emes). peur sante avenir argent emploi guerre chomage travail egoisme finances logement difficile economique financieres conjoncture TOTAL SANS CEP BEPC BAC UNIV TOTAL 25 45 38 38 13 159 18 27 20 19 9 93 53 90 78 75 22 318 51 64 32 29 17 193 12 35 19 6 7 79 4 7 7 6 2 26 71 111 50 40 11 283 35 61 29 14 12 151 21 37 14 26 9 107 10 7 7 3 1 28 8 22 7 10 5 52 7 11 4 3 2 27 7 13 12 11 11 54 21 32 42 47 30 172 1 7 5 5 4 22 344 569 364 332 155 1764 peur sante avenir argent emploi guerre chomage travail egoisme finances logement difficile economique financieres conjoncture poids 901 527 1803 1094 448 147 1604 856 607 159 295 153 306 975 125 SANS CEP BEPC BAC UNIV poids 1950 3226 2063 1882 879 On r´ealise une analyse factorielle des correspondances sur ces donn´ees. On donne ci-dessous toutes les valeurs propres et, pour les deux premiers axes seulement, les coordonn´ees des modalit´es sur les axes principaux, ainsi que la qualit´e de leur repr´esentation (en 10000`emes) par les deux premiers sous espaces factoriels et leur projection sur le premier plan principal. Axis1 Axis2 Axis3 Axis4 Val.propres 0.0528 0.0119 0.0072 0.006 Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 2 peur sante avenir argent emploi guerre chomage travail egoisme finances logement difficile economique financieres conjoncture Comp1 SANS -0.24 CEP -0.20 BEPC 0.11 BAC 0.28 UNIV 0.38 Axis1 0.14 0.07 0.11 -0.14 -0.18 0.15 -0.27 -0.24 0.00 -0.27 -0.06 -0.28 0.35 0.45 0.37 Comp2 -0.04 0.05 -0.04 -0.13 0.28 Axis2 -0.09 -0.02 -0.13 0.04 0.20 -0.11 -0.05 0.13 -0.04 -0.15 0.11 0.10 0.26 0.07 0.24 peur sante avenir argent emploi guerre chomage travail egoisme finances logement difficile economique financieres conjoncture Axis1 Axis2 6217 9021 7695 8106 3664 8770 5149 5503 2419 5706 4862 7537 9684 9964 7598 9639 0 313 3137 4182 553 2385 8530 9518 6310 9679 9571 9772 6038 8697 Comp1 Comp2 SANS 7092 7349 CEP 7824 8431 BEPC 3584 4025 BAC 7475 9195 UNIV 6234 9647 d = 0.2 UNIV economique conjoncture emploi travail difficile logement financieres CEP argent chomage SANS sante egoisme BEPC peur guerre avenir finances BAC Question 4: Est-il possible de calculer le nombre de personnes interrog´ees ? Non. On sait qu’il y a plusieurs centaines de personnes, mais comme chaque personne a a priori employ´e plusieurs mots et que ce sont ces mots qui sont compt´es, il n’est pas possible de compter les personnes ayant particip´e ` a l’´etude. Question 5: Est-ce que le mot « ´economique » apparaˆıt plus souvent dans la bouche des universitaires que dans celle de l’ensemble de la population interrog´ee ? Le poids du mot « ´economique » dans la population g´en´erale est 54/1764 = 3%. Pour ce qui est des universitaire, sa fr´equence d’apparition est 11/155 = 7%. Le mot « ´economique » apparaˆıt donc bien plus souvent dans la bouche des universitaires que dans celle des autres personnes interrog´ees. Question 6: Expliquez pourquoi il y a 4 valeurs propres. Compte tenu des informations fournies, est-il l´egitime de ne s’int´eresser qu’aux deux premiers axes factoriels ? Justifier. Le nombre de valeurs propres est min(15 − 1, 5 − 1) = 4. L’inertie totale du nuage de points est la somme des valeurs propres, soit 0, 0779. Si on conserve les deux premier axes, on explique une inertie de 0, 0647, soit 83% du total. Il est donc l´egitime de se contenter de ces variables. Question 7: Quelles sont les cat´egories (mots, niveau d’´etude) qui d´eterminent chacun des deux axes factoriels ? On expliquera la m´ethode utilis´ee et on caract´erisera les axes en terme d’opposition entre mots ou niveaux d’´etudes. Il se trouve que les contribution aux axes n’ont pas ´et´e fournies ici. Il faut donc comparer la valeur absolue des coordonn´ees avec √ la racine carr´ee de la valeur propre. On choisit ici un coefficient multiplicateur ´egal `a 2. — axe 1 ( 2λ1 = 0, 33) : n´egatif aucun, positif financieres (0, 45), conjoncture (0, 37), economiques (0, 35), √ UNIV (0, 37) ; — axe 2 ( 2λ2 = 0, 15) : n´egatif finances (0, 15) et peut-ˆetre BAC et avenir (0, 13), positif economique (0, 25), conjoncture (0, 24), emploi (0, 20), UNIV (0, 28) et peut-ˆetre travail (0, 13). Ce sont donc ` a peu pr`es les mˆemes variables que l’on retrouve sur les deux axes. L’analyse n’est pas tr`es int´eressante mais on peut donner un peu de d´etails. L’axe 1 met en exergue les universitaires, qui s’int´eressent plus que la moyenne `a la conjecture ´economique g´en´erale. Aucune valeur n’est assez marquante du cot´e n´egatif de l’axe, mais on peut remarquer que les valeurs les plus n´egatives sont plutˆ ot des difficult´es financi`eres personnelles et des difficult´es de la vie (finances, chomage, difficile, travail). Le niveau de diplˆ ome est croissant long de cet axe (SANS, CEP, BEPC, BAC, puis UNIV) : c’est l’axe du niveau d’´etudes. L’axe 2 pr´ecise la diff´erence entre les bacheliers et les diplˆom´es de l’universit´e, ces derniers ayant (toujours) un discours plus proche de celui de l’´economie. On a suppos´e ici que finances concerne le budget du m´enage et financiere se rapporte plutˆot aux institutions bancaires. Question 8: Quelles sont les cat´egories qui sont particuli`erement mal repr´esent´ees par le premier plan principal ? On expliquera les crit`eres utilis´es et la signification g´eom´etrique de cette qualit´e de repr´esentation. Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 3 Pour ´evaluer la qualit´e de repr´esentation, on se r´ef`ere aux deux derniers tableaux. La qualit´e de la repr´esentation est mesur´ee par le cosinus carr´e de l’angle entre chaque point et le sous espace propre consid´er´e. Dans ce cas, nous nous int´eressons au plan (1, 2) (deuxi`eme colonne car les valeurs sont d´ej`a cumul´ees) et regardons les points dont les valeurs sont particuli`erement faibles, c’est-`a-dire inf´erieures `a 5000. egoisme (313) a une valeur particuli`erement faible, mais le fait qu’il soit proche du centre de gravit´e rend l’interpr´etation difficile. logement (2385), finances (4182) et BEPC (4025) sont aussi mal repr´esent´es. Il sont moins proches du centre de gravit´e, en particulier pour finances. Question 9: Les mots avenir et peur, d’une part et argent et CEP, d’autre part, sont proches sur le graphique. Dans chacun des cas, quelles sont les donn´ees qui permettent d’expliquer cette proximit´e ? Les mots avenir et peur ont des coordonn´ees proches sur le premier plan principal, et la qualit´e de leur repr´esentation est bonne. On peut en d´eduire que les points sont proches (ils se peut que des phrases comme « peur de l’avenir » aient ´et´e utilis´ees). Par contre guerre a une moins bonne qualit´e de repr´esentation, et donc le fait qu’il soit proche des deux autres signifie moins. Le mot argent est proche de CEP, mais cela ne veut rien dire car ce ne sont pas des modalit´es de la mˆeme variable. 3 ACM : risques m´ edicaux et ˆ age (8 points) Une compagnie d’assurance a compil´e ` a propos de ses assur´es des donn´ees sur leur taux de risque (0=normal, 1=fort) pour le syst`eme cardio-vasculaire (CVas, cœur), le syst`eme locomoteur (Loco, risque de paralysie), le syst`eme neurologique (Neuro, cerveau) et le diab`ete (Diab). 3.1 Les donn´ ees On obtient le tableau de Burt suivant, dans lequel de nombreuses donn´ees ont ´et´e cach´ees (NA) : CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 NA NA 27344 1120 26571 1893 22458 6006 NA NA NA NA NA NA NA NA 27344 NA NA 0 32186 3115 27312 7989 1120 NA 0 NA 1398 507 1271 634 26571 NA 32186 1398 NA 0 26303 7281 1893 NA 3115 507 0 NA 2280 1342 22458 NA 27312 1271 26303 2280 NA 0 6006 NA 7989 634 7281 1342 0 NA Question 10: Calculer les valeur manquantes du tableau de Burt, indiqu´ees par NA. Les valeurs manquantes sont sur deux alignements : la diagonale et la seconde ligne. La seconde colonne n’est pas importante puisque, par sym´etrie, elle est identique `a la seconde ligne. On commence par la diagonale ; pour le premier ´el´ement, (CVasc.0, CVasc.0), comme il s’agit de l’effectif total de cette cat´egorie, il suffit de d’additionner les valeurs crois´ees avec une autre cat´egorie. Par exemple (CVasc.0, CVasc.0) = (CVasc.0, Neuro.0) + (CVasc.0, Neuro.1) = 26571 + 1893 = 28464. En proc´edant de mˆeme sur toute la diagonale, on obtient les valeurs CVasc.0 CVasc.1 28464 8742 Loco.0 35301 Loco.1 Neuro.0 Neuro.1 1905 33584 3622 Diab.0 28583 Diab.1 8623 Pour la seconde ligne, on sait tout d’abord que la valeur (CVasc.1, CVasc.0) est nulle (hors diagonal). Pour les autres valeurs comme (CVasc.1, Loco.0), on effectue le calcul (CVasc.1, Loco.0) = (Loco.0, Loco.0) − (CVasc.0, Loco.0) = 35301 − 27344 = 7957 En r´ep´etant ce raisonnement, on obtient la seconde ligne suivante CVasc.1 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 0 8742 7957 785 7013 1729 6125 2617 Finalement, on obtient le tableau de Burt suivant Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 4 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 28464 0 27344 1120 26571 1893 22458 6006 0 8742 7957 785 7013 1729 6125 2617 27344 7957 35301 0 32186 3115 27312 7989 1120 785 0 1905 1398 507 1271 634 26571 7013 32186 1398 33584 0 26303 7281 1893 1729 3115 507 0 3622 2280 1342 22458 6125 27312 1271 26303 2280 28583 0 6006 2617 7989 634 7281 1342 0 8623 Question 11: Les personnes ayant un risque locomoteur ´elev´e ont-elles un risque de diab`ete plus grand ou plus petit que la moyenne ? La proportion des personnes ayant un risque locomoteur ´elev´e qui ont aussi un risque de diab`ete ´elev´e est 634/1905 = 0, 33. Par contre, la proportion de la population g´en´erale ayant un risque de diab`ete ´elev´e est 8623/(28585 + 8623) = 0, 23. On peut donc dire qu’un risque locomoteur ´elev´e augmente le risque de diab`ete. 3.2 Analyse des correspondances multiples On r´ealise une ACM sur les donn´ees ci-dessus. Les valeurs propres obtenues sont : 0.3364, 0.2365, 0.2256 et 0.2015. On fournit ci-dessous les coordonn´ees sur les axes, les poids et les contributions aux axes (en 10000i`emes pour ces deux derniers) pour les cat´egories. CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 Comp1 0.35 -1.14 0.12 -2.21 0.22 -2.08 0.25 -0.84 Comp2 -0.02 0.08 -0.13 2.40 -0.02 0.23 0.44 -1.44 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 poids 1913 587 2372 128 2257 243 1921 579 CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1 Comp1 Comp2 702 4 2286 15 100 168 1862 3106 339 6 3143 54 363 1541 1205 5107 Question 12: Combien d’axes propres faut-il conserver ? Que peut on dire alors de la qualit´e globale de la repr´esentation ? Il y a 4 valeurs propres et on conserve celles qui sont sup´erieures `a 1/4 = 0, 25. On pourrait se contenter de la premi`ere variable, mais comme d’habitude, on ajoutera la seconde pour les besoins de la repr´esentation. La somme des valeurs propres est (8 − 4)/4 = 1. Les deux premi`eres valeurs propres, dont la somme est 0, 5729, soit 57% de l’inertie totale. L’analyse ne sera donc pas tr`es bonne. Question 13: Quelles sont les cat´egories qui d´eterminent les deux premiers axes principaux ? (on d´etaillera les crit`eres et on cherchera ` a ˆetre pr´ecis dans la r´eponse). On choisit de conserver les cat´egories dont la contribution est sup´erieure `a 2 fois le poids. Cela donne : — axe 1 : en n´egatif, Loco.1 (1862 > 2 × 128), Neuro.1 (3143 > 2 × 243), CVasc.1 (2286 > 2 × 587), Diab.1 (1205 ≥ 579 × 2, mais c’est limite par rapport aux autres) ; en positif, rien ; — axe 2 : en n´egatif, Diab.1 (5107 > 2 × 579) ; en positif, Loco.1 (3106 > 2 × 128). On ne se pose pas ici la question des cat´egories sur-repr´esent´ees, puisque l’on savait d`es le d´epart que les petits effectifs des cat´egories de risque ´elev´e allaient les mettre en avant. 3.3 Une variable suppl´ ementaire : l’ˆ age des assur´ es On ajoute ` a l’analyse une nouvelle variable quantitative : l’ˆage des assur´es. On calcule donc la corr´elation de cette variable avec les deux premiers axes, que l’on donne ci-dessous accompagn´ee d’une repr´esentation des couples (ˆ age, coordonn´ees factorielles) pour les deux premiers axes. Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 5 Axis1 Axis2 Age -0.14 0.12 Question 14: Expliquez pourquoi les points dans les graphiques ci-dessus sont regroup´es par lignes. Sur les graphes, on distingue respectivement 12 et 16 lignes diff´erentes. En fait, chaque individu est d´ecrit par 4 variables ` a deux modalit´es. Il y a donc 24 = 16 sortes de clients possibles, ce qui limite le nombre de coordonn´ees sur les axes. Le fait qu’on ne distingue que 12 lignes sur l’axe 1 est un hasard, en regardant attentivement on peut constater que certaines lignes sont confondues. Par contre, on distingue bien 16 lignes dans le nuage avec l’axe 2. Question 15: Peut-on dire que la variable Age est bien corr´el´e avec les deux premiers axes ? La forme des nuages de points semble-t-elle donner des informations ? La corr´elation de la variable Age avec les axes sont faibles (inf´erieures `a 0.14) mais non nulles. On peut voir sur les graphes que le nuage ne couvre pas le coin sup´erieur gauche du carr´e pour l’axe 1 ; de mˆeme, le coin inf´erieur gauche n’est pas couvert par le nuage sur l’axe 2. La d´ependance semble plus simple par rapport `a l’axe 1 qu’` a l’axe 2. La relation est moins lin´eaire sur ce dernier axe. En faisant l’hypoth`ese que l’ˆ age n’a en fait pas une relation lin´eaire avec les axes, on regroupe les individus par tranches d’ˆ age de fa¸con ` a traiter l’ˆ age comme une variable qualitative. On regroupe les individus en 4 groupes : moins de 19 ans (Age.0_19), de 20 `a 39 ans (Age.20_39), de 40 `a 59 ans (Age.40_59) et plus de 60 ans (Age.60plus). On donne ci-dessous les coordonn´ees des nouvelles cat´egories sur les axes, leur effectif et enfin la valeur test correspondante. Axis1 Axis2 Age.0_19 0.06 -0.88 Age.20_39 0.29 -0.11 Age.40_59 0.00 0.04 Age.60plus -0.21 0.05 Age.0_19 Age.20_39 Age.40_59 Age.60plus suppl1.eff 933 5116 23538 7619 Axis1 Axis2 Age.0_19 1.93 -27.23 Age.20_39 22.27 -8.22 Age.40_59 0.81 10.50 Age.60plus -20.72 5.03 Question 16: Quelles sont les cat´egories d’ˆ age qui sont li´ees aux deux premiers axes ? On expliquera ce que sont les valeurs test et pourquoi on peut les utiliser. Quelles interpr´etation des axes peut-on en d´eduire ? Les valeurs-test donn´ees ici permettent de savoir quels sont les cat´egories li´ees aux axes. Une cat´egorie est li´ee a` un axe si — c’est une cat´egorie suppl´ementaire, c’est-`a-dire non utilis´ee dans l’analyse — son effectif est assez grand (mettons 30) — sa valeur-test sur l’axe est sup´erieure a` 2 ou 3 en valeur absolue Les deux premiers points sont valables pour toutes les cat´egories. Le troisi`eme point nous donne — axe 1 : en positif, Age.60plus (20, 72) ; en n´egatif (un peu) Age.20_39 (22, 27) — axe 2 : en n´egatif, Age.0_19 (27, 23) et Age.20_39 (8, 22) ; en positif (mais plutˆot au milieu en fait), Age.40_59 (10, 50) et Age.60plus (5, 03). L’interpr´etation que l’on peut tirer de ces donn´ees est que l’axe 1 s´epare les personnes ˆag´ees de 60 ans et plus, qui cumulent tous les sur-risques, d’une part, et les jeunes adultes (20 `a 39 ans), qui ont peu de risques. On notera que les cat´egories non repr´esent´ees ici sont les enfants (moins de 19 ans) et les adultes entre 40 et 59 ans. Il y a donc un effet non lin´eaire en fonction de l’ˆage. L’axe 2, lui, montre que le risque de diab`ete d´ecroˆıt avec l’ˆage, alors que le risque locomoteur augmente. Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne 6
© Copyright 2024 ExpyDoc