corrigé

TD12 : Examen de l’an dernier (Correction)
1
Valeur maximale des valeurs propres en AFC
On sait que dans une AFC, les valeurs propres v´erifient toutes λk ≥ 0. On veut montrer ici qu’on a aussi
λk ≤ 1. Pour cela on utilisera les formules de barycentre, qui relient les composantes principales de lignes aik et
celles de colonnes, not´ees bjk :
m2
1 X
nij
aik = √
bjk ,
λk j=1 ni·
m1
1 X
nij
bjk = √
aik .
λk i=1 n·j
On utilise la notation suivante pour la plus grande coordonn´ee des modalit´es d’une variable :
max
aik = max(a1k , a2k , . . . , am1 k )
max
bjk = max(b1k , b2k , . . . , bm2 k )
i mod. de X1
j mod. de X2
Rappel : si une question semble trop difficile, on peut juste utiliser son r´
esultat dans la
suivante !
Question 1: Montrer que, pour toute modalit´e i et tout axe k,
p
λk aik ≤
max
j mod. de X2
bjk .
Montrer de mˆeme que
p
λk bjk ≤
max
i mod. de X1
aik .
On part de la premi`ere relation barycentrique pour obtenir
m2
m2
X
X
p
nij
nij
λk aik =
bjk ≤
n
n
j=1 i·
j=1 i·
max
j 0 mod. de X2
bj 0 k =
max
bj 0 k .
max
aik .
j 0 mod. de X2
De mˆeme, on peut ´ecrire
m1
m1
X
X
p
nij
nij
λk bjk =
aik ≤
n
n
·j
i=1
i=1 ·j
max
i0 mod. de X1
ai0 k =
i mod. de X1
Question 2: En d´eduire que, pour tout axe k,
λk
max
i mod. de X1
aik ≤
p
λk
max
j mod. de X2
bjk ≤
max
i mod. de X1
aik .
√
Comme tous les aik v´erifient λk aik ≤ maxj mod. de X2 bjk , cette relation est aussi vraie pour leur maximum :
p
λk
max
aik ≤
max
bjk ,
i mod. de X1
√
λk , on obtient
p
max
aik ≤ λk
et donc, en multipliant des deux cot´es par
λk
j mod. de X2
i mod. de X1
max
j mod. de X2
bjk ,
La deuxi`eme in´egalit´e que nous cherchons est obtenue comme la toute premi`ere :
p
λk bjk ≤
max
aik pour tout j =⇒
max
bjk ≤
max
i mod. de X1
j mod. de X2
i mod. de X1
aik .
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
1
Question 3: En d´eduire finalement que, pour tout axe k, λk ≤ 1.
On a montr´e `
a le question pr´ec´edente que
λk
max
i mod. de X1
aik ≤
max
i mod. de X1
aik .
On sait que les aik sont centr´es. S’ils ne sont pas tous nuls, alors certains sont n´egatifs et d’autres positifs,
et donc maxi mod. de X1 aik > 0. On peut donc diviser l’in´egalit´e ci-dessus par ce terme et on obtient
λk ≤ 1.
Dans le cas o`
u tous les aik sont nuls, alors λk = var ak = 0 ≤ 1 .
2
´
AFC : Etude
des r´
eponses `
a une question ouverte
On a pos´e deux questions `
a un ´echantillon de plusieurs centaines de personnes :
— « Quelles sont les raisons qui, selon vous, peuvent faire h´esiter une femme ou un couple `a avoir un
enfant ? »
— « Quel est votre niveau d’´etudes ? »
Pour la deuxi`eme question, les r´eponses possibles ´etaient : sans diplˆome (SANS), certificat d’´etudes primaires
(CEP), brevet d’´etudes du premier cycle (BEPC), baccalaur´eat ou ´equivalent (BAC), universit´e, grandes ´ecoles ou
´equivalent (UNIV). Pour la premi`ere question, les r´eponses ont ´et´e analys´ees. On a retenu 15 des mots utilis´es :
peur, sante, avenir, argent, emploi, guerre, chomage, travail, egoisme, finances, logement, difficile,
economique, financieres, conjoncture. Chaque personne peut avoir utilis´e plusieurs de ces mots. Les tableaux
suivants indiquent, pour chacun des 15 mots retenus, le nombre d’occurrences des mots en fonction du niveau
d’´etude, ainsi que les poids des modalit´es des deux variables (exprim´es en 10000i`emes).
peur
sante
avenir
argent
emploi
guerre
chomage
travail
egoisme
finances
logement
difficile
economique
financieres
conjoncture
TOTAL
SANS CEP BEPC BAC UNIV TOTAL
25 45
38 38
13
159
18 27
20 19
9
93
53 90
78 75
22
318
51 64
32 29
17
193
12 35
19
6
7
79
4
7
7
6
2
26
71 111
50 40
11
283
35 61
29 14
12
151
21 37
14 26
9
107
10
7
7
3
1
28
8 22
7 10
5
52
7 11
4
3
2
27
7 13
12 11
11
54
21 32
42 47
30
172
1
7
5
5
4
22
344 569 364 332 155 1764
peur
sante
avenir
argent
emploi
guerre
chomage
travail
egoisme
finances
logement
difficile
economique
financieres
conjoncture
poids
901
527
1803
1094
448
147
1604
856
607
159
295
153
306
975
125
SANS
CEP
BEPC
BAC
UNIV
poids
1950
3226
2063
1882
879
On r´ealise une analyse factorielle des correspondances sur ces donn´ees. On donne ci-dessous toutes les valeurs
propres et, pour les deux premiers axes seulement, les coordonn´ees des modalit´es sur les axes principaux, ainsi que
la qualit´e de leur repr´esentation (en 10000`emes) par les deux premiers sous espaces factoriels et leur projection
sur le premier plan principal.
Axis1 Axis2 Axis3 Axis4
Val.propres 0.0528 0.0119 0.0072 0.006
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
2
peur
sante
avenir
argent
emploi
guerre
chomage
travail
egoisme
finances
logement
difficile
economique
financieres
conjoncture
Comp1
SANS -0.24
CEP -0.20
BEPC 0.11
BAC
0.28
UNIV 0.38
Axis1
0.14
0.07
0.11
-0.14
-0.18
0.15
-0.27
-0.24
0.00
-0.27
-0.06
-0.28
0.35
0.45
0.37
Comp2
-0.04
0.05
-0.04
-0.13
0.28
Axis2
-0.09
-0.02
-0.13
0.04
0.20
-0.11
-0.05
0.13
-0.04
-0.15
0.11
0.10
0.26
0.07
0.24
peur
sante
avenir
argent
emploi
guerre
chomage
travail
egoisme
finances
logement
difficile
economique
financieres
conjoncture
Axis1 Axis2
6217 9021
7695 8106
3664 8770
5149 5503
2419 5706
4862 7537
9684 9964
7598 9639
0
313
3137 4182
553 2385
8530 9518
6310 9679
9571 9772
6038 8697
Comp1 Comp2
SANS 7092 7349
CEP
7824 8431
BEPC 3584 4025
BAC
7475 9195
UNIV 6234 9647
d = 0.2
UNIV
economique
conjoncture
emploi
travail
difficile
logement
financieres
CEP
argent
chomage
SANS
sante
egoisme BEPC
peur
guerre
avenir
finances
BAC
Question 4: Est-il possible de calculer le nombre de personnes interrog´ees ?
Non. On sait qu’il y a plusieurs centaines de personnes, mais comme chaque personne a a priori employ´e plusieurs
mots et que ce sont ces mots qui sont compt´es, il n’est pas possible de compter les personnes ayant particip´e `
a
l’´etude.
Question 5: Est-ce que le mot « ´economique » apparaˆıt plus souvent dans la bouche des universitaires que dans
celle de l’ensemble de la population interrog´ee ?
Le poids du mot « ´economique » dans la population g´en´erale est 54/1764 = 3%. Pour ce qui est des universitaire,
sa fr´equence d’apparition est 11/155 = 7%.
Le mot « ´economique » apparaˆıt donc bien plus souvent dans la bouche des universitaires que dans celle des
autres personnes interrog´ees.
Question 6: Expliquez pourquoi il y a 4 valeurs propres. Compte tenu des informations fournies, est-il l´egitime
de ne s’int´eresser qu’aux deux premiers axes factoriels ? Justifier.
Le nombre de valeurs propres est min(15 − 1, 5 − 1) = 4.
L’inertie totale du nuage de points est la somme des valeurs propres, soit 0, 0779. Si on conserve les deux
premier axes, on explique une inertie de 0, 0647, soit 83% du total. Il est donc l´egitime de se contenter de ces
variables.
Question 7: Quelles sont les cat´egories (mots, niveau d’´etude) qui d´eterminent chacun des deux axes factoriels ?
On expliquera la m´ethode utilis´ee et on caract´erisera les axes en terme d’opposition entre mots ou niveaux
d’´etudes.
Il se trouve que les contribution aux axes n’ont pas ´et´e fournies ici. Il faut donc comparer la valeur absolue des
coordonn´ees avec
√ la racine carr´ee de la valeur propre. On choisit ici un coefficient multiplicateur ´egal `a 2.
— axe 1 ( 2λ1 = 0, 33) : n´egatif aucun, positif financieres (0, 45), conjoncture (0, 37), economiques
(0, 35), √
UNIV (0, 37) ;
— axe 2 ( 2λ2 = 0, 15) : n´egatif finances (0, 15) et peut-ˆetre BAC et avenir (0, 13), positif economique
(0, 25), conjoncture (0, 24), emploi (0, 20), UNIV (0, 28) et peut-ˆetre travail (0, 13).
Ce sont donc `
a peu pr`es les mˆemes variables que l’on retrouve sur les deux axes. L’analyse n’est pas tr`es
int´eressante mais on peut donner un peu de d´etails.
L’axe 1 met en exergue les universitaires, qui s’int´eressent plus que la moyenne `a la conjecture ´economique
g´en´erale. Aucune valeur n’est assez marquante du cot´e n´egatif de l’axe, mais on peut remarquer que les valeurs les
plus n´egatives sont plutˆ
ot des difficult´es financi`eres personnelles et des difficult´es de la vie (finances, chomage,
difficile, travail). Le niveau de diplˆ
ome est croissant long de cet axe (SANS, CEP, BEPC, BAC, puis UNIV) :
c’est l’axe du niveau d’´etudes.
L’axe 2 pr´ecise la diff´erence entre les bacheliers et les diplˆom´es de l’universit´e, ces derniers ayant (toujours)
un discours plus proche de celui de l’´economie.
On a suppos´e ici que finances concerne le budget du m´enage et financiere se rapporte plutˆot aux institutions bancaires.
Question 8: Quelles sont les cat´egories qui sont particuli`erement mal repr´esent´ees par le premier plan principal ?
On expliquera les crit`eres utilis´es et la signification g´eom´etrique de cette qualit´e de repr´esentation.
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
3
Pour ´evaluer la qualit´e de repr´esentation, on se r´ef`ere aux deux derniers tableaux. La qualit´e de la repr´esentation
est mesur´ee par le cosinus carr´e de l’angle entre chaque point et le sous espace propre consid´er´e. Dans ce cas,
nous nous int´eressons au plan (1, 2) (deuxi`eme colonne car les valeurs sont d´ej`a cumul´ees) et regardons les points
dont les valeurs sont particuli`erement faibles, c’est-`a-dire inf´erieures `a 5000.
egoisme (313) a une valeur particuli`erement faible, mais le fait qu’il soit proche du centre de gravit´e rend
l’interpr´etation difficile.
logement (2385), finances (4182) et BEPC (4025) sont aussi mal repr´esent´es. Il sont moins proches du centre
de gravit´e, en particulier pour finances.
Question 9: Les mots avenir et peur, d’une part et argent et CEP, d’autre part, sont proches sur le graphique.
Dans chacun des cas, quelles sont les donn´ees qui permettent d’expliquer cette proximit´e ?
Les mots avenir et peur ont des coordonn´ees proches sur le premier plan principal, et la qualit´e de leur
repr´esentation est bonne. On peut en d´eduire que les points sont proches (ils se peut que des phrases comme
« peur de l’avenir » aient ´et´e utilis´ees). Par contre guerre a une moins bonne qualit´e de repr´esentation, et donc
le fait qu’il soit proche des deux autres signifie moins.
Le mot argent est proche de CEP, mais cela ne veut rien dire car ce ne sont pas des modalit´es de la mˆeme
variable.
3
ACM : risques m´
edicaux et ˆ
age (8 points)
Une compagnie d’assurance a compil´e `
a propos de ses assur´es des donn´ees sur leur taux de risque (0=normal,
1=fort) pour le syst`eme cardio-vasculaire (CVas, cœur), le syst`eme locomoteur (Loco, risque de paralysie), le
syst`eme neurologique (Neuro, cerveau) et le diab`ete (Diab).
3.1
Les donn´
ees
On obtient le tableau de Burt suivant, dans lequel de nombreuses donn´ees ont ´et´e cach´ees (NA) :
CVasc.0
CVasc.1
Loco.0
Loco.1
Neuro.0
Neuro.1
Diab.0
Diab.1
CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1
NA
NA 27344
1120
26571
1893 22458
6006
NA
NA
NA
NA
NA
NA
NA
NA
27344
NA
NA
0
32186
3115 27312
7989
1120
NA
0
NA
1398
507
1271
634
26571
NA 32186
1398
NA
0 26303
7281
1893
NA
3115
507
0
NA
2280
1342
22458
NA 27312
1271
26303
2280
NA
0
6006
NA
7989
634
7281
1342
0
NA
Question 10: Calculer les valeur manquantes du tableau de Burt, indiqu´ees par NA.
Les valeurs manquantes sont sur deux alignements : la diagonale et la seconde ligne. La seconde colonne n’est
pas importante puisque, par sym´etrie, elle est identique `a la seconde ligne.
On commence par la diagonale ; pour le premier ´el´ement, (CVasc.0, CVasc.0), comme il s’agit de l’effectif
total de cette cat´egorie, il suffit de d’additionner les valeurs crois´ees avec une autre cat´egorie. Par exemple
(CVasc.0, CVasc.0) = (CVasc.0, Neuro.0) + (CVasc.0, Neuro.1) = 26571 + 1893 = 28464.
En proc´edant de mˆeme sur toute la diagonale, on obtient les valeurs
CVasc.0 CVasc.1
28464
8742
Loco.0
35301
Loco.1 Neuro.0 Neuro.1
1905
33584
3622
Diab.0
28583
Diab.1
8623
Pour la seconde ligne, on sait tout d’abord que la valeur (CVasc.1, CVasc.0) est nulle (hors diagonal). Pour
les autres valeurs comme (CVasc.1, Loco.0), on effectue le calcul
(CVasc.1, Loco.0) = (Loco.0, Loco.0) − (CVasc.0, Loco.0) = 35301 − 27344 = 7957
En r´ep´etant ce raisonnement, on obtient la seconde ligne suivante
CVasc.1
CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1
0
8742
7957
785
7013
1729
6125
2617
Finalement, on obtient le tableau de Burt suivant
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
4
CVasc.0
CVasc.1
Loco.0
Loco.1
Neuro.0
Neuro.1
Diab.0
Diab.1
CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1
28464
0 27344
1120
26571
1893 22458
6006
0
8742
7957
785
7013
1729
6125
2617
27344
7957 35301
0
32186
3115 27312
7989
1120
785
0
1905
1398
507
1271
634
26571
7013 32186
1398
33584
0 26303
7281
1893
1729
3115
507
0
3622
2280
1342
22458
6125 27312
1271
26303
2280 28583
0
6006
2617
7989
634
7281
1342
0
8623
Question 11: Les personnes ayant un risque locomoteur ´elev´e ont-elles un risque de diab`ete plus grand ou plus
petit que la moyenne ?
La proportion des personnes ayant un risque locomoteur ´elev´e qui ont aussi un risque de diab`ete ´elev´e est
634/1905 = 0, 33. Par contre, la proportion de la population g´en´erale ayant un risque de diab`ete ´elev´e est
8623/(28585 + 8623) = 0, 23. On peut donc dire qu’un risque locomoteur ´elev´e augmente le risque de diab`ete.
3.2
Analyse des correspondances multiples
On r´ealise une ACM sur les donn´ees ci-dessus. Les valeurs propres obtenues sont : 0.3364, 0.2365, 0.2256 et
0.2015. On fournit ci-dessous les coordonn´ees sur les axes, les poids et les contributions aux axes (en 10000i`emes
pour ces deux derniers) pour les cat´egories.
CVasc.0
CVasc.1
Loco.0
Loco.1
Neuro.0
Neuro.1
Diab.0
Diab.1
Comp1
0.35
-1.14
0.12
-2.21
0.22
-2.08
0.25
-0.84
Comp2
-0.02
0.08
-0.13
2.40
-0.02
0.23
0.44
-1.44
CVasc.0
CVasc.1
Loco.0
Loco.1
Neuro.0
Neuro.1
Diab.0
Diab.1
poids
1913
587
2372
128
2257
243
1921
579
CVasc.0
CVasc.1
Loco.0
Loco.1
Neuro.0
Neuro.1
Diab.0
Diab.1
Comp1 Comp2
702
4
2286
15
100
168
1862 3106
339
6
3143
54
363 1541
1205 5107
Question 12: Combien d’axes propres faut-il conserver ? Que peut on dire alors de la qualit´e globale de la
repr´esentation ?
Il y a 4 valeurs propres et on conserve celles qui sont sup´erieures `a 1/4 = 0, 25. On pourrait se contenter de la
premi`ere variable, mais comme d’habitude, on ajoutera la seconde pour les besoins de la repr´esentation.
La somme des valeurs propres est (8 − 4)/4 = 1. Les deux premi`eres valeurs propres, dont la somme est
0, 5729, soit 57% de l’inertie totale. L’analyse ne sera donc pas tr`es bonne.
Question 13: Quelles sont les cat´egories qui d´eterminent les deux premiers axes principaux ? (on d´etaillera les
crit`eres et on cherchera `
a ˆetre pr´ecis dans la r´eponse).
On choisit de conserver les cat´egories dont la contribution est sup´erieure `a 2 fois le poids. Cela donne :
— axe 1 : en n´egatif, Loco.1 (1862 > 2 × 128), Neuro.1 (3143 > 2 × 243), CVasc.1 (2286 > 2 × 587), Diab.1
(1205 ≥ 579 × 2, mais c’est limite par rapport aux autres) ; en positif, rien ;
— axe 2 : en n´egatif, Diab.1 (5107 > 2 × 579) ; en positif, Loco.1 (3106 > 2 × 128).
On ne se pose pas ici la question des cat´egories sur-repr´esent´ees, puisque l’on savait d`es le d´epart que les petits
effectifs des cat´egories de risque ´elev´e allaient les mettre en avant.
3.3
Une variable suppl´
ementaire : l’ˆ
age des assur´
es
On ajoute `
a l’analyse une nouvelle variable quantitative : l’ˆage des assur´es. On calcule donc la corr´elation
de cette variable avec les deux premiers axes, que l’on donne ci-dessous accompagn´ee d’une repr´esentation des
couples (ˆ
age, coordonn´ees factorielles) pour les deux premiers axes.
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
5
Axis1 Axis2
Age -0.14 0.12
Question 14: Expliquez pourquoi les points dans les graphiques ci-dessus sont regroup´es par lignes.
Sur les graphes, on distingue respectivement 12 et 16 lignes diff´erentes. En fait, chaque individu est d´ecrit par 4
variables `
a deux modalit´es. Il y a donc 24 = 16 sortes de clients possibles, ce qui limite le nombre de coordonn´ees
sur les axes. Le fait qu’on ne distingue que 12 lignes sur l’axe 1 est un hasard, en regardant attentivement on
peut constater que certaines lignes sont confondues. Par contre, on distingue bien 16 lignes dans le nuage avec
l’axe 2.
Question 15: Peut-on dire que la variable Age est bien corr´el´e avec les deux premiers axes ? La forme des nuages
de points semble-t-elle donner des informations ?
La corr´elation de la variable Age avec les axes sont faibles (inf´erieures `a 0.14) mais non nulles. On peut voir sur
les graphes que le nuage ne couvre pas le coin sup´erieur gauche du carr´e pour l’axe 1 ; de mˆeme, le coin inf´erieur
gauche n’est pas couvert par le nuage sur l’axe 2. La d´ependance semble plus simple par rapport `a l’axe 1 qu’`
a
l’axe 2. La relation est moins lin´eaire sur ce dernier axe.
En faisant l’hypoth`ese que l’ˆ
age n’a en fait pas une relation lin´eaire avec les axes, on regroupe les individus
par tranches d’ˆ
age de fa¸con `
a traiter l’ˆ
age comme une variable qualitative. On regroupe les individus en 4
groupes : moins de 19 ans (Age.0_19), de 20 `a 39 ans (Age.20_39), de 40 `a 59 ans (Age.40_59) et plus de
60 ans (Age.60plus). On donne ci-dessous les coordonn´ees des nouvelles cat´egories sur les axes, leur effectif et
enfin la valeur test correspondante.
Axis1 Axis2
Age.0_19
0.06 -0.88
Age.20_39
0.29 -0.11
Age.40_59
0.00 0.04
Age.60plus -0.21 0.05
Age.0_19
Age.20_39
Age.40_59
Age.60plus
suppl1.eff
933
5116
23538
7619
Axis1 Axis2
Age.0_19
1.93 -27.23
Age.20_39
22.27 -8.22
Age.40_59
0.81 10.50
Age.60plus -20.72
5.03
Question 16: Quelles sont les cat´egories d’ˆ
age qui sont li´ees aux deux premiers axes ? On expliquera ce que sont
les valeurs test et pourquoi on peut les utiliser. Quelles interpr´etation des axes peut-on en d´eduire ?
Les valeurs-test donn´ees ici permettent de savoir quels sont les cat´egories li´ees aux axes. Une cat´egorie est li´ee
a` un axe si
— c’est une cat´egorie suppl´ementaire, c’est-`a-dire non utilis´ee dans l’analyse
— son effectif est assez grand (mettons 30)
— sa valeur-test sur l’axe est sup´erieure a` 2 ou 3 en valeur absolue
Les deux premiers points sont valables pour toutes les cat´egories. Le troisi`eme point nous donne
— axe 1 : en positif, Age.60plus (20, 72) ; en n´egatif (un peu) Age.20_39 (22, 27)
— axe 2 : en n´egatif, Age.0_19 (27, 23) et Age.20_39 (8, 22) ; en positif (mais plutˆot au milieu en fait),
Age.40_59 (10, 50) et Age.60plus (5, 03).
L’interpr´etation que l’on peut tirer de ces donn´ees est que l’axe 1 s´epare les personnes ˆag´ees de 60 ans et plus,
qui cumulent tous les sur-risques, d’une part, et les jeunes adultes (20 `a 39 ans), qui ont peu de risques. On
notera que les cat´egories non repr´esent´ees ici sont les enfants (moins de 19 ans) et les adultes entre 40 et 59 ans.
Il y a donc un effet non lin´eaire en fonction de l’ˆage.
L’axe 2, lui, montre que le risque de diab`ete d´ecroˆıt avec l’ˆage, alors que le risque locomoteur augmente.
Jean-Marc Lasgouttes — Cours d’analyse de donn´ees 2014-2015 — Universit´e Paris I Panth´eon–Sorbonne
6