La catégorisation - e-agrocampus

Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
La catégorisation
François Husson
Laboratoire de mathématiques appliquées - Agrocampus Rennes
[email protected]
1 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Description du recueil par catégorisation
Historique :
• proposée en 1970 par des psychologues
• mis en œuvre pour la première fois en sensoriel en 1989 par
Lawless
Deux étapes :
1
regroupement des produits en fonction de leur ressemblance
globale
2
description de chaque groupe de produits par des mots
2 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Mise en place de la dégustation
• Chaque juge est dans un box individuel
• Tous les produits sont apportés simultanément
• Les produits sont codés comme pour un recueil classique
• Il est possible de revenir sur un produit
• Le juge énumère les groupes de produits et les mots associés
au groupe sur une feuille blanche (avec le numéro du juge)
Numéro
Groupe
Groupe
Groupe
Groupe
du juge : 18
1 : 617, 172, 621 : fruité
2 : 891, 268
: fort, entêtant
3 : 145, 387, 433 : fleuri, fraîcheur
4 : 925, 719, 546 : marine
• Bien vérifier que tous les produits apparaissent 1 fois et 1 seule
3 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Intérêts du recueil par catégorisation
• Tâche de description facile
• Tâche de description rapide
• Ne nécessite pas d’entraînement
• Peut être effectuée par des consommateurs
• Etape préliminaire/complémentaire du profil sensoriel classique
• Permet l’obtention de descripteurs
4 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Exemple : description de parfums
Les produits
Angel
Aromatics Chanel n°5
Elixir
Coco
L'instant
Mademoiselle
Pure Poison
Les juges
Cinéma
Lolita Pleasures
Lempicka
Shalimar J'adore (ET) J'adore (EP)
5 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Exemple : description de parfums
Etape 1 : constituer les groupes
Etape 2 : verbaliser chaque groupe
« oriental,
Patchouli oil »
« gourmand,
vanille»
« épicé, aldehyde »
« floral,
vert »
« orange »
«boisé »
6 / 26
Recueil de données
P2
50
80
40
20
M2
15
21
2
2
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Quel tableau de données analyser ?
P1
P2
P3
P4
P3
22
40
80
70
P4
15
60
10
80
… MM
… 3
… 5
… 19
… 24
P1
80
50
58
65
P2
50
80
40
20
P3
22
40
80
70
P4
15
60
10
80
P1
P2
P3
P4
P1
1
0
0
1
P2
•0
1
1
0
P3 P4
M1 M2 MM
le0 tableau
de cooccurences
=⇒ MDS
1
P1 1 0 … 1
1
0
P2 0 individuelle
0 … 0
rq : ni information
ni
1 0
P3 0 1 … 0
information
sur
les
mots
0 1
P4 1 0 … 1
M1 M2 … MM
P120P215P3… P43
P1
P1
5021P422… 155
P1P280
P217P3
… 60
19
P1P21P350
0 580
0 2140
… 10
24
P2P30P458
1 340
1 2080
J1 J2 … JJ
J1 J2 … JJ
•P2les
tableaux
individuels
de
P1 M3
P3M6
P4
…
G6 M2 MM
P1 M1
P1 G1 G3 … M1
M4
…0M61
G1(tableaux
G4 …
G6
P2
P2
cooccurences
P1M1
1
0
P1 1 0de…0 et
1
M1 M2 MM
M20 M4
…1M70
P3
P3 G2 G4 …
P2P1
P2G70 0 … 0
1 01=⇒
… 1distatis
M2 M5 … M7
G2
G5
…
G7
P4
P4
P3P2 0 1 1 0
P3P40 65
1 20
1 070
P4 1 0 0 1
P4P3 10 10rq…0: 0pas
1
80
J1M1J2 M2
… …
JJ MM
M3 … M6
P1 M120
15 … 3
P1
P2 M1 M4 … M6
… 5
M217
M421
… M7
P3P2
2 M7
… 19
M2 5M5 …
P4P3
P4 3
2 … 24
P1
P2
P3
P4
0 0 …
0
P4 1 0 …
1
J1 J2J1 …
•
G1 G3
P1 M1…
G1 G4 …
M1…
P2G4
G2
M2…
P3G5
G2
JJ
J2
G6
M3
G6
M4
G7
M4
G7
P3 0 1 …
de 1)
0
d’information
les 1mots
P4 1 sur
0 …
… JJ
J1 J2 … JJ
P4 M2 M5 … M7
P4 G2 G5 … G7
le tableau
produit
x mot =⇒ AFC
… M6
P1 G1 G3 … G6
rq :… ni
sur…les
M6information
G6 associations
P2 G1 G4
M7
G2 G4 … G7 individuelle
de …produits
niP3information
7 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Quel tableau de données analyser ?
P3
0
1
1
0
P4
1
0
0
1
M1
P1 1
P2 0
P3 0
P4 1
P2 P3 P4
50…22JJ15
380… 40
M660
P1
440… 80
M610
P2
P3
420… 70
M780
J1
G1
G1
G2
5 … M7P4 G2
M2
15
21
2
2
… MM
… 3
… 5
… 19
… 24
M1
P1
1
MM
P2 0
… 1
…P3 0 0
…P4 0 1
M2
0
0
1
0 …
M2
0
0
1
0
• les tableaux individuels produit x mot
MM
… 1
… 0
… 0
… 1
=⇒ AFMTC
rq : pas d’information sur les
associations
1
P1 P2 P3 P4
J1 0J2 0 … 1 JJ
1G31 … 0G6
1G41 … 0G6
0G40 … 1G7
J2P1… JJ1
G1
P1
0
G3P2
… G6
G1
G4P3
… G6
0
P2
G4P4
… G7
1
G2
P3
G5 … G7
G2
P4
G5 … G7
J1
P1 M1
P2 M1
P3 M2
P4 M2
J2
M3
M4
M4
M5
…
…
…
…
…
JJ
M6
M6
M7
M7
M2 MM
• leM1
tableau
produit x juge avec un
P1 1 0 … 1
numéro
P2
0 0 …de0 groupe
P3
1 … 0
=⇒0 ACM
P4 1 0 … 1
dans chaque cellule
rq : pas d’information sur les mots
J1 J2 … JJ
P1
P2
P3
P4
… G6
•G1 leG3tableau
produit x juge avec les mots
G1 G4 … G6
chaque
G2 dans
G4 … G7
G2 G5 … G7
cellule =⇒ ACM
Ces méthodes sont comparées dans la thèse de Marine Cadoret
8 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Exemple : description de parfums
Codage des données :
vanille boisé épicé oriental floral orange vieux fort orange
vanille
orange
1
0
0
0
0
0
0
0
1
boisé
vieux
0
1
0
0
0
0
1
0
0
épicé
vieux
0
0
1
0
0
0
1
0
0
orange
fort
0
0
0
0
0
1
0
1
0
orange
fort
0
0
0
0
0
1
0
1
0
orange
fort
0
0
0
1
0
0
0
1
0
vanille
fort
1
0
0
0
0
0
0
1
0
floral
fort
0
0
0
0
1
0
0
1
0
boisé
vieux
0
1
0
0
0
0
1
0
0
boisé
vieux
0
1
0
0
0
0
1
0
0
floral
orange
0
0
0
0
1
0
0
0
1
floral
orange
0
0
0
0
1
0
0
0
1
9 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
L’ACM : distance entre produits
2
di,i
0 =
K
I X
(xik − xi 0 k )2
J k=1
Ik
vanille boisé épicé oriental floral orange vieux fort orange
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
2
3
1
1
3
2
4
5
3
d = I/J (1 + 1/2)
d = I/J (1/3 + 1/2)
d=0
10 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
L’ACM : distance entre produits
2
di,i
0 =
K
I X
(xik − xi 0 k )2
=0
J k=1
Ik
vanille boisé épicé oriental floral orange vieux fort orange
• di,i 0 = 0 si les
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
produits i et i 0 sont
systématiquement
ensemble
0
0
0
0
0
1
0
1
0
• i et i 0 sont d’autant
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
2
3
1
1
3
2
4
5
3
plus proches qu’ils ont
été mis ensemble par
beaucoup de juges
d=0
10 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
L’ACM : distance entre produits
2
di,i
0
K
I X
(xik − xi 0 k )2
I 1 1
I
=
=
+
= 0.83 ×
J k=1
Ik
J 3 2
J
vanille boisé épicé oriental floral orange vieux fort orange
• di,i 0 = 0 si les
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
produits i et i 0 sont
systématiquement
ensemble
0
0
0
0
0
1
0
1
0
• i et i 0 sont d’autant
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
2
3
1
1
3
2
4
5
3
plus proches qu’ils ont
été mis ensemble par
beaucoup de juges
d = I/J (1/3 + 1/2)
10 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
L’ACM : distance entre produits
2
di,i
0
K
I X
(xik − xi 0 k )2
I 1 1
I
=
=
+
= 1.5 ×
J k=1
Ik
J 1 2
J
vanille boisé épicé oriental floral orange vieux fort orange
• di,i 0 = 0 si les
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
produits i et i 0 sont
systématiquement
ensemble
0
0
0
0
0
1
0
1
0
• i et i 0 sont d’autant
0
0
0
0
0
1
0
1
0
0
0
0
1
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
2
3
1
1
3
2
4
5
3
plus proches qu’ils ont
été mis ensemble par
beaucoup de juges
d = I/J (1 + 1/2)
• la modalité k
contribue de façon
inversement
proportionnelle à sa
taille (un produit
particulier est éloigné)
10 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
L’ACM : distance entre mots
2
dk,k
0 = I
I X
xik
i=1
Ik
−
xik 0
Ik 0
2
• Deux mots (deux modalités) sont d’autant plus éloignés qu’ils
ont peu de parfums (d’individus) en commun : autrement dit,
que le nombre de parfums décrits par le mot k et le mot k 0 est
petit
• Deux mots sont superposés s’ils caractérisent exactement les
mêmes parfums
11 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Représentation
des parfumsdes parfums
Représentation
res.fast <- fast(parfums, sep.words="
SortingTask")
factor map
1.5
Angel
0.5
Cinéma
Shalimar
0.0
L instant
-0.5
Coco Mademoiselle
Pure Poison
Aromatics Elixir
J adore (EP) Pleasures
J adore (ET)
Chanel 5
-1.0
Dim 2 (13.64%)
1.0
Lolita Lempicka
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Dim 1 (17.8%)
12 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Représentation des parfums et des mots
MCA factor map
angel fleuri
J81_tabac−froid
J22_particulier
J42_fruité
J65_sucré
J51_miel
J25_fort
J36_Gr5
J40_Gr6
J55_Gr4
J97_fête
J31_fort
prononcé
J6_Gr6fortmélange
2
fruité
J78_vanillé
J14_vanillé
J1_exotique
chocolat
J15_à−manger
J70_chaud
J96_chaud
J35_intense
J71_chaud
J68_épicé
sucré
épicé
J23_Gr4
J58_Gr3
angel
fort
sucré
esprit−des−îles
Thierry_Mugler
vanillé
lolita_lempicka
sucré
agréable
sucré
J92_neutre
J97_asceptique
J73_poivré
J91_estival
J79_Gr4
J84_Gr2
J6_Gr8discret
J72_épicé
J43_sucré
J95_barbe−à−papa
J16_nourriture
J32_épicé
J98_caractère
doux
J3_soirée
corcé
mucs
féminin
rafiné
chocolat
fortcamphre
épice
jeune
J74_odeur−prenante
J85_Gr1
1
0
originalité
équilibre
tendresse
sucré
douceur
J69_fort
attaquant
sucré
étherJ56_bonbon
J45_fort
fleuri
alcool
J39_fruité
J33_printemps
pain−d
J38_agressif
J5_entetant
baba
épices
fleur−d
pourri
amande
oranger guimauve
J76_lourd
ambre
épicé
J21_Gr2
J36_vanille
J48_léger
J10_Gr1
J17_sucré
J29_femme
J2_Gr3
fleur−douce enivrant
J67_chimique
agrume
J27_Gr2
J29_Gr6
sucré
nature
fraîcheur
J4_Gr1
J28_doux
amer
piquant
agréable
J86_lourd
hiver
fruité
J45_doux
fruité
sucré
J42_sucré
J75_fruité
moyen
doux
fleuri
léger
fruité
doux
J86_léger
sucré
caramelisé
J26_boisé
J37_Gr3
J48_fort
nature
musc cuir
J52_fruité
fruits−rouges
J81_fleuri doux J92_troisième_âge
vieuxJ76_entetant
J25_fleuri
J50_Gr5
J84_vanille
J28_doux
non−persistant
J60_fort
fruité
fortfemme−mûre
J55_fort poivré
chevrefeuille
J30_chaud
J65_fruité
grossier
J74_fleuri
J63_doux
J11_Gr3
puissant masculin médicament
J50_chocolat
J70_Gr3
grand−mère
J12_fleuri
doux
J67_fruité
J34_âcre
fort
J54_piquant
J9_doux
J85_Gr4
J19_fruité
J39_fleuri
jeune
frais
fleuri subtil J5_fort
chaud doux
sucré
femme_40_ans
J75_suave
J10_Gr3
J33_fruité
grand−mère
transpiration
toilettes
agressif piquant
lourd
J53_poivré
J64_fleuri
J93_fleuri
fort
sucré
J35_le−vieux
fort fleuri J64_boisé
J89_vieille
lourd
J11_Gr2
J63_Gr3
fort
masculin
fort
J92_léger
J6_doux
J96_piquant
discret
fruité
J91_érotique
J93_fleuri
J89_normaux
faible
J4_doux
frais
fleuri
fruité
doux
agréable
bébé
faible
J51_fruité
amer
J29_bain
J34_fruité
douche
J58_Gr5
J87_epicé
J1_fleuri
lila
J87_fleuri
J79_doux
fruité
J37_Gr4
J38_fleuri
J50_fleuri
J30_alcool
hiver
voluptueux
J94_doux
J69_sucré
chaud artificiel
chimique
J73_fleuri
acide
J60_frais
piquant
J25_fleuri
sucré
J12_fleuri
herbe
J35_anti−moustique
J22_particulier
fort
huile−essentielle
J98_pourri
J96_fleuri
J14_renfermé
lavande
J95_désodorisant
J92_nauséabond
J86_médicament
J40_citronnelle
J45_frais
J87_métallique
J21_citronnée
J32_oriental
J52_agrume
J9_oriental
J33_hopital
J36_sucré
J42_doux
J6_épicé
J29_cire
J93_fort
J34_Gr5
eau−de−cologne
décomposition
désodorisant
forteau−de−cologne
fleuri
agressif
médicament
mentholé
J14_sucré
doux
épicé
fleuri
dynamique
jeunesse J9_fleuri
vieJ28_nourriture
ecoeurant
acidité
grand−mère
piquant
fortgrand−mère
J67_eau−de−cologne−pour−grand−mères
J35_pistache
J43_épicé
J9_excentrique
J87_neutre
J22_fort
J42_Gr2
J55_Gr3
J92_Gr6
chaud
amande
J78_fleuri
J52_vanillé
●
J90_fleuri
J15_doux
J22_discret
fleuri
faible
J97_fuité
J91_frais
J52_rose
fleur
fraîcheur
doux
léger
nature
J37_Gr2
J68_doux
J54_été
agressif
J15_le−vieux
J71_Gr5
grand−mère
J79_fleuri
champêtre
J38_plante
J53_fruité
sucré
J28_Gr4
J76_sucré
fruitéJ2_Gr4
J23_Gr2
J17_léger
doux J98_femme−mûre
J1_fort
poivré
J16_ménager
alcoolisé
mentholé
J79_fort
J58_Gr1
J85_Gr5
grand−mère
fort
cire
acide
J25_doux
J67_masculin
J39_Gr2
fleuri
sensuel
J34_piquant
envoutant
J71_fleuri
fleuri
léger
frais
J56_doux
frais
J84_rose
J27_léger
discret
léger
Noel USA
vieux
baba
pot−pourri
bouquet
grand−mère
J51_fleuri
rose
J21_Gr1
J29_doux
fruité
J51_citron
J85_lourd
J34_citronné
J81_doux
J72_fruité
J73_bébé
J40_Gr2
sucré
frais
J90_lourd
J23_Gr3
sucré
J97_printemps
J86_sucré
J1_Gr3
J45_fort
J60_doux
J91_corsé
fleuri étéJ28_désagréable
J33_montagne
J4_doux
J54_Gr3
intense
agressif
grand−mère
J14_rude
J36_Gr4
fortviolent
alcool
fort
léger
fleuri
J86_Gr1
piquante
fort amerfortJ42_eau−de−cologne
J27_Gr1
fleuri
J43_femme
fort
fraîcheur
fleuri
piquant
sucré
J10_Gr4
J36_Gr7
J52_Gr5
chaud
fleuri
spécifique
doux
intense
sucré
J31_doux
J25_âcre
J16_fleuri
J68_Gr5
J2_fort
J74_doux
discret
J89_discret
J75_doux
J6_lavande
végétal
J31_piquant
artificiel
J78_fleuri
J43_musc
J70_patchouli
J75_agressif
J4_agressif
J65_fort
J72_ambre
pharmaceutique
J68_vieux
périmé
WC
J3_fort
grand−mère
ambré
chimique
fort
chimique
piquant
entêtant
vieux
fort
vieux
entretien
J55_naturel
doux
J19_talc
J88_entretien
J32_femme
grand−mère
J30_fort
J64_fraîcheur
J50_Gr4
linge_propre
J3_doux
grand−mère
vieux savon
toilettes
J63_léger
J11_Gr1
J94_aigre
entretien
fleuri sucré
J96_marine
intense
prononcé
doux
chaleureux
J26_Gr3
J12_fort
homme
vétiver plante−verte
arbre
J98_léger
frais
J35_fleuri
J69_doux
printemps
naturel
herbe−coupée
fougère
J85_Gr2
J95_nature
J56_fleuri
J88_fleuri
doux
fruité
piquant
J3_nature
J71_fruité
frais
J70_Gr5
J10_Gr2 agressif J60_savon
J32_hopital
acidulé
J98_léger
J92_fort
toilettes
J60_fleuri
fin
J6_Gr7
désodorisant
suave
ennivrant
caractère
personnes−agées
J95_doux
J65_fleuri
J14_douceur
léger
J23_Gr1
fruité
fleuri
J76_vif
fleuri
J19_discret
herbes−fougères
rose
délicat
J5_fleuri
J26_doux
doux
J81_agressif fort
J39_savon−de−marseille
femme−d
âge−mûr
J92_léger
fleuri
suffocant
frais
J32_fleuris
été
citrique
léger
frais
fruité
J91_fruité
J42_Gr7
J9_hypoallergénique
bébé
pharmacie
J58_Gr4
J43_fleuri
J97_volupté
J67_fort
fleuri
intérieur
poudré
J48_exotique
J78_muguet
J17_pollen
J68_nature
J29_sucré
J36_Gr6
J86_Gr5
naturel
J6_Gr5
J45_frais
J70_léger
citrus
WC
J64_fruité
J87_sucré
J40_gel−douche
J72_fleuri
fleuri
J84_muguet
J15_fleuri
prononcé
fleuri
fruité classique
J85_Gr3
doux
J78_solvant
propreté
J98_fruité
J35_fruité
J94_discret
sucré
J73_fruité
J88_fruité
J42_Gr8
J69_Gr3
fraîcheur
faible
chimique
discret
sucré
savon
J81_toilettes
J97_passion
J21_hopital
J74_immonde
pharmaceutique
fort
J16_connu
J1_savon
J25_toilettes
fort
J17_chimique
masculin
capiteux
J22_fort
J93_chimique
J56_fort
J6_savon
J73_piquant
ancien
lourd
J40_Gr5
J96_Gr3
non−naturel
grand−mère
mauvais
éventé
eau−de−cologne
fleuri
fort ecoeurant
artificiel
sucrépropre
fortfrais
intenseJ36_savon
mal−de−tête
fleuri
lila
enterement
J45_doux
J35_toilette
J38_savon
J33_frais
J37_Gr1
J71_Gr2
fleuri
grand−mère
J58_Gr2
−1
Dim 2 (13.64%)
J26_frais
J31_Gr3
J40_Gr3
jeune fruité
J88_poivré
epicé
J94_très−doux
sucré
sucré
ecoeurant
brulé
fort
J90_masculin
J19_homme
J73_épicé
fort sucré épicé
fruité sucré
J56_vanillé
J27_fort
attirant jeune poivré
J98_eau−de−cologne
savon
J50_parfum−à−WC
médicament
J14_toilettes
J76_toilettes
J79_attaque
J86_entêtant
J15_savon
J69_savon
J31_savon
J42_WC
J29_fort
J12_Gr4
J28_Gr5
J51_Gr4
fort
J2_Gr1
prononcé
plante
−1
0
1
2
3
Dim 1 (17.80%)
13 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Représentation
des mots
Représentation
des parfums et des mots
sucré
épicé
sucre candy
chocolat
jeune
vieux
fort
aggressif
entêtant
floral
exotique
léger
13 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Représentation des juges
Angel
1.0
Lolita Lempicka
Cinéma
31
40
Shalimar
Dim 2 (13.64%)
0.4
0.6
0.8
L instant
0.2
Coco Mademoiselle
Pure Poison
93
0.0
18
0.0
0.2
0.4
0.6
Dim 1 (17.8%)
0.8
1.0
J adore (EP) Pleasures
J adore (ET)
juge 18
Shalimar
2
Aromatics Elixir
2
Chanel n°5
3
Coco Mademoiselle
3
J'adore (EP)
1
J'adore (ET)
3
L'instant
2
Pleasures
3
Pure Poison
1
Angel
3
Cinéma
3
Lolita Lempicka
1
Aromatics Elixir
Chanel 5
juge 31
1
2
4
1
1
1
1
1
2
5
3
3
juge 40
4
5
5
2
1
1
2
1
2
6
3
3
juge 93
4
3
3
2
1
2
1
1
2
1
2
2
14 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (mauvaise) idée pour construire des ellipses de
confiance
Principe de construction :
1 Faire l’ACM
2 Utiliser la position des mots pour obtenir la position d’un produit vu par un juge
3 Construire l’ellipse de confiance à partir des J positions d’un produit
Ellipses de confiance obtenues sur un jeu de données simulé
(méthode Cadoret, Lê, Pagès)
1.0
Evaluation de la méthode par perturbation du jeu de données :
P11
P2
Perturbation du jeu de données:
P3
P9
données
cassée, il ne
n’y a plus
données est cassée,
les est
produits
de produits bien différenciés par
sont plus différenciés
par
tous
les
tous les juges
(mais on conserve
nombre de
juges (mais on conserve
le nb lede
classes de produits par juge)
groupes par juge)
0.0
P5
P12
P4
P6
P7
-0.5
• La structure globale
La structure
globale
du jeu
de du jeu de
P8
P10
-1.0
au hasard les produits
hasard les produits
Dim 2 (10.69%)
0.5
• Pour chaque juge,
Pourintervertir
chaque juge, au
on intervertit
P1
-1.0
-0.5
0.0
0.5
1.0
1.5
Dim 1 (10.91%)
Problème : le graphe met en évidence des
Problème: le graphedifférences
met en évidence
desproduits
différences entre produits
entre
15 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (mauvaise) idée pour construire des ellipses de
confiance
Pourquoi les ellipses sont-elles autant séparées ?
Pourquoi les ellipses sont-elles autant séparées sur un jeu de
• Projections du produit 1 vu par chaque juge sont dans une même région d
données non-structuré
?
• L’ellipse est petite car construite autour d’un centre de gravité de beaucoup
1
par chaque juge sont dans
une même région du graphe
Dim 2 (10.69%)
0
• Projections du produit 1 vu
construite autour d’un
centre de gravité de
beaucoup de points
-1
• L’ellipse est petite car
P11
P2
P3
P9
+
P5+
+
+
+
+
+
+
+ + +++ + P12
P6
+
+
+
+
P7 +
++
+++
+
+
+ + ++ ++
+++ +
+
+
+
+
+ ++ P8+ +
+ + + + ++++ +
+
+ P10+
+
+
+
+
P1 + ++ ++ ++
+ ++ + + +
+
+
+
+
++
++
++++
+
+++++
+
+
-1
0
P4
1
Dim 1 (10.91%)
16 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (bonne) idée pour construire des ellipses de
confiance : le bootstrap total
Le bootstrap total consiste à bootstraper les individus
statistiques, refaire une analyse complète pour chaque réplication
et enfin concaténer les résultats des échantillons bootstraps
Description de l’algorithme en catégorisation :
1
2
Faire l’ACM sur les données du vrai jury
Répéter
• Construire un jury virtuel en choisissant au hasard des juges
dans le vrai jury
• Faire l’ACM sur le jury virtuel
• Faire une rotation procrustéenne du plan d’ACM obtenu par le
jury virtuel sur le plan de l’ACM obtenu avec le vrai jury
3
Construire des ellipses de confiance autour de chaque produit
à partir des positions de chaque jury virtuel
17 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (bonne) idée pour construire des ellipses de
confiance : le bootstrap total
Vrai jury
Jury virtuel 1
Jury virtuel 2
Jury virtuel 3
Jury virtuel 500
ACM
ACM
ACM
ACM
ACM
Rotation procrustéenne
18 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (bonne) idée pour construire des ellipses de
confiance : le bootstrap total
Vrai jury
Jury virtuel 1
Jury virtuel 2
Jury virtuel 3
Jury virtuel 500
ACM
ACM
ACM
ACM
ACM
Rotation procrustéenne
18 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (bonne) idée pour construire des ellipses de
Construction
d’ellipses:parlebootstrap
total total
confiance
bootstrap
Jeu de données simulé
2
2.0
Jeu de données parfums
1.5
Angel
1.0
1
Lolita Lempicka
J adore (ET)
P12
P4
P6
P7
P8
P10
Aromatics Elixir
Coco Mademoiselle
Pure Poison
Pleasures
J adore (EP)
P5
0
Dim 2 (10.69%)
Shalimar
P3
P9
P1
-1
0.5
0.0
-0.5
Dim 2 (13.64%)
Cinéma
L instant
P11
P2
Evaluation de la méthode
sur données non-structurées
(perturbation aléatoire du jeu
de données)
-2
-1.0
Chanel 5
-1
0
1
Dim 1 (17.8%)
2
-2
-1
0
1
2
Dim 1 (10.91%)
=⇒
mise
en évidence de produits
résultat
pour
Mise Aucune
en évidence
de différences
Pas: de
mise en attendu
évidence de
entre certains
produits
différences entre produits
données
non-structurées
Shalimar et Aromatics Elixir ne sont
pas différenciés sensoriellement
19 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
1.5
2.0
Une (bonne) idée pour construire des ellipses de
confiance
: le avec
bootstrap
total
Représentation
des parfums
ellipse de confiance
Angel
1.0
0.5
0.0
Cinéma
Shalimar
L instant
Aromatics Elixir
-0.5
Coco Mademoiselle
Pure Poison
Pleasures
adore(ET)
(EP)
JJ
adore
-1.0
Chanel 5
-1.5
Dim 2 (13.64%)
Lolita Lempicka
-1
0
1
2
Dim 1 (17.8%)
20 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Une (bonne) idée pour construire des ellipses de
confiance : le bootstrap total
Besoin de choisir le nombre de dimensions de l’ACM pour faire la
rotation procrustéenne
Choix difficile du nombre de dimensions : souvent 2 dimensions
Utilisation possible de cet algorithme pour des données de
catégorisation, napping, napping catégorisé, tri hiérarchique, profil
flash, et pour les données de QDA.
Algorithme disponible dans la fonction boot de SensoMineR
21 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Recherche automatique de mots consensuels
Un mot est consensuel s’il est utilisé de la même façon par les juges
MCA factor map
●
●
P positions
●
●
●
1.0
●
●
●
●
●
●
0.5
Cinéma●
●
●
●
●
●
●
●
0.0
Dim 2 (13.64%)
●
●
●
●
●
●
●
Shalimar
●
fort
●
L instant●
●
−0.5
la variabilité des P
projections de ce mot est
significativement plus
petite que la variabilité
des positions de P mots
choisis au hasard
●
Lolita Lempicka
●
●
Coco Mademoiselle
léger
●
Pure Poison
●
●
●
●
Pleasures
J●adore
(ET) ●
●●
●
J adore
(EP)
●
●
●
●
●
●
●
●
●
●
●
●
●
Aromatics
Elixir
●
●
●
●
●
●
●
●
Chanel 5
−1.0
• Consensus sur un mot si
Angel
●
1.5
• Un mot cité par P juges a
●
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
Dim 1 (17.80%)
Quel intérêt de commenter un mot non-consensuel ?
22 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Recherche automatique de mots consensuels
res.consensual <- ConsensualWords(res.fast,
nbtimes=2,
proba=0.05)
Sorting task with consensual
words
Angel
1.5
●
Lolita Lempicka
0.5
Cinéma●
boisé
0.0
fruité
faible
−0.5
discret
doux
léger
L instant
●
Shalimar oriental
●
●
fleuri
●bébé frais
Coco Mademoiselle
rose
été ●Pure Poison
J adore (EP)
●
● ●
J adore (ET) Pleasures
naturel
muguet
Aromatics Elixir
●
grand−mère vieux
entretien
●
Chanel 5
−1.0
Dim 2 (13.64%)
1.0
●
−1
0
1
2
Dim 1 (17.80%)
23 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Analyse textuelle
Le mot Vanillé caractérise-t-il le parfum Angel ?
Vanillé
Pas Vanillé
Total
Angel
5
119
124
Pas Angel
8
1414
1422
Total
13
1533
1546
Principe : une urne contient 1546
boules, sur 13 boules est écrit le mot
vanillé, on tire 124 boules.
H0 : la fréquence F du mot Vanillé suit une loi H(1546, 13, 124)
Peut-on remettre en cause cette hypothèse ?
=⇒ 5 provient-il d’une loi hypergéométrique H(1546, 13, 124) ?
Angel
vanillé
Intern % glob % Intern freq
4.032
0.841
5
5
= 0.04032 ;
124
13
= 0.00841 ;
1546
Glob freq p.value
13 0.005
v.test
2.829
P [F ≥ 5 | F ∼ H(1546, 13, 124)] = 0.005
=⇒ Rejet de H0 , le mot Vanillé est sur-employé pour Angel
24 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Analyse textuelle
res.fast$textual
Angel
vanillé
épicé
sucré
fort
Intern % glob % Intern freq Glob freq p.value v.test
4.032 0.841
5
13
0.005 2.829
4.839 1.488
6
23
0.015 2.426
12.097 6.598
15
102
0.026 2.225
13.710 8.215
17
127
0.041 2.042
Chanel n˚5
savon
toilettes
grand-mère
chimique
fort
vieux
Intern%
7.752
3.101
6.202
3.876
13.953
3.876
glob% Intern freq Glob freq p.value v.test
1.423
10
22
0.000 4.515
0.712
4
11
0.019 2.341
2.523
8
39
0.025 2.236
1.164
5
18
0.026 2.220
8.215
18
127
0.029 2.183
1.229
5
19
0.033 2.126
25 / 26
Recueil de données
Traitement statistique
Ellipses de confiance
Aides à l’interprétation
Quelques références
• Cadoret M. (2010). Analyse factorielle multiple de données de catégorisation :
application aux données sensorielles. Thèse de doctorat.
http://marine.cad1.free.fr/These_Marine_Cadoret.pdf
• Cadoret M., Lê S. & Pagès J. (2009). A Factorial Approach for Sorting Task
data (FAST). Food Quality and Preference. 20, 410–417.
• Cadoret M. & Husson F. (2013). Construction and evaluation of confidence
ellipses applied at sensory data . Food Quality and Preference, 28, 106–115.
• Kostov B., Bécue-Bertaut M. & Husson F. (2014). An original methodology for
the analysis and interpretation of word-count based methods : multiple factor
analysis for contingency tables complemented by consensual words. Food
Quality and Preference, 32, 35–40.
Les fonctions de SensoMineR :
fast
boot
ConsensualWords
# fait l’ACM, l’analyse textuelle, les zones de confiance
# construit les ellipses de confiance (appelée par fast)
# trouve les mots consensuels
26 / 26