Abbas RAMMAL et al. Identification des bandes spectrales dans le

Identification des bandes spectrales discriminantes dans le
processus de dégradation par spectroscopies MIR et NIR à
l’aide d’algorithmes génétiques
Abbas Rammal 1, Eric Perrin1, Anouck Habrant2 , Brieuc Lecart2 , Isabelle Bertrand2,
Brigitte Chabbert2,3, Valeriu Vrabie1
1CReSTIC,
Université de Reims Champagne-Ardenne, Moulin de la Housse - B.P. 1039, 51687 REIMS Cedex 2, France.
2INRA, UMR614 Fractionnement des AgroRessources et Environnement, 2 Esplanade Roland Garros - BP 224, 51100 Reims, France.
[email protected]
1. Introduction
Objectifs:
• implémenter un Algorithme Génétique (AG) qui permet la sélection automatique de nombres
d’ondes les plus discriminants. Tester différentes fonctions fitness qui visent à avoir les clusters les
plus compacts possibles et les plus séparés .
• Cette étude aborde également la possibilité de combiner les informations spectrales MIR et NIR
avec l’objectif d’améliorer la discrimination des échantillons lors du processus de biodégradation.
Un des défis actuels dans l’analyse et la modélisation des processus de
biodégradation de la biomasse végétale par spectroscopies MIR/NIR
est de déterminer les modes de vibrations (donc les nombres d’ondes),
intrinsèquement liées à la composition chimique et qui sont les plus
discriminants par rapport à la cinétique de biodégradation.
2. Méthodologie
(a,b)
λ1 λ2 λ3 λ4
b
X X
X X
X X
PC1
PC2
*
PC2
X X
14
Loadings
14
Scores
Matrice de spectres
(prétraités)
2 mm
a
Décomposition
ACP de la matrice
de spectres
PC1
λ1
λ2
Scores plot (PC1 & PC2) des
informations contenues dans
les spectres enregistrés
λ3
PC1
Décomposition ACP
de matrice de bandes
sélectionnées par AG
λ4
Application de l’AG sur la
matrice de spectres
Scores plot (PC1 & PC2) des
informations sélectionnées par AG
Sélection de bandes spectrales par AG, décomposition ACP des informations sélectionnées et
représentation de scores plot.
Décomposition ACP de la matrice des spectres et représentation de scores plot
• Les scores ACP permettent d’analyser la séparabilité des échantillons selon la cinétique de
biodégradation.
• L’AG sélectionne des bandes spectrales optimales permettant une meilleure séparabilité : Les
meilleurs résultats obtenus sont avec la fonction fitness Davies-Bouldin (DB) qui maximise
toutes les distances inter-cluster et minimise la distance intra-cluster pour chaque cluster.
• Pour quantifier la séparabilité par rapport à la cinétique de biodégradation,
l’Indice de Dunn (DI) est calculé avec les scores obtenus :
𝑑𝑚𝑖𝑛
DI =
où 𝑑𝑚𝑖𝑛 désigne la distance minimale entre deux classes
𝑑𝑚𝑎𝑥
différentes et 𝑑𝑚𝑎𝑥 la distance maximale entre deux spectres d’une même
classe.
3. Application
 Spectres :
• Les spectres ont été enregistrés par l’IRTF Nicolet 6700 Thermo en mode DRIFT dans les gammes
800-1800 cm-1 en MIR et 4000-6000 cm-1 en NIR.
• Les spectres ont été prétraités par filtrage Savitzky-Golay (SG) de 1er ordre avec un lissage sur 17
points et un polynôme d’ordre 4, suivi d’une normalisation de type Standard Normal Variate.
 Biomasse lignocellulosique :
Racines de maïs issues de deux lignées parentales distinctes (F2 et
F292) et deux mutants de ces lignées (F2bm1 et F292bm3), analysées
sur 5 périodes de biodégradation: t1=0, t2=14, t3=36, t4=57 et t5=112
jours(a)(G. Machinet and al. 2009).
 Bandes sélectionnées par AG :
 Combinaison des informations spectrales MIR-NIR :
Nous mettons bout à bout le segment [800 1800] cm-1 de MIR et le segment MIR
NIR
[4000 6000] cm-1 de NIR. Chaque spectre est prétraité séparément.
858; 953; 1383 et 1707 cm-1
4850; 5195; 5540; 5705 cm−1
NIR
0.6
0.4
•
•
0.2
•
•
0
(b)
858
-0.2
953
1383
4850
1707
-0.4
4000
 Scores plots :
5195
5541
6000
600 800MIR: Gamme
1000 800
1200– 18001400
1600
1800
2000
cm
MIR: Bandes sélectionnées par AG
-1
4
0.3
2
1
0.2
0
0
0.2
DI=0.04
36
-0.1
36
-4
-8
57
57
112
112
-6
112
-1
-4
-2
0
2
4
6
-0.2
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
-3
0.6 -4
0.2
0.1
0
0.05
0
0
14
36
0.2
0.1
0
-3
-2
-1
0
1
2
3
-0.2
-0.4
PC1
PC1
PC1
L’application de la ACP sur les informations spectrales MIR et NIR sélectionnées aux nombres d’ondes identifiés
par l’AG donne une meilleure discrimination des échantillons par rapport à la cinétique de biodégradation que
l’application classique de l’ACP sur les informations enregistrées à tous les nombres d’ondes en MIR et NIR.
0.2
0.1
0
DI=0.22
DI=0.11
-0.1
-2
36
MIR-NIR: Bandes sélectionnées par AG
0.1
0.1
14
14
-2
0
0
1
14
PC2
0
PC2
0
0.1
10000
NIR: Bandes sélectionnées par AG
57
PC2
PC2
8000
NIR: gamme 4000 – 6000 cm-1
DI=0.11
DI=0.07
2
Les nombres d'ondes sélectionnés par l’AG correspondent aux vibrations principales des
groupes fonctionnels chimiques. Ils peuvent ainsi être attribués à l’évolution chimique des
échantillons étudiés au cours de la biodégradation.
cm-1
5705
858 cm-1 : Vibrations du squelette aromatiques combiné avec CH déformation (balancement),
953 cm-1 : C-O-C élongation de la polysaccharides,
1383 cm-1 : Cellulose avec lignine ( élongation -CH de groupement CH3),
1707 cm-1 : Hemicellulose (élongation C=O de groupements cétones non conjugués,
carbonyls et esters )
4850 cm-1 : élongation C = O de groupement CH3, et OH + déformation O-H,
5195 cm-1: Eau (O-H antisymétrique, vibration de valence + vibration de déformation O-H
dans H2O),
5540 cm-1 : Le groupe fonctionnel CH (première harmonique de CH3 et -CH = CH-),
5705 cm-1 : première harmonique d élongation CH.
PC2
MIR
•
•
•
•
MIR-NIR : bout à bout
858; 1385; 5541 et 5705 cm−1
-0.2
0
PC1
0.2
0
0
-0.05
14
36
57
57
112
112
0.4
-0.1
-0.4
-0.2
0
0.2
0.4
PC1
La prise en compte des informations conjointes en MIR
et NIR donne la meilleure discrimination des échantillons
par rapport à la cinétique de biodégradation.
0.2
0.1
0
4. Conclusion et perspectives
• L‘algorithme génétique avec la fonction fitness Davies-Bouldin permet l’identification de nombres d'ondes dans les deux gammes spectrales MIR et NIR correspondant aux
groupes fonctionnels chimiques qui peuvent ainsi être attribués à l’évolution chimique des échantillons étudiés au cours de la biodégradation. Nous avons comparé différentes
fonctions fitness qui visent à avoir les clusters les plus compacts possibles et les plus séparés, la fonction Davies-Bouldin offrant le meilleur résultat.
• Les scores plot ACP montrent une meilleure discrimination selon les périodes de biodégradation que l'application classique sur toutes les gammes spectrales MIR et NIR. Ces
résultats sont à vérifier sur d’autres biomasses lignocellulosiques.
• En combinant des informations des deux gammes spectrales MIR et NIR, la discrimination par rapport à la cinétique de biodégradation est améliorée. Cette approche doit être
confortée sur d’autres biomasses lignocellulosiques, voire développée.
0.2
0.1
0