Investigations biostatistiques/biomathématiques des interactions

TITRE DU PROJET DE THÈSE :
Investigations biostatistiques/biomathématiques des interactions épistatiques
pour le développement des algorithmes de prédiction du risque cardiovasculaire :
de l'approche » gène candidat » au séquençage « haut débit ».
Responsable : Sophie VISVIKIS-SIEST
Coresponsable : Maria STATHOPOULOU
OBJECTIF GENERALE DE LA THÈSE
Le but de cette thèse est le choix des méthodes d’étude des interactions épistatiques
sur les phénotypes intermédiaires des MCVs, avec l'utilisation des approches gènes
candidats, GWAS et NGS, et le calcul de l'efficacité de chaque méthode dans
l'explication de la variabilité inter-individuelle de ces phénotypes. Les interactions
gène -environnement, les modifications épigénétiques et la fonctionnalité des
polymorphismes et des interactions seront évaluées et prises en compte.
Introduction:
Selon l'Organisation Mondiale de la Santé, les maladies non-transmissibles sont
responsables pour >60 % de tous les décès dans le monde. Parmi ces maladies, les plus
dominantes en termes de mortalité et de morbidité sont les maladies cardiovasculaires
(MCVs). Les MCVs causent 47% de tous les décès en Europe (4 millions/an) et 40 %
dans l'Union européenne (1,9 millions/an) 1, 2 .
Les MCVs sont des maladies complexes et multifactorielles avec une régulation
polygénique 3. L'identification des variants génétiques expliquant la variabilité interindividuelle des facteurs de risque des MCVs devrait améliorer nos connaissances sur
les processus biologiques et moléculaires impliqués dans ces maladies. Le transfert de
ces connaissances dans la pratique clinique conduirait à des stratégies personnalisées
de prévention et de prévision des risques ainsi que de traitement, avec un grand
impact en santé publique.
Des progrès significatifs ont été observés dans le domaine de la génétique des MCVs,
avec l'approche classique de gènes candidats (gènes impliqués dans les voies
métaboliques liés aux maladies cardiovasculaires) et avec les récentes études GWAS
(genome-wide association study, étude d'association pangénomique) 4. Elles ont
identifié de régions associées à des événements MCVs comme l'infarctus du myocarde
(par exemple le chromosome 9q21)
5, 6
et de nouveaux variants dans des voies
inconnues, révélant ainsi de nouveaux mécanismes physiopathologiques des maladies
5, 6
.
Toutefois, la contribution de la génétique dans la prédiction du risque MCV est encore
limitée, principalement parce qu'il y a une grande partie d’héritabilité des MCVs qui
reste inexpliquée .Ce problème, décrit comme « héritabilité manquante» a attiré
l'attention des chercheurs pendant les dernières années 7. Les méthodes les plus
prometteuses pour surmonter ce problème sont l'étude des interactions gène × gène,
l'étude des phénotypes intermédiaires au lieu de traits complexes et multifactorielles et
le séquençage de haut débit (next-generation sequencing, NGS) du génome ou du
transcriptome 5, 8, 9. Plus récemment, NGS a été ajouté dans le domaine de la génétique
des MCVs visant aux variants fonctionnels rares et structurels qui peuvent avoir un
lien de causalité avec les phénotypes intermédiaires des MCVs 10.
L'évaluation des interactions gène × gène est extrêmement difficile, en particulier dans
les études GWAS et NGS, en raison des paramètres et des tests multiples, de la
puissance statistique, des moyens coûteux et de la durée exhaustive de calcul.
Initialement, les méthodes d’investigation des interactions gène × gène ont été crées
pour tester les interactions génétiques entre paires de variants communs. La méthode
la plus efficace, jusqu'à présent, a été l'approche « gène candidat », avec un nombre
limitée de variants (fonctionnels dans la plus part des cas) testé 4.
Dans une approche « libre d’hypothèse» comme GWAS, comprenant 2 millions de
variants, le nombre de 2 × 2 interactions est 2×1012. Ce grand nombre de tests,
demande un niveau de signification statistique extrêmement faible (5×10-15), plusieurs
jours d’analyses sur des ordinateurs très puissants, et un échantillonnage très grand
pour avoir une puissance statistique adéquate. En plus, comme plusieurs des
polymorphismes génotypés dans GWAS sont des marqueurs (tag single nucleotide
polymorphisms, tag SNPs) en déséquilibre de liaison avec un variant fonctionnel, ces
tests peuvent montrer des signaux provenant de différents tag SNPs mais qui en réalité
sont les résultants d’un seul variant 11. Un autre problème est, que les interactions entre
variables, qui ont un effet direct faible, ne peuvent pas être identifiées avec les
méthodologies statistiques communes. Pour ces raisons, sur les études GWAS
l’investigation des interactions épistatiques est limitée. Par contre, la science des
biostatistiques a fait des progrès dans ce domaine avec le développement de nouvelles
méthodes statistiques : des méthodes de recherche, des méthodes de régression, des
méthodes d'apprentissage automatique ou des méthodes basées sur l'arbre de décision
(search methods, regression methods, machine learning methods or decision tree based
methods).De plus, ces dernières années, la modélisation des interactions statistiques a
offert des nouvelles approches et outils statistiques pour les GWAS 12-16.
Concernant les interactions de variants rares, obtenus par NGS, la situation est plus
compliquée, comme aussi pour leurs effets directs, car les méthodes statistiques
existantes ont une très faible puissance pour tester ces associations. L'approche
standard utilisée est l’analyse de la région chromosomique ou des gènes sur lesquels
les variants sont localisés (collapsing methods).Avec cette approche, de multiples
variants rares sont groupés et leur effet cumulatif est évalué. Un grand nombre de tests
est développé dans un large éventail d'hypothèses 17. Ainsi, malgré la nouveauté de ce
domaine de recherche, des modèles statistiques pour l’investigation des interactions
épistatiques existent déjà avec l’ utilisation d’ un gène, au lieu d'un SNP, comme unité
d'analyse18, 19.
Malgré les difficultés méthodologiques de l'étude des interactions épistatiques leur
investigation est très prometteuse pour la médecine personnalisée car leur évaluation
peut donner des associations plus explicatifs pour appréhender l’héritabilité des
phénotypes des MCV que les effets principaux des variants même si certains
chercheurs s’interrogent sur leur impact 20.
Par conséquent, le but de ce projet de thèse est l'étude des interactions épistatiques
sur les phénotypes intermédiaires des MCVs avec l'utilisation des approches « gène
candidat », GWAS et NGS et le calcul de l'efficacité de chaque méthode dans
l'explication de la variabilité interindividuelle de ces phénotypes. Les interactions avec
les facteurs d’environnement ainsi que l’information épigénétique seront pris en
compte. Ces résultats
pourraient servir au développement des algorithmes de
prédiction du risque cardiovasculaire.
Les objectifs spécifiques sont les suivants:
1.Le choix des méthodes statistiques et des logiciels appropriés pour l'évaluation des
interactions épistatiques dans les approches « gène candidat », GWAS et NGS basé
sur les caractéristiques d’ une population supposée saine.
2. Le calcul de l’effet des interactions épistatiques, avec l'utilisation des trois
approches et des différents méthodes statistiques, sur les phénotypes intermédiaires
des MCVs, dans la population principale supposée saine (cohorte STANISLAS) et
dans des populations de réplication en tenant compte des facteurs d’environnement
et des modifications épigénétiques.
3.La comparaison de l'efficacité de chaque approche et de chaque méthode pour
l'amélioration de la caractérisation de la variance de chaque phénotype.
4. La proposition de méthodes pour l'évaluation des interactions épistatiques en
fonction des caractéristiques de la population et du phénotype.
5. L’investigation de l’effet des interactions épistatiques validés sur le risque MCV et
la proposition des algorithmes de prédiction du risque personnalisé avec une valeur
prédictive plus sensible que les algorithmes classiques.
6.Évaluation de la fonctionnalité des variants et des interactions identifiés par analyse
de l'expression génique
Population:
La principale population sera la cohorte STANISLAS (STANISLAS family study,
SFS), une cohorte longitudinale des 1006 familles (>4000 individus) supposées saines.
Les autres populations saines et pré-pathologiques ,qui seront utilisées, sont inclues
dans le Centre de Ressources Biologiques «Interactions Gène-Environnement en
Physiopathologie CardioVasculaire" (CRB IGE-PCV) à Nancy, France, et serviront
pour la réplication des résultats.
Phénotypes intermédiaires
Divers phénotypes correspondant aux différentes voies impliquées dans le
développement des MCV seront évalués. Ceux-ci comprennent :
1. Les taux plasmatiques des molécules d'adhésion, molécules inflammatoires et
cytokines (ICAM, sélectine E, sélectine P, sélectine L, IL-6, TNF-α, CRP,
haptoglobine, orosomucoïde, VEGF),
2. Le profil des lipoprotéines (cholestérol total, triglycérides, HDL, LDL,
l'apolipoprotéine A1, l'apolipoprotéine B, l'apolipoprotéine-E)
3. La pression artérielle systolique et diastolique et la pression pulsée
4. La longueur des télomères des leukocytes.
La majorité de ces phénotypes est déjà disponible dans la population de la cohorte
STANISLAS et dans les populations de réplication 21, 22.
Dans un premier temps nous allons nous centrer sur les molécules d’adhésion et
d’inflammation (VEGF, CRP, IL-6, TNF-α).
Génotypage:
La population de la cohorte STANISLAS et les populations de réplication ont été
génotypés pour 161 polymorphismes des gènes impliqués dans les mécanismes
biologiques des MCVs les plus communs (approche « gène candidat »). En plus, pour
670 enfants et pour 100 familles de la cohorte STANISLAS il y a des données GWAS
(respectivement, génotypage par Illumina Human CNV370-Duo array et Illumina
Core Exome chip). Pour cette dernière population, nous aurons aussi des données de
séquençage à haut débit d’ARN (depuis des cellules mononuclées du sang
périphérique,PBMCs) qui vont être utilisés pour l’identification des variants rares.
Transcriptomique
Nous allons utiliser les méthodes classiques de RT-PCR et de séquençage d’ARN.
Épigénétique
Les niveaux de méthylation de l'ADN seront évalués à l'aide de l'Infinium
HumanMethylation450 BeadChip Kit (Illumina, Inc, San Diego, CA). Il s'agit de
l'analyse de la méthylation de l'ADN à l'échelle du génome entier.
L'analyse statistique:
L'analyse sera effectuée avec les logiciels SAS, PLINK et R. Des logiciels spécifiques
seront utilisés pour les analyses épistatiques des données GWAS et NGS qui seront
choisis en fonction de leur spécificité pour le type du phénotype et les caractéristiques
des populations. Une puissance statistique >80% sera le critère pour la sélection de la
taille de l'échantillon pour chaque méthode. L’estimation de la variance expliquée par
les interactions épistatiques devra être comparée entre les différentes méthodes pour
calculer l’efficacité de chacune. Le niveau de significativité sera défini en fonction des
corrections de Bonferroni basé sur le nombre des variants génétiques et des
interactions pour les études GWAS et NGS.
Bibliographie :
1.
WHO. Preventing chronic diseases: a vital investment. WHO global report. .
Geneva: World Health Organization.; 2005.
2.
WHO. Global status report on non-communicable diseases 2010. . Geneva:
World Health Organization; 2011.
3.
O'Donnell CJ, Nabel EGO'Donnell CJ, Nabel EG. Genomics of cardiovascular
disease. N Engl J Med. 2011; 365:2098-2109.
4.
Marian AJ, Belmont JMarian AJ, Belmont J. Strategic approaches to
unraveling genetic causes of cardiovascular diseases. Circ Res. 2011;
108:1252-1269.
5.
Ndiaye NC, Azimi Nehzad M, El Shamieh S, Stathopoulou MG, Visvikis-Siest
SNdiaye NC, Azimi Nehzad M, El Shamieh S, Stathopoulou MG, VisvikisSiest S. Cardiovascular diseases and genome-wide association studies. Clin
Chim Acta. 2011; 412:1697-1701.
6.
Visvikis-Siest S, Stathopoulou MG, Ndiaye NCVisvikis-Siest S, Stathopoulou
MG, Ndiaye NC. Common mutations and polymorphisms predicting adverse
cardiovascular events: current view. Pharmacogenomics. 2012; 13:1875-1878.
7.
Roberts R, Marian AJ, Dandona S, Stewart AFRoberts R, Marian AJ, Dandona
S, Stewart AF. Genomics in cardiovascular disease. J Am Coll Cardiol. 2013;
61:2029-2037.
8.
Almasy LAlmasy L. The role of phenotype in gene discovery in the whole
genome sequencing era. Hum Genet. 2012; 131:1533-1540.
9.
Thomas DThomas D. Gene--environment-wide association studies: emerging
approaches. Nat Rev Genet. 2010; 11:259-272.
10.
Churko JM, Mantalas GL, Snyder MP, Wu JCChurko JM, Mantalas GL,
Snyder MP, Wu JC. Overview of high throughput sequencing technologies to
elucidate molecular pathways in cardiovascular diseases. Circ Res. 2013;
112:1613-1623.
11.
Ma L, Clark AG, Keinan AMa L, Clark AG, Keinan A. Gene-based testing of
interactions in association studies of quantitative traits. PLoS Genet. 2013;
9:e1003321.
12.
Cordell HJCordell HJ. Detecting gene-gene interactions that underlie human
diseases. Nat Rev Genet. 2009; 10:392-404.
13.
Li M, Lou XY, Lu QLi M, Lou XY, Lu Q. On epistasis: a methodological
review for detecting gene-gene interactions underlying various types of
phenotypic traits. Recent Pat Biotechnol. 2012; 6:230-236.
14.
Gyenesei A, Moody J, Semple CA, Haley CS, Wei WHGyenesei A, Moody J,
Semple CA, Haley CS, Wei WH. High-throughput analysis of epistasis in
genome-wide association studies with BiForce. Bioinformatics. 2012; 28:19571964.
15.
Steen KVSteen KV. Travelling the world of gene-gene interactions. Brief
Bioinform. 2012; 13:1-19.
16.
Anunciacao O, Vinga S, Oliveira ALAnunciacao O, Vinga S, Oliveira AL.
Using information interaction to discover epistatic effects in complex diseases.
PLoS One. 2013; 8:e76300.
17.
Dering C, Hemmelmann C, Pugh E, Ziegler ADering C, Hemmelmann C,
Pugh E, Ziegler A. Statistical analysis of rare sequence variants: an overview
of collapsing methods. Genet Epidemiol. 2013; 35 Suppl 1:S12-17.
18.
Zhao J, Zhu Y, M X. Gene-gene Interaction Analysis for Next-generation
Sequencing. . Paper presented at: American Society of Human Genetics
Congress, 2013; Boston, USA.
19.
Liu DJ, Leal SMLiu DJ, Leal SM. A novel adaptive method for the analysis of
next-generation sequencing data to detect complex trait associations with rare
variants due to gene main effects and interactions. PLoS Genet. 2010;
6:e1001156.
20.
Moore JH, Williams SMMoore JH, Williams SM. Epistasis and its
implications for personal genetics. Am J Hum Genet. 2009; 85:309-320.
21.
Siest G, Visvikis S, Herbeth B, Gueguen R, Vincent-Viry M, Sass C, Beaud B,
Lecomte E, Steinmetz J, Locuty J, Chevrier PSiest G, Visvikis S, Herbeth B,
Gueguen R, Vincent-Viry M, Sass C, Beaud B, Lecomte E, Steinmetz J,
Locuty J, Chevrier P. Objectives, design and recruitment of a familial and
longitudinal cohort for studying gene-environment interactions in the field of
cardiovascular risk: the Stanislas cohort. Clin Chem Lab Med. 1998; 36:35-42.
22.
Visvikis-Siest S, Siest GVisvikis-Siest S, Siest G. The STANISLAS Cohort: a
10-year follow-up of supposed healthy families. Gene-environment
interactions, reference values and evaluation of biomarkers in prevention of
cardiovascular diseases. Clin Chem Lab Med. 2008; 46:733-747.
FICHE LABORATOIRE
A compléter pour toute demande d’aide concernant la recherche, à savoir :
Thèses
Post-doctorats
Soutien aux projets de recherche
--oooOooo—
Etablissement(s) de rattachement
Intitulé du Laboratoire
Site web :
Coordonnées :UMR INSERM U 1122 ; IGE-PCV
Université de Lorraine – Faculté de Pharmacie
30 rue Lionnois
54000 NANCY
Tél : 06 07 60 25 69
Fax : 03 83 32 13 22
Mail : [email protected]
Directeur de laboratoire : Dr Sophie VISVIKIS-SIEST
Thèmes de recherche : Interactions gènes-environnement et phénotypes
intermédiaires des maladies cardiovasculaires.
Equipes de l’unité : 1 seule équipe
Mots clés : cardiovasculaire, épidémiologie génétique
Effectifs de l unité en postes budgétaires :
•
•
•
•
Enseignants : 4
Chercheurs : 2
ITA/IATOS : 4
Doctorants, post-doctorants : 4
Equipements significatifs :
• Laboratoire biologie moléculaire
- Extracteur d’ADN automatique MgNa Pure (ROCHE)
- Lighcycler (ROCHE)
- Wave system (TRANSGENOMIC)
- Evidence Investigator (RANDOX)
•
Laboratoire d’étude des protéines
- système ELISA
- Evidence Investigator (RANDOX)
Brevets : Néant