DANDINE-ROULLAND Claire INTITULE DE LA THESE SPECIALITE

DANDINE-ROULLAND Claire
I N TI TU L E
DE LA THESE
Test d’association haplotypique et Modélisation des risques haplotypiques.
S P EC I AL I T E
DU D O CT O R A T
Épidémiologie
Biostatistique
Recherche Clinique
Sciences Économiques et Sciences Sociales de la Santé
P R O BL EM A T I Q U E
Génétique statistique
S CI E N T I F I Q U E G E N E R AL E
L'épidémiologie génétique a pour but d'identifier les variants génétiques qui sont associés aux
maladies humaines. La connaissance de ces variants a de multiples retombés en santé publique :
conseil génétique, proposition de cibles thérapeutiques, prédiction de risques.
Si la communauté scientifique s'est d'abord naturellement intéressée aux maladies monogéniques
(mucoviscidose, myopathie de Duchenne, etc), le progrès rapide des biotechnologies a permis aux
chercheurs de se tourner vers l'étude des maladies multifactorielles (sclérose en plaques, diabète,
etc) pour lesquelles le nombre et la nature des facteurs impliqués ne sont pas connus a priori.
La méthode généralement utilisée pour l'étude des maladies monogéniques est l'analyse de liaison,
qui permet de localiser la région du génome où se trouve le gène impliqué dans la maladie en
observant, dans des familles de patients, la coségrégation de la maladie et des allèles de certains
variants de position connue. Cette méthode, très efficace pour les maladies monogéniques, a eu
peu de succès dans le cas des maladies multifactorielles : en cause, sa faible sensibilité pour
détecter la présence de variants causaux fréquents, pour lesquels les risques relatifs associés sont
modérés [2,9].
Devant ce problème, dans l'hypothèse que la composante génétique des maladies fréquentes est
due à l'action conjuguée d'une multitude de variants fréquents, et avec la possibilité de génotyper
un nombre plus grand de variants génétiques, une méthode alternative a été proposée : l'étude
d'association pangénomique (Genome Wide Association Study ou GWAS) [14]. Les études
d'association n'utilisent typiquement pas de données familiales, et consistent à comparer
simplement la fréquence des allèles d'un variant donné entre des échantillons de cas et de
témoins. Les variants utilisés sont des SNP (Single Nucleotide Polymorphisms), des variations d'un
seul nucléotide.
Les études d'associations pangénomiques reposent sur le principe de la cartographie par
déséquilibre de liaison (Linkage Disequilibrium ou LD) : il n'est pas nécessaire d'identifier
directement un variant causal, sa présence pouvant être détectée par l'analyse d'autres variants
situés à proximité sur le génome et corrélés avec lui. La corrélation entre variants génétiques
proches est appelée déséquilibre de liaison, et est fréquente sur le génome. Le projet international
Hapmap [4-6] a établi une carte d'environ 10 millions de SNP, tous localisés avec précision sur la
séquence de référence du génome humain et a mesuré le déséquilibre de liaison entre ces SNP.
Ceci a permis la réalisation des études pangénomiques en utilisant un jeu restreint de SNP, des «
tag-SNP », choisis pour être bien corrélés avec un grand nombre de SNP fréquents dans leur
voisinage ; l'association des tag-SNP avec la maladie étudiée est ensuite testée.
Ces études pangénomiques dominent le paysage de l'épidémiologie génétique depuis 10 ans et ont
permis de découvrir de nombreux variants génétiques fréquents associés aux maladies
multifactorielles. Les variants découverts par ces études ne suffisent cependant pas à expliquer les
agrégations familiales observées [11] pour les maladies multifactorielles. Les tag-SNP n'étant
généralement pas (ou très peu) corrélés avec les variants rares, on conjecture l'existence de
DANDINE-ROULLAND Claire
variants rares aux effets potentiellement plus importants qui n'ont pu être détecté par les études
pangénomiques.
En conséquence, la communauté scientifique se tourne maintenant vers les études d'association
avec les variants rares, notamment à la faveur de l'avènement des nouvelles technologies de
séquençage (Next-Generation Sequencing, NGS) qui permettent d'obtenir la totalité des variants
du génome ou de l'exome (régions codantes) d'un individu. Des « puces d'exome (exome chips) »
qui reposent sur la même technologie de génotypage que celle utilisée dans les études
pangénomiques, mais qui en plus des tag-SNP des études pangénomiques ciblent plusieurs
centaines de milliers de variants rares de l'exome, ont également été développées.
Néanmoins, l'analyse des données de variants rares pose des problèmes méthodologiques
nouveaux: une série d'analyses univariées, comme celles réalisée dans les études d'association
pangénomiques, n'aura pas la sensibilité nécessaire à la détection des variants rares impliqués
dans la maladie étudiée. En conjecturant l'existence de plusieurs variants causaux dans une même
région génomique, il devient possible d'augmenter la sensibilité en agrégeant les variants rares
d'une même région. Les méthodes proposées pour cela se répartissent en deux grandes familles :
- les tests de fardeau génétique (Burden tests) qui construisent une covariable à partir
d’une somme pondérée des variables indicatrices des variants rares de la région (Cohort Allelic
Sums Test [12], Weighted Sums Statistics [10])
- les méthodes reposant sur des modèles mixtes, où les effets des variants d'une région
sont modélisés comme tirés dans une loi commune. Les effets, modélisés par les logarithmes des
odds ratios, seront par exemple tirés dans une loi normale
, ou plus généralement
où w est un poids qui dépend le plus souvent de la fréquence du variant (plus le variant
est rare, plus il sera susceptible d'avoir un effet fort et plus w sera élevé). Dans cet esprit, la
méthode SKATT (Sequence Kernel Association Test, [1, 8, 16, 17]) est une des méthodes les plus
séduisantes proposée pour analyser les variants rares.
Cependant, ces méthodes négligent certaines spécificités propres aux données génétiques ; en
particulier, elles ne prennent pas en compte la phase haplotypique, c'est-à-dire la façon dont les
deux allèles observés en chacun des variants de la région se répartissent sur les deux
chromosomes portés par un individu. Quelques méthodes ont été proposées pour analyser des
données familiales [1,18], mais peu utilisent l'information de liaison propre aux données familiales,
comme un des encadrants l'a cependant fait récemment [13].
Utiliser ces informations peut pourtant augmenter la sensibilité des méthodes de détection des
gènes impliqués dans une maladie ; de plus, elles permettent une modélisation plus fine des
risques conférés par les variants génétiques, ce qui est important tant à des fins de prédiction que
pour tester, dans des analyses ultérieures, la présence d'éventuelles interactions entre gènes ou
entre un gène et un facteur environnemental.
O BJ E CTI F S S CI E N T I F I Q U E S DE L A T H E SE
Dans cette thèse, nous proposons de modéliser l'effet d'un gène ou d'une région génomique en
prenant en compte la phase haplotypique. Ceci permet d’inclure dans le modèle des termes
d'interaction entre les allèles portés par un même haplotype.
On ne se limitera pas aux termes d'interactions entre deux facteurs : c’est en incluant des termes
d'interaction entre un trois facteurs et qu'on peut d'attribuer un effet propre à chaque haplotype.
Ce modèle sera utilisé de deux façons complémentaires :
- En modélisant les effets (y compris ceux associés aux termes d'interaction) comme tirés
dans une loi aléatoire à la façon de SKAT [16], on obtiendra un test d'association haplotypique
puissant, prenant un compte à la fois les variants rares et fréquents ;
- Afin
d'estimer les effets des différents haplotypes on utilisera une méthode de
pénalisation ℓ1 (dans l'esprit de la méthode LASSO, Least Absolute Shrinkage and Selection
Operator [15]), qui permettra d'estimer le grand nombre de termes d'interaction impliqués dans le
DANDINE-ROULLAND Claire
modèle tout en imposant la nullité d'une grande partie d'entre eux afin d'obtenir une description
parcimonieuse de l'effet de la région génomique étudiée.
Ces deux méthodes seront tout d'abord développées dans le cadre cas/témoin.
Dans un second temps, ces deux méthodes pourront être étendues à l'utilisation de données
familiales, plus précisément à l'étude de fratries comportant un ou plusieurs atteints et de familles
nucléaires (deux parents et leurs enfants), dans l'esprit de [13].
TR A V AU X P RO J E T E S
-
M E T H O D ES
&
M O Y EN S
Nous allons maintenant regarder avec plus de précision le modèle.
Phase haplotypique
On considère n SNP (situés dans une même région génomique), dont les deux allèles sont notés 0
et 1. Un haplotype z est une suite d'allèles z=(z1,…,zn) portée par un chromosome. Chaque
individu reçoit de son père un haplotype zp et de sa mère un haplotype zm ; la paire g=( zp, zm )
est le génotype phasé d'un individu. Le génotype observé est constitué par les deux allèles portés à
chaque SNP, sans distinguer l'allèle paternel de l'allèle maternel : c'est un vecteur x=(x1,…,xn)
avec xi = zip + zim ϵ {0,1,2}.
On note fz la fréquence dans la population d'un haplotype z.
Une modélisation simple donne, pour un individu issu de la population générale,
Étant donnés les génotypes d'un échantillon de N individus, on peut estimer la valeur des
paramètres
par maximum de vraisemblance (on utilise généralement un algorithme EM). Il
devient alors possible de calculer les probabilités a posteriori des génotypes phasés,
.
Modèle proposé
Notons
statut d'un individu (
pour atteint).
On propose d'utiliser le modèle logistique suivant :
Où les
(qui modélisent l'effet de l'haplotype z) sont donnés par
Le génotype phasé
n'étant pas directement observé, on doit écrire
Ce modèle permet d'écrire la vraisemblance d'un échantillon de cas et témoins :
DANDINE-ROULLAND Claire
-
Soit en supposant, à la façon de SKAT, que les
, les
dans une
, etc.
sont tirés dans une loi normale
Une réflexion sera nécessaire sur la façon de choisir les poids
-
les termes d'interaction.
Soit en supposant que les
,
,
, etc, notamment pour
, etc, sont des paramètres du modèle, auquel cas on
1
utilisera une pénalisation ℓ pour leur estimation.
Logiciel utilisé
Nous utiliserons le logicel R et le lagace C. Nous projetons également de diffuser un package pour
l’utilisation de cette méthode par d’autres chercheurs.
Applications à des données génétiques
À travers une collaboration avec le Pr. Bertram Müller-Myhsok (Max Planck Institute of Psychiatry,
Munich), financée par l’Association pour la recherche sur la sclérose en plaques (ARSEP), nous
disposerons prochainement de données génotypiques de 95 familles du Réseau français pour
l'étude génétique de la sclérose en plaques (REFGENSEP).
Chaque famille comprend deux enfants atteints de la sclérose en plaques et leurs deux parents. Les
membres de la famille seront génotypés sur une puce Illumina (Infinium Human Core Exome Bead
Chip) qui comporte plus de 240 000 tag-SNP communs et plus de 240 000 variants exomiques
rares.
Malgré la taille modeste de l'échantillon, on peut prévoir une bonne sensibilité des analyses grâce
au recrutement de familles avec deux enfants atteints qui se traduit par un enrichissement en
variants causaux [13]. On pourra appliquer la méthode cas/témoin développée au cas index de
chaque famille, en utilisant un panel de référence pour les témoins (1000 génomes project [3]).
Le test proposé dans [13] (qui ne prend pas en compte la phase haplotypique) sera également
utilisé, et à la fin de la thèse on développera un test familial prenant en compte la phase
haplotypique.
TI T R E ET R E S U M E E N A N G L AI S D U P R O J ET D E TH ES E
Haplotypic association test and Haplotypic risk modeling
The detection of genetic variants implied in multifactorial diseases, and the estimation of the risks
associated to these variants, is important for improving our knowledge of the disease etiology, for
risk prediction (personalized medicine), and can provide new therapeutic targets.
The aim of this thesis is to develop new statistic methods for detection of such variants and for risk
estimation. The methods will make it possible to consider phased haplotypes and, at the same
time, to detect rare variants in case-control studies and family studies. Indeed today, the research
focuses on possible rare variants associated to multifactorial diseases. However, the existing
methods which can detect rare variants do not consider phased haplotypes and vice-versa. I hope
that the methods developed will have a higher power than the existing ones. I will develop an R
package for the dissemination of these methods, allowing other researchers to use them on their
own data.
Moreover, I will apply this method on data from Multiple Sclerosis patients, a common autoimmune
neurological disease.
DANDINE-ROULLAND Claire
R ÉF É R EN CE S
[1] Han Chen, James B Meigs, and Josée Dupuis. Sequence kernel association test for quantitative
traits in family samples. Genetic epidemiology, 37(2):196–204, 2013.
[2] F. Clerget-Darpoux, H. Selinger-Leneman, and M.C. Babron. Why do complex traits resist dna
analysis, Int J Hum Genet, 1(1):55–63, 2001.
[3] The 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092
human genomes. Nature, 491:1, 2012.
[4] The International HapMap Consortium. The international hapmap project. Nature,
426(6968):789–796, 2003.
[5] The International HapMap Consortium. A haplotype map of the human genome. Nature,
437:1299–1320, 2005.
[6]The International HapMap Consortium. A second generation human haplotype map of over 3.1
million snps. Nature, 449(7164):851–861, 2007.
[7] T. Feng, R. Elston, and X. Zhu. A novel method to detect rare variants using both family and
unrelated case-control data. In BMC proceedings, volume 5, page S80. BioMed Central Ltd, 2011.
[8] Iuliana Ionita-Laza, Seunggeun Lee, Vlad Makarov, Joseph D Buxbaum, and Xihong Lin. Sequence
kernel association tests for the combined effect of rare and common variants. The American Journal
of Human Genetics, 2013.
[9] E.J. Louis, G. Thomson, and H. Payami. The affected sib method. ii. The intermediate model.
Annals of human genetics, 47(3):225–243, 1983.
[10] B.E. Madsen and S.R. Browning. A groupwise association test for rare mutations using a
weighted sum statistic. PLoS genetics, 5(2):e1000384, 2009.
[11] T.A. Manolio, F.S. Collins, N.J. Cox, D.B. Goldstein, L.A. Hindorff, D.J. Hunter, M.I. McCarthy, E.M.
Ramos, L.R. Cardon, A. Chakravarti, J.H. Cho, A.E. Guttmacher, A. Kong, L. Kruglyak, E. Mardis, C.N.
Rotimi, M. Slatkin, D. Valle, A.S. Whittemore, M. Boehnke, A.G. Clark, E.E. Eichler, G. Gibson, J.L.
Haines, T.F. Mackay, S.A. McCarroll, and P.M. Visscher. Finding the missing heritability of complex
diseases. Nature, 461(7265):747–753, 2009.
[12] Stephan Morgenthaler and William G Thilly. A strategy to discover genes that carry multiallelic or
mono-allelic risk for common diseases: a cohort allelic sums test (cast). Mutation
Research/Fundamental and Molecular Mechanisms of Mutagenesis, 615(1):28–56, 2007.
[13] Hervé Perdry, Bertram Müller-Myhsok, and Françoise Clerget-Darpoux. Using affected sib-pairs
to uncover rare disease variants. Human heredity, 74(3-4):129–141, 2012.