DANDINE-ROULLAND Claire I N TI TU L E DE LA THESE Test d’association haplotypique et Modélisation des risques haplotypiques. S P EC I AL I T E DU D O CT O R A T Épidémiologie Biostatistique Recherche Clinique Sciences Économiques et Sciences Sociales de la Santé P R O BL EM A T I Q U E Génétique statistique S CI E N T I F I Q U E G E N E R AL E L'épidémiologie génétique a pour but d'identifier les variants génétiques qui sont associés aux maladies humaines. La connaissance de ces variants a de multiples retombés en santé publique : conseil génétique, proposition de cibles thérapeutiques, prédiction de risques. Si la communauté scientifique s'est d'abord naturellement intéressée aux maladies monogéniques (mucoviscidose, myopathie de Duchenne, etc), le progrès rapide des biotechnologies a permis aux chercheurs de se tourner vers l'étude des maladies multifactorielles (sclérose en plaques, diabète, etc) pour lesquelles le nombre et la nature des facteurs impliqués ne sont pas connus a priori. La méthode généralement utilisée pour l'étude des maladies monogéniques est l'analyse de liaison, qui permet de localiser la région du génome où se trouve le gène impliqué dans la maladie en observant, dans des familles de patients, la coségrégation de la maladie et des allèles de certains variants de position connue. Cette méthode, très efficace pour les maladies monogéniques, a eu peu de succès dans le cas des maladies multifactorielles : en cause, sa faible sensibilité pour détecter la présence de variants causaux fréquents, pour lesquels les risques relatifs associés sont modérés [2,9]. Devant ce problème, dans l'hypothèse que la composante génétique des maladies fréquentes est due à l'action conjuguée d'une multitude de variants fréquents, et avec la possibilité de génotyper un nombre plus grand de variants génétiques, une méthode alternative a été proposée : l'étude d'association pangénomique (Genome Wide Association Study ou GWAS) [14]. Les études d'association n'utilisent typiquement pas de données familiales, et consistent à comparer simplement la fréquence des allèles d'un variant donné entre des échantillons de cas et de témoins. Les variants utilisés sont des SNP (Single Nucleotide Polymorphisms), des variations d'un seul nucléotide. Les études d'associations pangénomiques reposent sur le principe de la cartographie par déséquilibre de liaison (Linkage Disequilibrium ou LD) : il n'est pas nécessaire d'identifier directement un variant causal, sa présence pouvant être détectée par l'analyse d'autres variants situés à proximité sur le génome et corrélés avec lui. La corrélation entre variants génétiques proches est appelée déséquilibre de liaison, et est fréquente sur le génome. Le projet international Hapmap [4-6] a établi une carte d'environ 10 millions de SNP, tous localisés avec précision sur la séquence de référence du génome humain et a mesuré le déséquilibre de liaison entre ces SNP. Ceci a permis la réalisation des études pangénomiques en utilisant un jeu restreint de SNP, des « tag-SNP », choisis pour être bien corrélés avec un grand nombre de SNP fréquents dans leur voisinage ; l'association des tag-SNP avec la maladie étudiée est ensuite testée. Ces études pangénomiques dominent le paysage de l'épidémiologie génétique depuis 10 ans et ont permis de découvrir de nombreux variants génétiques fréquents associés aux maladies multifactorielles. Les variants découverts par ces études ne suffisent cependant pas à expliquer les agrégations familiales observées [11] pour les maladies multifactorielles. Les tag-SNP n'étant généralement pas (ou très peu) corrélés avec les variants rares, on conjecture l'existence de DANDINE-ROULLAND Claire variants rares aux effets potentiellement plus importants qui n'ont pu être détecté par les études pangénomiques. En conséquence, la communauté scientifique se tourne maintenant vers les études d'association avec les variants rares, notamment à la faveur de l'avènement des nouvelles technologies de séquençage (Next-Generation Sequencing, NGS) qui permettent d'obtenir la totalité des variants du génome ou de l'exome (régions codantes) d'un individu. Des « puces d'exome (exome chips) » qui reposent sur la même technologie de génotypage que celle utilisée dans les études pangénomiques, mais qui en plus des tag-SNP des études pangénomiques ciblent plusieurs centaines de milliers de variants rares de l'exome, ont également été développées. Néanmoins, l'analyse des données de variants rares pose des problèmes méthodologiques nouveaux: une série d'analyses univariées, comme celles réalisée dans les études d'association pangénomiques, n'aura pas la sensibilité nécessaire à la détection des variants rares impliqués dans la maladie étudiée. En conjecturant l'existence de plusieurs variants causaux dans une même région génomique, il devient possible d'augmenter la sensibilité en agrégeant les variants rares d'une même région. Les méthodes proposées pour cela se répartissent en deux grandes familles : - les tests de fardeau génétique (Burden tests) qui construisent une covariable à partir d’une somme pondérée des variables indicatrices des variants rares de la région (Cohort Allelic Sums Test [12], Weighted Sums Statistics [10]) - les méthodes reposant sur des modèles mixtes, où les effets des variants d'une région sont modélisés comme tirés dans une loi commune. Les effets, modélisés par les logarithmes des odds ratios, seront par exemple tirés dans une loi normale , ou plus généralement où w est un poids qui dépend le plus souvent de la fréquence du variant (plus le variant est rare, plus il sera susceptible d'avoir un effet fort et plus w sera élevé). Dans cet esprit, la méthode SKATT (Sequence Kernel Association Test, [1, 8, 16, 17]) est une des méthodes les plus séduisantes proposée pour analyser les variants rares. Cependant, ces méthodes négligent certaines spécificités propres aux données génétiques ; en particulier, elles ne prennent pas en compte la phase haplotypique, c'est-à-dire la façon dont les deux allèles observés en chacun des variants de la région se répartissent sur les deux chromosomes portés par un individu. Quelques méthodes ont été proposées pour analyser des données familiales [1,18], mais peu utilisent l'information de liaison propre aux données familiales, comme un des encadrants l'a cependant fait récemment [13]. Utiliser ces informations peut pourtant augmenter la sensibilité des méthodes de détection des gènes impliqués dans une maladie ; de plus, elles permettent une modélisation plus fine des risques conférés par les variants génétiques, ce qui est important tant à des fins de prédiction que pour tester, dans des analyses ultérieures, la présence d'éventuelles interactions entre gènes ou entre un gène et un facteur environnemental. O BJ E CTI F S S CI E N T I F I Q U E S DE L A T H E SE Dans cette thèse, nous proposons de modéliser l'effet d'un gène ou d'une région génomique en prenant en compte la phase haplotypique. Ceci permet d’inclure dans le modèle des termes d'interaction entre les allèles portés par un même haplotype. On ne se limitera pas aux termes d'interactions entre deux facteurs : c’est en incluant des termes d'interaction entre un trois facteurs et qu'on peut d'attribuer un effet propre à chaque haplotype. Ce modèle sera utilisé de deux façons complémentaires : - En modélisant les effets (y compris ceux associés aux termes d'interaction) comme tirés dans une loi aléatoire à la façon de SKAT [16], on obtiendra un test d'association haplotypique puissant, prenant un compte à la fois les variants rares et fréquents ; - Afin d'estimer les effets des différents haplotypes on utilisera une méthode de pénalisation ℓ1 (dans l'esprit de la méthode LASSO, Least Absolute Shrinkage and Selection Operator [15]), qui permettra d'estimer le grand nombre de termes d'interaction impliqués dans le DANDINE-ROULLAND Claire modèle tout en imposant la nullité d'une grande partie d'entre eux afin d'obtenir une description parcimonieuse de l'effet de la région génomique étudiée. Ces deux méthodes seront tout d'abord développées dans le cadre cas/témoin. Dans un second temps, ces deux méthodes pourront être étendues à l'utilisation de données familiales, plus précisément à l'étude de fratries comportant un ou plusieurs atteints et de familles nucléaires (deux parents et leurs enfants), dans l'esprit de [13]. TR A V AU X P RO J E T E S - M E T H O D ES & M O Y EN S Nous allons maintenant regarder avec plus de précision le modèle. Phase haplotypique On considère n SNP (situés dans une même région génomique), dont les deux allèles sont notés 0 et 1. Un haplotype z est une suite d'allèles z=(z1,…,zn) portée par un chromosome. Chaque individu reçoit de son père un haplotype zp et de sa mère un haplotype zm ; la paire g=( zp, zm ) est le génotype phasé d'un individu. Le génotype observé est constitué par les deux allèles portés à chaque SNP, sans distinguer l'allèle paternel de l'allèle maternel : c'est un vecteur x=(x1,…,xn) avec xi = zip + zim ϵ {0,1,2}. On note fz la fréquence dans la population d'un haplotype z. Une modélisation simple donne, pour un individu issu de la population générale, Étant donnés les génotypes d'un échantillon de N individus, on peut estimer la valeur des paramètres par maximum de vraisemblance (on utilise généralement un algorithme EM). Il devient alors possible de calculer les probabilités a posteriori des génotypes phasés, . Modèle proposé Notons statut d'un individu ( pour atteint). On propose d'utiliser le modèle logistique suivant : Où les (qui modélisent l'effet de l'haplotype z) sont donnés par Le génotype phasé n'étant pas directement observé, on doit écrire Ce modèle permet d'écrire la vraisemblance d'un échantillon de cas et témoins : DANDINE-ROULLAND Claire - Soit en supposant, à la façon de SKAT, que les , les dans une , etc. sont tirés dans une loi normale Une réflexion sera nécessaire sur la façon de choisir les poids - les termes d'interaction. Soit en supposant que les , , , etc, notamment pour , etc, sont des paramètres du modèle, auquel cas on 1 utilisera une pénalisation ℓ pour leur estimation. Logiciel utilisé Nous utiliserons le logicel R et le lagace C. Nous projetons également de diffuser un package pour l’utilisation de cette méthode par d’autres chercheurs. Applications à des données génétiques À travers une collaboration avec le Pr. Bertram Müller-Myhsok (Max Planck Institute of Psychiatry, Munich), financée par l’Association pour la recherche sur la sclérose en plaques (ARSEP), nous disposerons prochainement de données génotypiques de 95 familles du Réseau français pour l'étude génétique de la sclérose en plaques (REFGENSEP). Chaque famille comprend deux enfants atteints de la sclérose en plaques et leurs deux parents. Les membres de la famille seront génotypés sur une puce Illumina (Infinium Human Core Exome Bead Chip) qui comporte plus de 240 000 tag-SNP communs et plus de 240 000 variants exomiques rares. Malgré la taille modeste de l'échantillon, on peut prévoir une bonne sensibilité des analyses grâce au recrutement de familles avec deux enfants atteints qui se traduit par un enrichissement en variants causaux [13]. On pourra appliquer la méthode cas/témoin développée au cas index de chaque famille, en utilisant un panel de référence pour les témoins (1000 génomes project [3]). Le test proposé dans [13] (qui ne prend pas en compte la phase haplotypique) sera également utilisé, et à la fin de la thèse on développera un test familial prenant en compte la phase haplotypique. TI T R E ET R E S U M E E N A N G L AI S D U P R O J ET D E TH ES E Haplotypic association test and Haplotypic risk modeling The detection of genetic variants implied in multifactorial diseases, and the estimation of the risks associated to these variants, is important for improving our knowledge of the disease etiology, for risk prediction (personalized medicine), and can provide new therapeutic targets. The aim of this thesis is to develop new statistic methods for detection of such variants and for risk estimation. The methods will make it possible to consider phased haplotypes and, at the same time, to detect rare variants in case-control studies and family studies. Indeed today, the research focuses on possible rare variants associated to multifactorial diseases. However, the existing methods which can detect rare variants do not consider phased haplotypes and vice-versa. I hope that the methods developed will have a higher power than the existing ones. I will develop an R package for the dissemination of these methods, allowing other researchers to use them on their own data. Moreover, I will apply this method on data from Multiple Sclerosis patients, a common autoimmune neurological disease. DANDINE-ROULLAND Claire R ÉF É R EN CE S [1] Han Chen, James B Meigs, and Josée Dupuis. Sequence kernel association test for quantitative traits in family samples. Genetic epidemiology, 37(2):196–204, 2013. [2] F. Clerget-Darpoux, H. Selinger-Leneman, and M.C. Babron. Why do complex traits resist dna analysis, Int J Hum Genet, 1(1):55–63, 2001. [3] The 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature, 491:1, 2012. [4] The International HapMap Consortium. The international hapmap project. Nature, 426(6968):789–796, 2003. [5] The International HapMap Consortium. A haplotype map of the human genome. Nature, 437:1299–1320, 2005. [6]The International HapMap Consortium. A second generation human haplotype map of over 3.1 million snps. Nature, 449(7164):851–861, 2007. [7] T. Feng, R. Elston, and X. Zhu. A novel method to detect rare variants using both family and unrelated case-control data. In BMC proceedings, volume 5, page S80. BioMed Central Ltd, 2011. [8] Iuliana Ionita-Laza, Seunggeun Lee, Vlad Makarov, Joseph D Buxbaum, and Xihong Lin. Sequence kernel association tests for the combined effect of rare and common variants. The American Journal of Human Genetics, 2013. [9] E.J. Louis, G. Thomson, and H. Payami. The affected sib method. ii. The intermediate model. Annals of human genetics, 47(3):225–243, 1983. [10] B.E. Madsen and S.R. Browning. A groupwise association test for rare mutations using a weighted sum statistic. PLoS genetics, 5(2):e1000384, 2009. [11] T.A. Manolio, F.S. Collins, N.J. Cox, D.B. Goldstein, L.A. Hindorff, D.J. Hunter, M.I. McCarthy, E.M. Ramos, L.R. Cardon, A. Chakravarti, J.H. Cho, A.E. Guttmacher, A. Kong, L. Kruglyak, E. Mardis, C.N. Rotimi, M. Slatkin, D. Valle, A.S. Whittemore, M. Boehnke, A.G. Clark, E.E. Eichler, G. Gibson, J.L. Haines, T.F. Mackay, S.A. McCarroll, and P.M. Visscher. Finding the missing heritability of complex diseases. Nature, 461(7265):747–753, 2009. [12] Stephan Morgenthaler and William G Thilly. A strategy to discover genes that carry multiallelic or mono-allelic risk for common diseases: a cohort allelic sums test (cast). Mutation Research/Fundamental and Molecular Mechanisms of Mutagenesis, 615(1):28–56, 2007. [13] Hervé Perdry, Bertram Müller-Myhsok, and Françoise Clerget-Darpoux. Using affected sib-pairs to uncover rare disease variants. Human heredity, 74(3-4):129–141, 2012.
© Copyright 2024 ExpyDoc