Etudes d’association pangénomiques Ou études d’association génome entier … … Ou Genome Wide Association Studies Unité Inserm UMR 1087-CNRS UMR 6291 Christian DINA [email protected] Etudes d’association pangénomiques Ou études d’association génome entier … … Ou Genome Wide Association Studies Pr Le Marec Equipe « Génétique des Pathologies Héréditaires » J-J Schott Unité Inserm UMR 1087-CNRS UMR 6291 Christian DINA [email protected] Objectif • Un petit tour des méthodes d’association et GWAs • Modèle génétique - héritabilité • Etudes d’association Génome Entier – Et le diabète de type 2 • Bilan … – Ou en est-on …. Génétique Inverse Association Gene Proteine Phenotype Phénotypes intermédiaires Régulation de l’apétit Régulation énergie …. Pathway/ Tissu Stratégie 3 000 000 000 bases dans le génome humain 10 000 000 loci à allèle fréquent 300 000 à 1 000 000 variants testés Séries de cas Tests d’association Séries de témoins Génotyper 107, c’est cher Transmission d’un allèle ancien generation 2 Fondateur generation 1 Porteur Méïose et recombinaison Porteur non carrier Génération actuelle Cas-Témoins Fondateur generation 2 generation 1 Porteur Méïose et recombinaison Porteur non carrier Génération actuelle CD/CV - conclusion • Repose sur l’absence de résultats probands en analyse de liaison • L’extension rapide de la taille de la population humaine – beaucoup de variants génétiques fréquents • Si pathologie fréquente, allèles causaux fréquents • Exemples de variants fréquents à effets forts Structure du génome au secours des EAP Diversité haplotypique réduite Modèle : une mutation pathogène Aux débuts de l ’Histoire, une population de chromosomes. Quand soudain… Aargh, je suis muté!!! A a m M P(A)=2/6 P(a) =4/6 P(m)=1/6 P(M)=5/6 M a J’ai pas à m’en faire. J’suis juste un marqueur a a M A M M Evolution M a M a A m M A M a Cause toujours ! A moi la recombinaison ! A Toi et moi, nous sommes associés pour la vie. m 100 générations plus tard … A m a M Méïose et recombinaison Génotype (observé) Haplotype (non observé) M a m A A A Maintenant ou jamais.. A a a M a M m M m M Regroupement au hasard – Hardy Weinberg Pendant la saison de la méïose, les chromosomes se groupent par deux ….. Modèle : déclin du DL Dn=(1-θ θ)n D0 a Sauvé!! M m A M A M A M a a m A m a M A chacune des n générations, probabilité θ de recombinaison De 1 à N marqueurs a B M a A B b M m b a A B M P(m/A)=3/4 P(m/B)=3/4 P(AB/m)=1 P(m/AB)=1 A b M m a A B m b M Structure du genome Deséquilibre de liaison très fort Irrégularité de la recombinaison (hot-spots) Forte corrélation entre SNPs – un SNP « tagge » d’autres SNPs Lien au phénotype A M A M a M a M a M A m A a Malade/sain Trait quantitatif P0 -a P0 -a RRxP0 d m m f(RR)xP0 RR2xP0 (2xRR-1)xP0 a HapMap/1000 génomes Permet d’avoir l’information sur un grand nombre de SNPs Mais en génotypant un petit nombre HapMap principe 3.1 M SNPs exploitables On peut représenter 80-90% des SNPs communs avec ~300,000 tag SNPs pour pop. Européennes où Asiatiques ~500,000 tag SNPs pour pop. Africaines Nature 2005 Données 1000 Génomes Code ASW CEU CHB CHD GIH JPT LWK MXL MKK TSI YRI PEL PUR CLM GBR FIN IBS Population Africains Américains, Etats-Unis Européens de l’Utah, Etats-Unis Chinois à Pékin, Chine Chinois à Denver, Etats-Unis Indiens Gujarati à Houston, Etats-Unis Japonais à Tokyo, Japon Luhya à Webuye, Kenya Mexican à Los Angeles Massai à Kinyawa, Kenya Toscans d’Italie Yoruba à Ibadan, Nigeria Péruviens à Lima Porto-Ricains, Porto-Rico Colombiens de Medellin, Colombie Britanniques, Grande-Bretagne Finlandais, Finlande Ibériques Espagnols, Espagne Continent Afr Eur Asi Asi Asi Asi Afr Afr Afr Eur Afr Amr Amr Amr Eur Eur Eur HM 1 - 2 Oui Oui Oui Oui HM 3 Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui 1000 G Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Oui Tableau 1 : Populations utilisées dans HapMap et 1000 génomes Panel de données de référence plus important Environ 10 M des SNPs communs Marquage - Tagging A/T 1 A A T T G/A 2 G G A A Grand r2 G/C 3 G C G C T/C 4 T C C C G/C 5 A/C 6 A C C C G C G C grand r2 grand r2 Carlson et al. (2004) AJHG 74:106 Tags: SNP 1 SNP 3 SNP 6 3 SNPs Tests d’association: SNP 1 SNP 3 SNP 6 On peut sélectionner et génotypes un sous-ensemble de SNPs Ce sont les puces de génotypage L’imputation génétique … … des génotypes sans génotyper Imputation – Qu’est-ce et que fait-ce ? • Imputation exploits “available information about patterns of correlation among typed and untyped SNPs in a reference panel of denselygenotyped individuals (e.g. HapMap samples) to explicitly predict, or impute, the genotypes at untyped SNPs in a study sample”. --Guan et al., PLoS Genetics, Dec. 2008 • Bénéfices de l’Imputation: 1. Augmente la puissance de détéction d’associations 2. Augmente la précision de l’association 3. Méthode capitale pour combiner les données générées sur des puces différentes. Qu’est-ce que l’imputation ? A/T 1 Individual 1 Individual 2 Individual 3 Individual 4 A A T T G/A G/C 3 2 G G A A G C G C high r2 T/C 4 G/C 5 A/C 6 T C C C G C G C A C C C high r2 high r2 Chip Genotyped (G) or Imputable (I) Omni G I G I I G 660W/610Q / 1M-Duo I G G G I I Affy 6.0 I G I ? G ? Après Imputation: Les génotypes pour les 6 SNPs sur les 3 puces prèts pour analyse! After Carlson et al. Am J Hum Genet 74:106 (2004). Adapted from Daly MJ. HapMap: Application in the design and interpretation of association studies. In: HapMap Tutorial. http://www.hapmap.org/tutorials.html.en Trois étapes • Phasage de nos données • Identification dans le panel de référence • Imputation proprement dite Phasage Observed Genotypes . . . . . . . A . . G . . . . . . . . . . . . A . . C . . . . . . A . . . A . . . . T G T T G G G T G T T C T T C C C T C T T C T T T C T T C T C G C C C G C C C C Etude Reference Haplotypes C C C C C T C C C C G G C G G G G G G G A A A A A G A A A A G G A A G G G G G A A A G G A A A A A G T T C C C T T C C C C C T T T C C T T T T T C C C T T C C C C C T T T C C T T T C C T T C C C T C T •http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html •http://faculty.washington.edu/browning/beagle/beagle.html •http://www.sph.umich.edu/csg/abecasis/MACH/download/ T C T T C C C T C T C A C C A A A C A C T C T T C C C T C T C T C C T T T T T C G A G G A A G G G G T T T T T T T T T T G G G G G G G A G G HapMap/ 1K genomes Gonçalo Abecasis Identification Observed Observedhaplotypes Genotypes . . . . . . . A . . G . . . . . . . . . . . . A . . C . . . . . . A . . . A . . . . T G T T G G G T G T T C T T C C C T C T T C T T T C T T C T C G C C C G C C C C Etude Reference Haplotypes C C C C C T C C C C G G C G G G G G G G A A A A A G A A A A G G A A G G G G G A A A G G A A A A A G T T C C C T T C C C C C T T T C C T T T T T C C C T T C C C C C T T T C C T T T C C T T C C C T C T •http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html •http://faculty.washington.edu/browning/beagle/beagle.html •http://www.sph.umich.edu/csg/abecasis/MACH/download/ T C T T C C C T C T C A C C A A A C A C T C T T C C C T C T C T C C T T T T T C G A G G A A G G G G T T T T T T T T T T G G G G G G G A G G HapMap/ 1K genomes Gonçalo Abecasis Imputation Observed Genotypes c g a g A t c t c c c g A c c t c A t g g c g a a G c t c t t t t C t t t c A t g g Etude Reference Haplotypes C C C C C T C C C C G G C G G G G G G G A A A A A G A A A A G G A A G G G G G A A A G G A A A A A G T T C C C T T C C C C C T T T C C T T T T T C C C T T C C C C C T T T C C T T T C C T T C C C T C T •http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html •http://faculty.washington.edu/browning/beagle/beagle.html •http://www.sph.umich.edu/csg/abecasis/MACH/download/ T C T T C C C T C T T G T T G G G T G T C A C C A A A C A C T C T T C C C T C T T C T T C C C T C T C T C C T T T T T C T C T T T C T T C T G A G G A A G G G G T T T T T T T T T T G G G G G G G A G G C G C C C G C C C C HapMap/ 1K genomes Gonçalo Abecasis L’héritabilité Le but à atteindre Nombre d’individus Effet d’un variant génétique Aa AA aa -a 0d a 2a d Effet génétique seul Valeur de L Effet d’un variant génétique Aa AA aa L’héritabilité est la proportion de la variance expliquée par des facteurs génétiques Effet d’un variant h2= 80% Aa AA aa Héritabilité est la proportion de la variance expliquée par des facteurs génétiques h2= Vgen/Vp Effet d’un variant – Phénotype binaire Aa AA aa Remarque : ici on a modèle gène majeur qui ne marchait pas pour les pathologies fréquentes Composante polygénique Hypothèse d’effets additifs Héritabilité – Conclusion • On peut estimer l’héritabilité à partir de ; – Variation phénotypique entre individus – Variation génétique entre individus • Ici par exemple entre un parent et un enfant • On peut estimer l’héritabilité : – À partir des polymorphismes génétiques, si on les connaît – Régression linéaire sur tous les variants génétiques Le principe des analyses Stratégie 3 000 000 000 bases dans le génome humain 10 000 000 loci à allèle fréquent 300 000 à 1 000 000 variants testés Séries de cas Tests d’association Séries de témoins Puces à ADN Etude d’Association Pangénomique Patients A/G Témoins G/G A/A f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0) force de l’association Régression Logistique (Linéaire) Etude d’Association Pangénomique Patients A/G Témoins G/G A/A f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0) force de l’association Etude d’Association Génome Entier EAGE Patients A/G Témoins G/G A/A f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0) force de l’association Tests Multiples Pourquoi est-ce un problème ? • Si on a m tests, m x α vont être rejetés par hasard: – 100 tests àt 0.05 : 5 faux positifs • Pour les GWAs, m est en général très haut 1M – 1Mx0.05 = 50 000 • Combien de tests indépendants ? • Merci les 1000 Génomes Chromosome Distribution de la fréquence allélique Allele frequency ……. ……. How many ? 38 M SNPs Chromosome Distribution de la fréquence allélique Allele frequency ……. ……. Combien ? 11 M SNPs fréquents Chromosome Va-t-on tester tous les SNPs ? Allele frequency ……. Haplotype Block Haplotype Block ……. Combien ? 11 M SNPs Chromosome Va-t-on tester tous les SNPs ? Allele frequency ……. ……. En fait moins 11 M Méthodes standard • Vraie p-value p * =1 − (1 − p j j ) m m étant le nombre de tests On doit prendre un pj = 0.05/m • Appelé Family wise Error Rate (FWER) • Dans les études d’association pangénomiques : – 5 x 10-8 (Prokopenko et al., Aulchenko et al) 1 M – 5 x 10-7 (Sabetti et al.) déterminé empiriquement Mélange de populations et gradient de fréquences alléliques Stratification Neme génération aa AA AA aa aa AA Stratification neme génération – absence de Aa aa aa AA aa AA AA Principe neme génération – absence de Aa aa bb aa bb aa bb AA BB AA BB AA BB 2 loci aa Aa Bb BB AA bb 2 loci aa Aa BB Bb AA bb 2 loci aa Aa BB Bb AA bb Au fait, cela donne aussi le nombre de tests indépendants Effet possible sur une analyse cas-contrôle AF = 0.25 AF = 0.50 AF = 0.35 AF = 0.40 Balding Nature Review Genetics 7:761 GWAS results: Manhattan plot 312 patients 55 Contrôle Qualité • % de génotypes manquants/individu – Classiquement: • Individus génotypés à 95% au moins • SNPs génotypés à 95% au moins • % deséquilibre de Hardy Weinberg • Choix arbitraire (p > 10 – 5) • Identification d’apparentement • Identité par Etat moyenne sur tout le génome Les meta-analyses Pour la puissance Meta-Analyse des études d’association génome entier Manolio TA. N Engl J Med 2010;363:166-176. Meta-analyse Combinaison, par SNP, des résultats de plusieurs études : Sij= -1 ou +1 Direction de l’effet Poids de chaque étude Objectif : PUISSANCE Exemple d’étude Diabète de Type 2 Analyse d’association génome entier pour le diabète de Type 2 Twelve Type-2 Diabetes Loci Identified Through Large Scale Association Analysis Benjamin F. Voight, Laura J. Scott, Valgerdur Steinthorsdottir, Andrew P. Morris, and Christian Dina on behalf of the DIAGRAM Consortium Slides from B. Voight The DIAbetes Genome-wide Replication And Metaanalysis [DIAGRAM] Consortium c UK KORA FUSION (US/Finland) DGI (US/Sweden/Finland) DeCODE Rotterdam DGDG (France/Canada) EUROSPAN Gènes ou loci associés Sladek et al, Nature 2007 Frayling et al, Science 2007 Dina et et al. Nature Genetics 2007 Zeggini et al, Science 2007 DGI, Science 2007 Scott et al, Science 2007 WTCCC, Nature 2007 Steinthorsdottir, Nature Genetics 2007 Sandhu et al, Nature Genetics 2007 Zeggini et al, Nature Genetics 2008 Yasuda et al, Nature Genetics 2008 Unoki et al, Nature Genetics 2008 Rung et al, Nature Genetics 2009 Kong et al, Nature, 2009 Dupuis et al, Nature Genetics 2010 Saxena et al, Nature Genetics 2010 Qi et al, 2010 FTO MTNR1B SLC30A8 KCNQ1 HHEX/IDE TSPAN8 Études Association Génome Entier D2T CDKAL1 ADAMTS9 EAGE traits quantitatifs IGF2BP2 NOTCH2 pré-EAGE – gènes candidats CDKN2A CAMK1D WFS1 THADA Études Gènes candidats PPARG 2000 KCNJ11 TCF7L2 HNF1B JAZF1 2003 2006 2007 2008 IRS1 2009/2010 Exclusion des loci déjà connus 8 Tous les signaux Observed (-logP) Observed (-logP) 50 Stage 1 Expected (-logP) Expected (-logP) Stage 2 2,255,857 SNPs 24 SNPs Independants P < 1 x 10-5 Stage 2 replication Combined Analysis (Stages One + Two) Identified 12 New Loci Chr f(Risk Allele) Nearby Gene Stage One OR (95%CI) Stage Two p- value up to 8,130 cases and 38,987 controls p- value Stage One + Two OR (95%CI) p- value up to 35,240 and 62,163 up to 43,370 cases and 101,150 controls Previously Known 2 11 0.64 0.28 IRS1 MTNR1B 1.12 (1.07-1.17) 1.12 (1.07-1.17) 8.7 x 10-7 1.0 x 10-6 2.2 x 10-15 4.4 x 10-10 1.11 (1.08-1.13) 5.4 x 10-20 1.09 (1.06-1.11) 7.8 x 10-15 Novel T2D-susceptibility loci 11 0.88 CENTD2 1.13 (1.07-1.19) 7.0 x 10-6 3.2 x 10-18 1.14 (1.11-1.17) 1.4 x 10-22 2 0.46 BCL11A 1.09 (1.05-1.13) 8.1 x 10-6 6.2 x 10-11 1.08 (1.06-1.10) 2.9 x 10-15 11 0.52 KCNQ1 1.11 (1.06-1.16) 6.4 x 10-6 3.2 x 10-9 1.08 (1.06-1.10) 2.8 x 10-13 5 0.26 ZBED3 1.16 (1.10-1.23) 4.2 x 10-8 2.7 x 10-7 1.08 (1.06-1.11) 2.8 x 10-12 7 15 0.55 0.22 KLF14 PRC1 1.10 (1.06-1.15) 1.10 (1.06-1.15) 1.8 x 10-6 8.2 x 10-6 6.4 x 10-6 1.6 x 10-6 1.07 (1.05-1.10) 2.2 x 10-10 1.07 (1.05-1.09) 2.4 x 10-10 8 0.48 TP53INP1 1.10 (1.06-1.15) 1.2 x 10-6 2.2 x 10-5 1.06 (1.04-1.09) 9.9 x 10-10 15 0.60 ZFAND6 1.11 (1.06-1.16) 5.1 x 10-6 1.2 x 10-5 1.06 (1.04-1.08) 2.4 x 10-9 12 0.10 HMGA2 1.20 (1.12-1.29) 1.7 x 10-7 1.1 x 10-4 1.10 (1.07-1.14) 3.6 x 10-9 12 0.85 HNF1A 1.14 (1.08-1.19) 4.6 x 10-7 4.6 x 10-4 1.07 (1.05-1.10) 2.4 x 10-8 9 0.93 CHCHD9 1.20 (1.11-1.29) 1.5 x 10-6 2.4 x 10-4 1.11 (1.07-1.15) 2.8 x 10-8 X 0.79 DUSP9** 1.12 (1.07-1.17) 2.3 x 10-6 3.5 x 10-6 1.14 (1.09-1.18) 9.5 x 10-11 39 loci de susceptibilité confirmés pour leT2D Sladek et al, Nature 2007 Frayling et al, Science 2007 Zeggini et al, Science 2007 DGI, Science 2007 Scott et al, Science 2007 WTCCC, Nature 2007 Steinthorsdottir, Nature Genetics 2007 Sandhu et al, Nature Genetics 2007 Zeggini et al, Nature Genetics 2008 Yasuda et al, Nature Genetics 2008 Unoki et al, Nature Genetics 2008 Rung et al, Nature Genetics 2009 Kong et al, Nature, 2009 Dupuis et al, Nature Genetics 2010 Saxena et al, Nature Genetics 2010 Qi et al, 2010 ADCY5 Les loci sont nommés en fonction des gènes les plus proches ou les gènes candidats. GCK GCKR PROX1 FTO MTNR1B TP53INP1 DGKB SLC30A8 KCNQ1 KLF14 HCCA2 Etudes de gènes candidats HHEX/IDE TSPAN8 ZBED3 RBMS1 GWAS du T2D CDKAL1 ADAMTS9 BCL11A DUSP9 GWAS de phénotypes liés IGF2BP2 NOTCH2 CHCHD9 KCNQ1 [2] Association à grande échelle CDKN2A CAMK1D HNF1A ZFAND6 WFS1 THADA HMGA2 PRC1 IRS1 CENTD2 Voight et al, Accepted in Principal, Nature Genetics 2010 PPARG KCNJ11 TCF7L2 HNF1B JAZF1 2000 2003 2006 2007 2008 2009/2010 Encore des association (Diabète de Type 2) Résultats – fine mapping Gènes et physiologie Résistant P > 0.2 P > 0.05 P > 0.01 P > 0.001 P>0 homeostatic model assessment Sensible Réduction de la fonction des cellules Β Fonction améliorée Fonction réduite 37,000 individus Non-diabétiques Glycémie à Jeun <7mg Effets sur le fonction des cellules Beta Gènes et physiologie Résistant P > 0.2 P > 0.05 P > 0.01 P > 0.001 P>0 P > 0.2 P > 0.05 P > 0.01 P > 0.001 P>0 Résistance à l’Insuline Sensible Réduction de la fonction des cellules Β Fonction améliorée Fonction réduite Fonction améliorée Fonction réduite 37,000 individus Non-diabétiques Glycémie à Jeun <7mg Peu d’Effets sur la fonction d’Insulino - Résistance Effet en population En population Héritabilité λS ~30% 3 39 variants ~ 5% 1.16 Variants associé : Faible proportion de la composante génétique Tous variants : 10 % de la composante génétique (héritabilité) METABOCHIP ~ 200 k SNPs Puce à prix abordable = puissance augmentée 15,000 139,879 Observed (-logP) 66,117 Expected (-logP) Dernière phase Nouveaux loci - GWAs Locus Lead SNP Chr Position (Build 36 bp) Combined metaanalysis p-value Novel susceptibility loci achieving genome-wide significance in combined meta-analysis ZMIZ1 rs12571751 10 80 612 637 1,0E-10 ANK1 rs516946 8 41 638 405 2,5E-10 KLHDC5 rs10842994 12 27 856 417 6,1E-10 TLE1 rs2796441 9 83 498 768 5,4E-09 ANKRD55 rs459193 5 55 842 508 6,0E-09 CILP2 rs10401969 19 19 268 718 7,0E-09 MC4R rs12970134 18 56 035 730 1,2E-08 BCAR1 rs7202877 16 73 804 746 3,5E-08 Total Combined total Stage 2 risk allele frequency Stage 2 OR (95% CI) 0,52 0,76 0,80 0,57 0,70 0,08 0,27 0,89 1.07 (1.04-1.10) 1.08 (1.05-1.12) 1.10 (1.07-1.14) 1.07 (1.04-1.10) 1.10 (1.06-1.13) 1.14 (1.08-1.20) 1.08 (1.05-1.11) 1.10 (1.05-1.15) Sibling Explained liability-scale relative riska variance (%)b 1,001 1,001 1,001 1,001 1,002 1,001 1,001 1,001 1,010 0,066 0,059 0,079 0,064 0,106 0,082 0,070 0,047 0,574 1,104 5,730 Proportion de la variance très petite Estimation des vraisPatients positifs On détermine l’allèle à risque en phase 1 : A / G Témoins A/A A/G 488 nouveaux loci ([456-521] G/G Effet allèle G Conclusion - temporaire • Analyse d’association permet d’identifier des variants associés. • Fait ses preuves dans le cas de pathologies complexes. • Mais ne pointent pas sur un gène • Expliquent une toute petite partie de la variance • Effets individuels faibles Maher, B. (2008). Personal genomes: The case of the missing heritability. Nature, 456(7218), 18-21. Héritabilité perdue 180 000 Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., et al. (2009). Finding the missing heritability of complex diseases. Nature, 461(7265), 747-753. Méthodes multi-SNPs Modèles polygéniques • Effet simultané de variants à effet faible? • Création d’un score: m ∑ ln ( ORi )× SNPij x j= où i=1 m – ln(ORi ) = OR pour le SNPi dans l’échantillon initial – SNPij = # d’alleles (0,1,2) pour SNPi, individu j dans l’échantillon de validation. – Réalisé sur un grand nombre de SNPs (m) • xj est-il associé à la maladie ? ISC / Purcell et al. Nature 2009 Application of Model Purcell / ISC et al. Nature 2009 Héritabilité manquante … moins que prévu Ou est l’héritabilité? Visccher, AJHG 2011 Variants rares Conclusion générale • Résultats décevants quant à la force individuelle des variants • Héritabilité manquante – mais moins que prévu • Utilité du modèle polygénique ? • Il reste de la place pour des variants rares Les variants rares Est-ce que je peux faire un test ? 500 autres haplotypes …. Les variants rares 1/0 0/1 2/02/02/0 Les variants rares 6/1 La mort subite cardiaque • Mort brutale dans l’heure suivant l’apparition des premiers symptômes • 40 000 décès par an en France • 3-10% sont récupérées Infarctus du myocarde Cardiomyopathies Cœur sain ∼ 80 % ∼ 10 % ∼ 10 % Arythmies cardiaques Facteurs génétiques et/ou environnementaux Le syndrome de Brugada • Sur-élévation du segment ST dans les dérivations précordiales droites → V1 V2 V3 • Bloc de branche droit • 1 individu sur 2000 • Autosomique dominante • Pénétrance incomplète et expressivité variable Modèle plus complexe ? • Traitement : défibrillateur implantable Génétique du syndrome de Brugada • SCN5A (>300 mutations) - 15-25 % des patients avec un syndrome de Brugada • 9 autres gènes décrits: implication mineure GPD1L SCN5A CACNA1C CACNB2 KCNE3 SCN3b SCN1b Pas de diagnostic moléculaire pour 70% des patients résultats EAGE : Manhattan plot 312 patients/ 1115 témoins P= 3.56x10-33 P= 3.17x10-11 P= 3.97x10-09 Locus SCN10A Chromosome_3 P=3.56x10-33 SCN5A SCN10A Locus SCN10A Chromosome_3 P=3.56x10-33 SCN5A SCN10A Site fixation TBX5/TBX3 van den Boogaard JCI 2012 Locus SCN10A Chromosome_3 P=3.56x10-33 SCN5A SCN10A Site fixation TBX5/TBX3 van den Boogaard JCI 2012 Locus SCN10A Chromosome_3 P=3.56x10-33 SCN5A SCN10A Site fixation TBX5/TBX3 van den Boogaard JCI 2012 Enhancer SCN5A et SCN10A Faible expression cardiaque de SCN10A Hypothèse physiopathologique = - modulation du niveau d’expression du canal sodique Locus HEY2 HEY2 Hey2 and BrS ? Hey2: bHLH transcriptional repressor expressed in the ventricular myocardium during heart development ** Hey2 -/- mice => congenital heart defects ** p<0.05 Higher conduction velocity in the RVOT, a common site of origin of ventricular arrhythmias in BrS patients Increase in maximal upstroke velocity and AP amplitude, indicating increased sodium channel availability Electrical cardiac activity is modified in Hey2 +/- mice, in the absence of heart structural anomalies GWAS & replication SNP rs11708996 rs10428132 rs9388451 Locus chr3:38633923 chr3:38777554 chr6:126090377 Gene(s) SCN5A SCN10A HEY2 / NCOA7 GWAS (312 / 1,115; Europe) RAF P-value 0.23 / 0.15 2.70 x 10-5 0.69 / 0.41 6.79 x 10-26 0.65 / 0.50 8.85 x 10-10 Replication 1 (594 / 806; Europe) RAF P-value 0.23 / 0.15 1,10 x 10-7 0.65 / 0.42 1.66 x 10-30 0.59 / 0.50 2.1 x 10-5 Replication 2 (208 / 1,016; Japan) RAF P-value 0.09 / 0.04 5.63 x 10-5 0.44 / 0.23 1.56 x 10-16 0.72 / 0.61 6.70 x 10-6 Meta-analysis P-value 1.02.10-14 1.01 x 10-68 5.14 x 10-17 (1,114 / 2937) OR 1.73 [1.51 - 1.99] 2.55 [2.30 - 2.84] 1,58 [1.42 - 1.75] Patients with symptoms P-value 6.88 x 10-8 1.15 x 10-39 5.01 x 10-8 (416 / 2,937) OR 1.73 [1.42 - 2.12] 2.84 [2.43 - 3.32] 1.55 [1.32 - 1.81] Effet cumulés aux trois loci 30 21.48 20 10 0 Individuals (%) Europe 40 0 1 2 3 4 5 6 Number of risk alleles Japan Odds ratio (log scale) Individuals (%) 40 10 8.33 4.04 30 1.87 20 10 1 0 control group 0 1 2 3 4 5 6 Number of risk alleles BrS case group 0-1 2 3 4 5-6 Number of risk alleles Pathologie Rare – Variant Fréquent Nouveau Paradigme Plusieurs variants fréquents en population augmentent le risque Risque relatif très haut : - individuel (1.7 à 3) Risque en population très fort (pour si peu de loci) : - λS = 1.4 - Héritabilité = 15 % Pathologie Fréquente Variant Fréquent …. est vérifiée …. .. pour un pathologie rare Les variants rares Est-ce que je peux faire un test ? 500 autres haplotypes …. Les variants rares 1/0 0/1 2/02/02/0 Les variants rares 6/1 Analyse d’epistasie k Yi = α + ∑ β r X ir + r =1 ∑ β rs X ir X is + ε i 1≤ r < s ≤ k Effet de chaque locus Interaction 2 à 2 Toutes les paires : nombre de tests énorme 500,000 SNPs donne 124,999,750,000 paires Réduction en choisissant des SNPs non redondants Efficacité dépend du vrai modèle Nombre de tests pas si grave (Ewans et al. 2007). Fonction - GRAIL Les gènes sont ordonnés en fonction de leur similarité au gène 1 Occurrence des mots dans les références Pour chaque SNP, définir la région et les gènes inclus Mot Mot Mot Gènes classés par similarité Région 1 : 3 gènes Pour chaque gène on construit un score en fonction du nombre de gènes similaires Gène A similaire Chaque région est représentée par son « meilleur » SNP Correction pour test multiple http://www.broadinstitute.org/mpg/grail/ Rarement observées Introduction de la fonction GRAIL Les gènes sont ordonnés en fonction de leur similarité au gène 1 Occurrence des mots dans les références Pour chaque SNP, définir la région et les gènes inclus Mot Mot Mot Gènes classés par similarité Région 1 : 3 gènes Pour chaque gène on construit un score en fonction du nombre de gènes similaires Gène A similaire Chaque région est représentée par son « meilleur » SNP Correction pour test multiple Le CD / CD contre-attaque Diabète de Type 2 Nouveaux loci - GWAs Locus Lead SNP Chr Position (Build 36 bp) Combined metaanalysis p-value Novel susceptibility loci achieving genome-wide significance in combined meta-analysis ZMIZ1 rs12571751 10 80 612 637 1,0E-10 ANK1 rs516946 8 41 638 405 2,5E-10 KLHDC5 rs10842994 12 27 856 417 6,1E-10 TLE1 rs2796441 9 83 498 768 5,4E-09 ANKRD55 rs459193 5 55 842 508 6,0E-09 CILP2 rs10401969 19 19 268 718 7,0E-09 MC4R rs12970134 18 56 035 730 1,2E-08 BCAR1 rs7202877 16 73 804 746 3,5E-08 Total Combined total Stage 2 risk allele frequency Stage 2 OR (95% CI) 0,52 0,76 0,80 0,57 0,70 0,08 0,27 0,89 1.07 (1.04-1.10) 1.08 (1.05-1.12) 1.10 (1.07-1.14) 1.07 (1.04-1.10) 1.10 (1.06-1.13) 1.14 (1.08-1.20) 1.08 (1.05-1.11) 1.10 (1.05-1.15) Sibling Explained liability-scale relative riska variance (%)b 1,001 1,001 1,001 1,001 1,002 1,001 1,001 1,001 1,010 0,066 0,059 0,079 0,064 0,106 0,082 0,070 0,047 0,574 1,104 5,730 Proportion de la variance très petite Estimation des vrais positifs 488 nouveaux loci ([456-521] Résultats – fine mapping GWAs et gènes • Les SNPs associés sont souvent dans des zones inter-géniques. • Difficulté d’identifier un gène précis. • Besoin d’analyses supplémentaires Et la taille ? Figure 1. Description of Meta-Analysis Gene-set Enrichment of variaNT Associations (MAGENTA) method. Segrè AV, Groop L, Mootha VK, Daly MJ, et al. (2010) Common Inherited Variation in Mitochondrial Genes Is Not Enriched for Associations with Type 2 Diabetes or Related Glycemic Traits. PLoS Genet 6(8): e1001058. doi:10.1371/journal.pgen.1001058 http://www.plosgenetics.org/article/info:doi/10.1371/journal.pgen.1001058 How Successful have GWAS Been? Thousands of associations have been identified for many different traits Each locus explains a very small proportion of the variation in complex traits (typically <1%) Overall percentage of variation explained is substantially less than trait heritability, even for casecontrol diseases: “Missing heritability” Manolio et al. 2009. Nature 461: The mixed model that Visccher uses is equivalent to ridge regression on the genome wide SNPs (so just an ordinary linear regression including all SNPs with an additive allele coding, but with a Gaussian penalty term to solve the problem of overfitting due to so many SNPs). Then heritability is just the usual R^2 for such a model. There's no reason you have to use this particular model - e.g. why choose a Gaussian penalty? You can calculate the R^2 for any regression model on the genome-wide SNPs. The only reason for preferring the model Visscher uses is because the REML software is set up to do the estimation allowing for the Gaussian penalty. So it is good because of the sophisticated REML estimation, but mediocre because it's a simplistic model: every SNP is assumed to have the same effects size, no allowing for LD or pathways, genic regions etc, and Gaussian is not a good penalty function. Figure 1. Graphical illustration of the framework of gene-based single-marker test and its generalization to a gene-based gene–gene interaction (GGG) test as proposed in this paper. Ma L, Clark AG, Keinan A (2013) Gene-Based Testing of Interactions in Association Studies of Quantitative Traits. PLoS Genet 9(2): e1003321. doi:10.1371/journal.pgen.1003321 http://www.plosgenetics.org/article/info:doi/10.1371/journal.pgen.1003321 Les variants rares Est-ce que je peux faire un test ? 500 autres haplotypes …. Les variants rares 1/0 0/1 2/02/02/0 Les variants rares 6/1
© Copyright 2024 ExpyDoc