besoin de comprendre

Etudes d’association pangénomiques
Ou études d’association génome entier … …
Ou Genome Wide Association Studies
Unité Inserm UMR 1087-CNRS UMR 6291
Christian DINA
[email protected]
Etudes d’association pangénomiques
Ou études d’association génome entier … …
Ou Genome Wide Association Studies
Pr Le Marec
Equipe « Génétique
des Pathologies
Héréditaires »
J-J Schott
Unité Inserm UMR 1087-CNRS UMR 6291
Christian DINA
[email protected]
Objectif
• Un petit tour des méthodes d’association et GWAs
• Modèle génétique - héritabilité
• Etudes d’association Génome Entier
– Et le diabète de type 2
• Bilan …
– Ou en est-on ….
Génétique Inverse
Association
Gene
Proteine
Phenotype
Phénotypes
intermédiaires
Régulation de l’apétit
Régulation énergie
….
Pathway/ Tissu
Stratégie
3 000 000 000 bases
dans le génome humain
10 000 000 loci à
allèle fréquent
300 000 à 1 000 000
variants testés
Séries de cas
Tests d’association
Séries de témoins
Génotyper 107, c’est cher
Transmission d’un allèle ancien
generation 2
Fondateur
generation 1
Porteur
Méïose et
recombinaison
Porteur
non carrier
Génération
actuelle
Cas-Témoins
Fondateur
generation 2
generation 1
Porteur
Méïose et
recombinaison
Porteur
non carrier
Génération
actuelle
CD/CV - conclusion
• Repose sur l’absence de résultats probands en
analyse de liaison
• L’extension rapide de la taille de la population
humaine – beaucoup de variants génétiques
fréquents
• Si pathologie fréquente, allèles causaux
fréquents
• Exemples de variants fréquents à effets forts
Structure du génome au secours
des EAP
Diversité haplotypique réduite
Modèle : une mutation pathogène
Aux débuts de
l ’Histoire, une
population
de chromosomes.
Quand soudain…
Aargh, je suis muté!!!
A
a
m
M
P(A)=2/6
P(a) =4/6
P(m)=1/6
P(M)=5/6
M
a
J’ai pas à m’en faire.
J’suis juste un marqueur
a
a
M
A
M
M
Evolution
M
a
M
a
A
m
M
A
M
a
Cause toujours !
A moi la recombinaison !
A
Toi et moi, nous sommes
associés pour la vie.
m
100 générations plus tard …
A
m
a
M
Méïose et recombinaison
Génotype (observé)
Haplotype (non observé)
M
a
m
A
A
A
Maintenant
ou jamais..
A
a
a
M
a
M
m
M
m
M
Regroupement au hasard – Hardy Weinberg
Pendant la saison de la méïose,
les chromosomes se groupent
par deux …..
Modèle : déclin du DL
Dn=(1-θ
θ)n D0
a
Sauvé!!
M
m
A
M
A
M
A
M
a
a
m
A
m
a
M
A chacune des n générations, probabilité θ de recombinaison
De 1 à N marqueurs
a
B
M
a
A
B
b
M
m
b
a
A
B
M
P(m/A)=3/4
P(m/B)=3/4
P(AB/m)=1
P(m/AB)=1
A
b
M
m
a
A
B
m
b
M
Structure du genome
Deséquilibre de liaison très fort
Irrégularité de la recombinaison (hot-spots)
Forte corrélation entre SNPs – un SNP « tagge » d’autres SNPs
Lien au phénotype
A
M
A
M
a
M
a
M
a
M
A
m
A
a
Malade/sain
Trait quantitatif
P0
-a
P0
-a
RRxP0
d
m
m
f(RR)xP0
RR2xP0
(2xRR-1)xP0
a
HapMap/1000 génomes
Permet d’avoir l’information sur un
grand nombre de SNPs
Mais en génotypant un petit nombre
HapMap principe
3.1 M SNPs exploitables
On peut représenter 80-90% des SNPs communs avec
~300,000 tag SNPs pour pop. Européennes où Asiatiques
~500,000 tag SNPs pour pop. Africaines
Nature 2005
Données 1000 Génomes
Code
ASW
CEU
CHB
CHD
GIH
JPT
LWK
MXL
MKK
TSI
YRI
PEL
PUR
CLM
GBR
FIN
IBS
Population
Africains Américains, Etats-Unis
Européens de l’Utah, Etats-Unis
Chinois à Pékin, Chine
Chinois à Denver, Etats-Unis
Indiens Gujarati à Houston, Etats-Unis
Japonais à Tokyo, Japon
Luhya à Webuye, Kenya
Mexican à Los Angeles
Massai à Kinyawa, Kenya
Toscans d’Italie
Yoruba à Ibadan, Nigeria
Péruviens à Lima
Porto-Ricains, Porto-Rico
Colombiens de Medellin, Colombie
Britanniques, Grande-Bretagne
Finlandais, Finlande
Ibériques Espagnols, Espagne
Continent
Afr
Eur
Asi
Asi
Asi
Asi
Afr
Afr
Afr
Eur
Afr
Amr
Amr
Amr
Eur
Eur
Eur
HM 1 - 2
Oui
Oui
Oui
Oui
HM 3
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
1000 G
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Oui
Tableau 1 : Populations utilisées dans HapMap et 1000 génomes
Panel de données de référence plus important
Environ 10 M des SNPs communs
Marquage - Tagging
A/T
1
A
A
T
T
G/A
2
G
G
A
A
Grand r2
G/C
3
G
C
G
C
T/C
4
T
C
C
C
G/C
5
A/C
6
A
C
C
C
G
C
G
C
grand r2
grand r2
Carlson et al. (2004) AJHG 74:106
Tags:
SNP 1
SNP 3
SNP 6
3 SNPs
Tests d’association:
SNP 1
SNP 3
SNP 6
On peut sélectionner et génotypes un sous-ensemble de SNPs
Ce sont les puces de génotypage
L’imputation génétique …
… des génotypes sans génotyper
Imputation – Qu’est-ce et que fait-ce ?
• Imputation exploits “available information about patterns of correlation
among typed and untyped SNPs in a reference panel of denselygenotyped individuals (e.g. HapMap samples) to explicitly predict, or
impute, the genotypes at untyped SNPs in a study sample”.
--Guan et al., PLoS Genetics, Dec. 2008
• Bénéfices de l’Imputation:
1. Augmente la puissance de détéction d’associations
2. Augmente la précision de l’association
3. Méthode capitale pour combiner les données générées
sur des puces différentes.
Qu’est-ce que l’imputation ?
A/T
1
Individual 1
Individual 2
Individual 3
Individual 4
A
A
T
T
G/A G/C
3
2
G
G
A
A
G
C
G
C
high r2
T/C
4
G/C
5
A/C
6
T
C
C
C
G
C
G
C
A
C
C
C
high r2
high r2
Chip
Genotyped (G) or Imputable (I)
Omni
G
I
G
I
I
G
660W/610Q
/ 1M-Duo
I
G
G
G
I
I
Affy 6.0
I
G
I
?
G
?
Après
Imputation:
Les génotypes
pour les 6 SNPs
sur les 3 puces
prèts pour
analyse!
After Carlson et al. Am J Hum Genet 74:106 (2004). Adapted from Daly MJ. HapMap: Application in the
design and interpretation of association studies. In: HapMap Tutorial.
http://www.hapmap.org/tutorials.html.en
Trois étapes
• Phasage de nos données
• Identification dans le panel de référence
• Imputation proprement dite
Phasage
Observed Genotypes
.
.
.
.
.
.
. A .
. G .
. .
. .
. .
. .
.
.
. A .
. C .
. .
. .
. A . .
. A . .
.
.
T
G
T
T
G
G
G
T
G
T
T
C
T
T
C
C
C
T
C
T
T
C
T
T
T
C
T
T
C
T
C
G
C
C
C
G
C
C
C
C
Etude
Reference Haplotypes
C
C
C
C
C
T
C
C
C
C
G
G
C
G
G
G
G
G
G
G
A
A
A
A
A
G
A
A
A
A
G
G
A
A
G
G
G
G
G
A
A
A
G
G
A
A
A
A
A
G
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
C
C
T
T
C
C
C
T
C
T
•http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html
•http://faculty.washington.edu/browning/beagle/beagle.html
•http://www.sph.umich.edu/csg/abecasis/MACH/download/
T
C
T
T
C
C
C
T
C
T
C
A
C
C
A
A
A
C
A
C
T
C
T
T
C
C
C
T
C
T
C
T
C
C
T
T
T
T
T
C
G
A
G
G
A
A
G
G
G
G
T
T
T
T
T
T
T
T
T
T
G
G
G
G
G
G
G
A
G
G
HapMap/
1K genomes
Gonçalo Abecasis
Identification
Observed
Observedhaplotypes
Genotypes
.
.
.
.
.
.
. A .
. G .
. .
. .
. .
. .
.
.
. A .
. C .
. .
. .
. A . .
. A . .
.
.
T
G
T
T
G
G
G
T
G
T
T
C
T
T
C
C
C
T
C
T
T
C
T
T
T
C
T
T
C
T
C
G
C
C
C
G
C
C
C
C
Etude
Reference Haplotypes
C
C
C
C
C
T
C
C
C
C
G
G
C
G
G
G
G
G
G
G
A
A
A
A
A
G
A
A
A
A
G
G
A
A
G
G
G
G
G
A
A
A
G
G
A
A
A
A
A
G
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
C
C
T
T
C
C
C
T
C
T
•http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html
•http://faculty.washington.edu/browning/beagle/beagle.html
•http://www.sph.umich.edu/csg/abecasis/MACH/download/
T
C
T
T
C
C
C
T
C
T
C
A
C
C
A
A
A
C
A
C
T
C
T
T
C
C
C
T
C
T
C
T
C
C
T
T
T
T
T
C
G
A
G
G
A
A
G
G
G
G
T
T
T
T
T
T
T
T
T
T
G
G
G
G
G
G
G
A
G
G
HapMap/
1K genomes
Gonçalo Abecasis
Imputation
Observed Genotypes
c g a g A t c t c c c g A c c t c A t g g
c g a a G c t c t t t t C t t t c A t g g
Etude
Reference Haplotypes
C
C
C
C
C
T
C
C
C
C
G
G
C
G
G
G
G
G
G
G
A
A
A
A
A
G
A
A
A
A
G
G
A
A
G
G
G
G
G
A
A
A
G
G
A
A
A
A
A
G
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
T
T
C
C
C
T
T
C
C
C
C
C
T
T
T
C
C
T
T
T
C
C
T
T
C
C
C
T
C
T
•http://www.shapeit.fr/, http://mathgen.stats.ox.ac.uk/impute/impute_v2.html
•http://faculty.washington.edu/browning/beagle/beagle.html
•http://www.sph.umich.edu/csg/abecasis/MACH/download/
T
C
T
T
C
C
C
T
C
T
T
G
T
T
G
G
G
T
G
T
C
A
C
C
A
A
A
C
A
C
T
C
T
T
C
C
C
T
C
T
T
C
T
T
C
C
C
T
C
T
C
T
C
C
T
T
T
T
T
C
T
C
T
T
T
C
T
T
C
T
G
A
G
G
A
A
G
G
G
G
T
T
T
T
T
T
T
T
T
T
G
G
G
G
G
G
G
A
G
G
C
G
C
C
C
G
C
C
C
C
HapMap/
1K genomes
Gonçalo Abecasis
L’héritabilité
Le but à atteindre
Nombre d’individus
Effet d’un variant génétique
Aa
AA
aa
-a
0d a
2a
d
Effet génétique seul
Valeur de L
Effet d’un variant génétique
Aa
AA
aa
L’héritabilité est la proportion de la variance expliquée par des facteurs
génétiques
Effet d’un variant
h2= 80%
Aa
AA
aa
Héritabilité est la proportion de la variance expliquée par des facteurs
génétiques
h2= Vgen/Vp
Effet d’un variant – Phénotype binaire
Aa
AA
aa
Remarque : ici on a modèle gène majeur qui ne marchait pas pour les pathologies fréquentes
Composante polygénique
Hypothèse d’effets additifs
Héritabilité – Conclusion
• On peut estimer l’héritabilité à partir de ;
– Variation phénotypique entre individus
– Variation génétique entre individus
• Ici par exemple entre un parent et un enfant
• On peut estimer l’héritabilité :
– À partir des polymorphismes génétiques, si on les
connaît – Régression linéaire sur tous les variants
génétiques
Le principe des analyses
Stratégie
3 000 000 000 bases
dans le génome humain
10 000 000 loci à
allèle fréquent
300 000 à 1 000 000
variants testés
Séries de cas
Tests d’association
Séries de témoins
Puces à ADN
Etude d’Association Pangénomique
Patients
A/G
Témoins
G/G
A/A
f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0)
force de l’association
Régression
Logistique
(Linéaire)
Etude d’Association Pangénomique
Patients
A/G
Témoins
G/G
A/A
f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0)
force de l’association
Etude d’Association Génome Entier
EAGE
Patients
A/G
Témoins
G/G
A/A
f(Gpatients) - f(Gtémoins) = S ~ P(x > S / H0)
force de l’association
Tests Multiples
Pourquoi est-ce un problème ?
• Si on a m tests, m x α vont être rejetés par hasard:
– 100 tests àt 0.05 : 5 faux positifs
• Pour les GWAs, m est en général très haut 1M
– 1Mx0.05 = 50 000
• Combien de tests indépendants ?
• Merci les 1000 Génomes
Chromosome
Distribution de la fréquence allélique
Allele frequency
…….
…….
How many ?
38 M SNPs
Chromosome
Distribution de la fréquence allélique
Allele frequency
…….
…….
Combien ?
11 M SNPs fréquents
Chromosome
Va-t-on tester tous les SNPs ?
Allele frequency
…….
Haplotype Block
Haplotype Block
…….
Combien ?
11 M SNPs
Chromosome
Va-t-on tester tous les SNPs ?
Allele frequency
…….
…….
En fait moins 11 M
Méthodes standard
• Vraie p-value
p * =1 − (1 − p
j
j
)
m
m étant le nombre de tests
On doit prendre un pj = 0.05/m
• Appelé Family wise Error Rate (FWER)
• Dans les études d’association pangénomiques :
– 5 x 10-8 (Prokopenko et al., Aulchenko et al) 1 M
– 5 x 10-7 (Sabetti et al.) déterminé empiriquement
Mélange de populations et gradient de
fréquences alléliques
Stratification
Neme génération
aa
AA
AA
aa
aa
AA
Stratification
neme génération – absence de Aa
aa
aa
AA
aa
AA
AA
Principe
neme génération – absence de Aa
aa
bb
aa
bb
aa
bb
AA
BB
AA
BB
AA
BB
2 loci
aa
Aa
Bb
BB
AA
bb
2 loci
aa
Aa
BB
Bb
AA
bb
2 loci
aa
Aa
BB
Bb
AA
bb
Au fait, cela donne aussi le
nombre de tests indépendants
Effet possible sur une analyse cas-contrôle
AF = 0.25
AF = 0.50
AF = 0.35
AF = 0.40
Balding Nature Review Genetics 7:761
GWAS results: Manhattan plot
312 patients
55
Contrôle Qualité
• % de génotypes manquants/individu
– Classiquement:
• Individus génotypés à 95% au moins
• SNPs génotypés à 95% au moins
• % deséquilibre de Hardy Weinberg
• Choix arbitraire (p > 10 – 5)
• Identification d’apparentement
• Identité par Etat moyenne sur tout le génome
Les meta-analyses
Pour la puissance
Meta-Analyse des études d’association génome entier
Manolio TA. N Engl J Med 2010;363:166-176.
Meta-analyse
Combinaison, par SNP, des résultats de plusieurs études :
Sij= -1 ou +1
Direction de l’effet
Poids de chaque étude
Objectif : PUISSANCE
Exemple d’étude
Diabète de Type 2
Analyse d’association génome entier pour le
diabète de Type 2
Twelve Type-2 Diabetes Loci
Identified Through Large Scale
Association Analysis
Benjamin F. Voight, Laura J. Scott, Valgerdur Steinthorsdottir, Andrew
P. Morris, and Christian Dina on behalf of the DIAGRAM Consortium
Slides from B. Voight
The DIAbetes Genome-wide Replication And Metaanalysis [DIAGRAM] Consortium
c
UK
KORA
FUSION (US/Finland)
DGI (US/Sweden/Finland)
DeCODE
Rotterdam
DGDG (France/Canada)
EUROSPAN
Gènes ou loci associés
Sladek et al, Nature 2007
Frayling et al, Science 2007
Dina et et al. Nature Genetics 2007
Zeggini et al, Science 2007
DGI, Science 2007
Scott et al, Science 2007
WTCCC, Nature 2007
Steinthorsdottir, Nature Genetics 2007
Sandhu et al, Nature Genetics 2007
Zeggini et al, Nature Genetics 2008
Yasuda et al, Nature Genetics 2008
Unoki et al, Nature Genetics 2008
Rung et al, Nature Genetics 2009
Kong et al, Nature, 2009
Dupuis et al, Nature Genetics 2010
Saxena et al, Nature Genetics 2010
Qi et al, 2010
FTO
MTNR1B
SLC30A8
KCNQ1
HHEX/IDE
TSPAN8
Études Association Génome Entier D2T
CDKAL1
ADAMTS9
EAGE traits quantitatifs
IGF2BP2
NOTCH2
pré-EAGE – gènes candidats
CDKN2A
CAMK1D
WFS1
THADA
Études Gènes candidats
PPARG
2000
KCNJ11
TCF7L2
HNF1B
JAZF1
2003
2006
2007
2008
IRS1
2009/2010
Exclusion des loci déjà connus
8
Tous les signaux
Observed (-logP)
Observed (-logP)
50
Stage 1
Expected (-logP)
Expected (-logP)
Stage 2
2,255,857 SNPs
24 SNPs
Independants
P < 1 x 10-5
Stage 2
replication
Combined Analysis (Stages One + Two) Identified 12 New
Loci
Chr
f(Risk
Allele)
Nearby
Gene
Stage One
OR (95%CI)
Stage Two
p- value
up to 8,130 cases
and 38,987 controls
p- value
Stage One + Two
OR (95%CI)
p- value
up to 35,240
and 62,163
up to 43,370 cases
and 101,150 controls
Previously Known
2
11
0.64
0.28
IRS1
MTNR1B
1.12 (1.07-1.17)
1.12 (1.07-1.17)
8.7 x 10-7
1.0 x 10-6
2.2 x 10-15
4.4 x 10-10
1.11 (1.08-1.13) 5.4 x 10-20
1.09 (1.06-1.11) 7.8 x 10-15
Novel T2D-susceptibility loci
11
0.88
CENTD2
1.13 (1.07-1.19)
7.0 x 10-6
3.2 x 10-18
1.14 (1.11-1.17) 1.4 x 10-22
2
0.46
BCL11A
1.09 (1.05-1.13)
8.1 x 10-6
6.2 x 10-11
1.08 (1.06-1.10) 2.9 x 10-15
11
0.52
KCNQ1
1.11 (1.06-1.16)
6.4 x 10-6
3.2 x 10-9
1.08 (1.06-1.10) 2.8 x 10-13
5
0.26
ZBED3
1.16 (1.10-1.23)
4.2 x 10-8
2.7 x 10-7
1.08 (1.06-1.11) 2.8 x 10-12
7
15
0.55
0.22
KLF14
PRC1
1.10 (1.06-1.15)
1.10 (1.06-1.15)
1.8 x 10-6
8.2 x 10-6
6.4 x 10-6
1.6 x 10-6
1.07 (1.05-1.10) 2.2 x 10-10
1.07 (1.05-1.09) 2.4 x 10-10
8
0.48
TP53INP1
1.10 (1.06-1.15)
1.2 x 10-6
2.2 x 10-5
1.06 (1.04-1.09) 9.9 x 10-10
15
0.60
ZFAND6
1.11 (1.06-1.16)
5.1 x 10-6
1.2 x 10-5
1.06 (1.04-1.08) 2.4 x 10-9
12
0.10
HMGA2
1.20 (1.12-1.29)
1.7 x 10-7
1.1 x 10-4
1.10 (1.07-1.14) 3.6 x 10-9
12
0.85
HNF1A
1.14 (1.08-1.19)
4.6 x 10-7
4.6 x 10-4
1.07 (1.05-1.10) 2.4 x 10-8
9
0.93
CHCHD9
1.20 (1.11-1.29)
1.5 x 10-6
2.4 x 10-4
1.11 (1.07-1.15) 2.8 x 10-8
X
0.79
DUSP9**
1.12 (1.07-1.17)
2.3 x 10-6
3.5 x 10-6
1.14 (1.09-1.18) 9.5 x 10-11
39 loci de susceptibilité
confirmés pour leT2D
Sladek et al, Nature 2007
Frayling et al, Science 2007
Zeggini et al, Science 2007
DGI, Science 2007
Scott et al, Science 2007
WTCCC, Nature 2007
Steinthorsdottir, Nature Genetics 2007
Sandhu et al, Nature Genetics 2007
Zeggini et al, Nature Genetics 2008
Yasuda et al, Nature Genetics 2008
Unoki et al, Nature Genetics 2008
Rung et al, Nature Genetics 2009
Kong et al, Nature, 2009
Dupuis et al, Nature Genetics 2010
Saxena et al, Nature Genetics 2010
Qi et al, 2010
ADCY5
Les loci sont nommés en fonction des gènes les plus
proches ou les gènes candidats.
GCK
GCKR
PROX1
FTO
MTNR1B
TP53INP1
DGKB
SLC30A8
KCNQ1
KLF14
HCCA2
Etudes de gènes candidats
HHEX/IDE
TSPAN8
ZBED3
RBMS1
GWAS du T2D
CDKAL1
ADAMTS9
BCL11A
DUSP9
GWAS de phénotypes liés
IGF2BP2
NOTCH2
CHCHD9 KCNQ1 [2]
Association à grande échelle
CDKN2A
CAMK1D
HNF1A
ZFAND6
WFS1
THADA
HMGA2
PRC1
IRS1
CENTD2
Voight et al, Accepted in Principal, Nature Genetics 2010
PPARG
KCNJ11
TCF7L2
HNF1B
JAZF1
2000
2003
2006
2007
2008
2009/2010
Encore des association (Diabète de Type 2)
Résultats – fine mapping
Gènes et physiologie
Résistant
P > 0.2
P > 0.05
P > 0.01
P > 0.001
P>0
homeostatic model assessment
Sensible
Réduction de la fonction
des cellules Β
Fonction améliorée
Fonction réduite
37,000 individus Non-diabétiques Glycémie à Jeun <7mg
Effets sur le fonction des cellules Beta
Gènes et physiologie
Résistant
P > 0.2
P > 0.05
P > 0.01
P > 0.001
P>0
P > 0.2
P > 0.05
P > 0.01
P > 0.001
P>0
Résistance à
l’Insuline
Sensible
Réduction de la fonction
des cellules Β
Fonction améliorée
Fonction réduite
Fonction améliorée
Fonction réduite
37,000 individus Non-diabétiques Glycémie à Jeun <7mg
Peu d’Effets sur la fonction d’Insulino - Résistance
Effet en population
En population
Héritabilité
λS
~30%
3
39 variants
~ 5%
1.16
Variants associé : Faible proportion de la composante génétique
Tous variants : 10 % de la composante génétique (héritabilité)
METABOCHIP ~ 200 k SNPs
Puce à prix abordable = puissance augmentée
15,000
139,879
Observed (-logP)
66,117
Expected (-logP)
Dernière phase
Nouveaux loci - GWAs
Locus
Lead SNP
Chr
Position
(Build 36 bp)
Combined metaanalysis p-value
Novel susceptibility loci achieving genome-wide significance in combined meta-analysis
ZMIZ1
rs12571751
10
80 612 637
1,0E-10
ANK1
rs516946
8
41 638 405
2,5E-10
KLHDC5
rs10842994
12
27 856 417
6,1E-10
TLE1
rs2796441
9
83 498 768
5,4E-09
ANKRD55
rs459193
5
55 842 508
6,0E-09
CILP2
rs10401969
19
19 268 718
7,0E-09
MC4R
rs12970134
18
56 035 730
1,2E-08
BCAR1
rs7202877
16
73 804 746
3,5E-08
Total
Combined total
Stage 2 risk allele
frequency
Stage 2
OR (95% CI)
0,52
0,76
0,80
0,57
0,70
0,08
0,27
0,89
1.07 (1.04-1.10)
1.08 (1.05-1.12)
1.10 (1.07-1.14)
1.07 (1.04-1.10)
1.10 (1.06-1.13)
1.14 (1.08-1.20)
1.08 (1.05-1.11)
1.10 (1.05-1.15)
Sibling
Explained liability-scale
relative riska
variance (%)b
1,001
1,001
1,001
1,001
1,002
1,001
1,001
1,001
1,010
0,066
0,059
0,079
0,064
0,106
0,082
0,070
0,047
0,574
1,104
5,730
Proportion de la variance très petite
Estimation des vraisPatients
positifs
On détermine l’allèle à risque en phase 1 : A / G
Témoins
A/A
A/G
488 nouveaux loci ([456-521]
G/G
Effet allèle G
Conclusion - temporaire
• Analyse d’association permet d’identifier des variants
associés.
• Fait ses preuves dans le cas de pathologies complexes.
• Mais ne pointent pas sur un gène
• Expliquent une toute petite partie de la variance
• Effets individuels faibles
Maher, B. (2008). Personal genomes: The case of the missing heritability. Nature,
456(7218), 18-21.
Héritabilité perdue
180 000
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., et al.
(2009). Finding the missing heritability of complex diseases. Nature, 461(7265), 747-753.
Méthodes multi-SNPs
Modèles polygéniques
• Effet simultané de variants à effet faible?
• Création d’un score:
m
∑ ln ( ORi )× SNPij
x j=
où
i=1
m
– ln(ORi ) = OR pour le SNPi dans l’échantillon initial
– SNPij = # d’alleles (0,1,2) pour SNPi, individu j dans
l’échantillon de validation.
– Réalisé sur un grand nombre de SNPs (m)
• xj est-il associé à la maladie ?
ISC / Purcell et al. Nature 2009
Application of Model
Purcell / ISC et al. Nature 2009
Héritabilité manquante
… moins que prévu
Ou est l’héritabilité?
Visccher, AJHG 2011
Variants rares
Conclusion générale
• Résultats décevants quant à la force
individuelle des variants
• Héritabilité manquante – mais moins que
prévu
• Utilité du modèle polygénique ?
• Il reste de la place pour des variants rares
Les variants rares
Est-ce que je peux faire un test ?
500 autres haplotypes ….
Les variants rares
1/0
0/1
2/02/02/0
Les variants rares
6/1
La mort subite cardiaque
• Mort brutale dans l’heure suivant l’apparition des premiers symptômes
• 40 000 décès par an en France
• 3-10% sont récupérées
Infarctus du myocarde
Cardiomyopathies
Cœur sain
∼ 80 %
∼ 10 %
∼ 10 %
Arythmies cardiaques
Facteurs génétiques et/ou environnementaux
Le syndrome de Brugada
• Sur-élévation du segment ST dans les
dérivations précordiales droites → V1 V2 V3
• Bloc de branche droit
• 1 individu sur 2000
• Autosomique dominante
• Pénétrance incomplète et
expressivité variable
Modèle plus complexe ?
• Traitement : défibrillateur implantable
Génétique du syndrome de Brugada
• SCN5A (>300 mutations)
- 15-25 % des patients avec un syndrome de Brugada
• 9 autres gènes décrits: implication mineure
GPD1L
SCN5A
CACNA1C
CACNB2 KCNE3
SCN3b
SCN1b
Pas de diagnostic
moléculaire
pour 70% des patients
résultats EAGE : Manhattan plot
312 patients/ 1115 témoins
P= 3.56x10-33
P= 3.17x10-11
P= 3.97x10-09
Locus SCN10A
Chromosome_3
P=3.56x10-33
SCN5A
SCN10A
Locus SCN10A
Chromosome_3
P=3.56x10-33
SCN5A
SCN10A
Site fixation TBX5/TBX3
van den Boogaard JCI 2012
Locus SCN10A
Chromosome_3
P=3.56x10-33
SCN5A
SCN10A
Site fixation TBX5/TBX3
van den Boogaard JCI 2012
Locus SCN10A
Chromosome_3
P=3.56x10-33
SCN5A
SCN10A
Site fixation TBX5/TBX3
van den Boogaard JCI 2012
Enhancer SCN5A et SCN10A
Faible expression cardiaque de SCN10A
Hypothèse physiopathologique =
- modulation du niveau d’expression du canal sodique
Locus HEY2
HEY2
Hey2 and BrS ?
Hey2: bHLH transcriptional repressor expressed
in the ventricular myocardium during heart development
** Hey2 -/- mice => congenital heart defects **
p<0.05
Higher conduction velocity in the RVOT, a
common site of origin of ventricular
arrhythmias in BrS patients
Increase in maximal upstroke velocity and
AP amplitude, indicating increased sodium
channel availability
Electrical cardiac activity is modified in Hey2 +/- mice,
in the absence of heart structural anomalies
GWAS & replication
SNP
rs11708996
rs10428132
rs9388451
Locus
chr3:38633923
chr3:38777554
chr6:126090377
Gene(s)
SCN5A
SCN10A
HEY2 / NCOA7
GWAS
(312 / 1,115; Europe)
RAF
P-value
0.23 / 0.15
2.70 x 10-5
0.69 / 0.41
6.79 x 10-26
0.65 / 0.50
8.85 x 10-10
Replication 1
(594 / 806; Europe)
RAF
P-value
0.23 / 0.15
1,10 x 10-7
0.65 / 0.42
1.66 x 10-30
0.59 / 0.50
2.1 x 10-5
Replication 2
(208 / 1,016; Japan)
RAF
P-value
0.09 / 0.04
5.63 x 10-5
0.44 / 0.23
1.56 x 10-16
0.72 / 0.61
6.70 x 10-6
Meta-analysis
P-value
1.02.10-14
1.01 x 10-68
5.14 x 10-17
(1,114 / 2937)
OR
1.73
[1.51 - 1.99]
2.55
[2.30 - 2.84]
1,58
[1.42 - 1.75]
Patients with symptoms
P-value
6.88 x 10-8
1.15 x 10-39
5.01 x 10-8
(416 / 2,937)
OR
1.73
[1.42 - 2.12]
2.84
[2.43 - 3.32]
1.55
[1.32 - 1.81]
Effet cumulés aux trois loci
30
21.48
20
10
0
Individuals (%)
Europe
40
0 1 2 3 4 5 6
Number of risk alleles
Japan
Odds ratio (log scale)
Individuals (%)
40
10
8.33
4.04
30
1.87
20
10
1
0
control group
0 1 2 3 4 5 6
Number of risk alleles
BrS case group
0-1 2
3
4
5-6
Number of risk alleles
Pathologie Rare – Variant Fréquent
Nouveau Paradigme
Plusieurs variants fréquents en population augmentent le risque
Risque relatif très haut :
- individuel (1.7 à 3)
Risque en population très fort (pour si peu de loci) :
- λS = 1.4
- Héritabilité = 15 %
Pathologie Fréquente
Variant Fréquent
…. est vérifiée ….
.. pour un pathologie rare
Les variants rares
Est-ce que je peux faire un test ?
500 autres haplotypes ….
Les variants rares
1/0
0/1
2/02/02/0
Les variants rares
6/1
Analyse d’epistasie
k
Yi = α + ∑ β r X ir +
r =1
∑ β rs X ir X is + ε i
1≤ r < s ≤ k
Effet de chaque locus
Interaction 2 à 2
Toutes les paires : nombre de tests énorme
500,000 SNPs donne 124,999,750,000 paires
Réduction en choisissant des SNPs non redondants
Efficacité dépend du vrai modèle
Nombre de tests pas si grave (Ewans et al. 2007).
Fonction - GRAIL
Les gènes sont ordonnés en fonction de leur
similarité au gène 1
Occurrence
des mots dans
les références
Pour chaque SNP, définir la région et les gènes inclus
Mot
Mot
Mot
Gènes classés par
similarité
Région 1 : 3 gènes
Pour chaque gène on construit un score en fonction
du nombre de gènes similaires
Gène A
similaire
Chaque région est représentée par son « meilleur »
SNP
Correction pour test multiple
http://www.broadinstitute.org/mpg/grail/
Rarement observées
Introduction de la fonction
GRAIL
Les gènes sont ordonnés en fonction de leur
similarité au gène 1
Occurrence
des mots dans
les références
Pour chaque SNP, définir la région et les gènes inclus
Mot
Mot
Mot
Gènes classés par
similarité
Région 1 : 3 gènes
Pour chaque gène on construit un score en fonction
du nombre de gènes similaires
Gène A
similaire
Chaque région est représentée par son « meilleur »
SNP
Correction pour test multiple
Le CD / CD contre-attaque
Diabète de Type 2
Nouveaux loci - GWAs
Locus
Lead SNP
Chr
Position
(Build 36 bp)
Combined metaanalysis p-value
Novel susceptibility loci achieving genome-wide significance in combined meta-analysis
ZMIZ1
rs12571751
10
80 612 637
1,0E-10
ANK1
rs516946
8
41 638 405
2,5E-10
KLHDC5
rs10842994
12
27 856 417
6,1E-10
TLE1
rs2796441
9
83 498 768
5,4E-09
ANKRD55
rs459193
5
55 842 508
6,0E-09
CILP2
rs10401969
19
19 268 718
7,0E-09
MC4R
rs12970134
18
56 035 730
1,2E-08
BCAR1
rs7202877
16
73 804 746
3,5E-08
Total
Combined total
Stage 2 risk allele
frequency
Stage 2
OR (95% CI)
0,52
0,76
0,80
0,57
0,70
0,08
0,27
0,89
1.07 (1.04-1.10)
1.08 (1.05-1.12)
1.10 (1.07-1.14)
1.07 (1.04-1.10)
1.10 (1.06-1.13)
1.14 (1.08-1.20)
1.08 (1.05-1.11)
1.10 (1.05-1.15)
Sibling
Explained liability-scale
relative riska
variance (%)b
1,001
1,001
1,001
1,001
1,002
1,001
1,001
1,001
1,010
0,066
0,059
0,079
0,064
0,106
0,082
0,070
0,047
0,574
1,104
5,730
Proportion de la variance très petite
Estimation des vrais positifs
488 nouveaux loci ([456-521]
Résultats – fine mapping
GWAs et gènes
• Les SNPs associés sont souvent dans des zones
inter-géniques.
• Difficulté d’identifier un gène précis.
• Besoin d’analyses supplémentaires
Et la taille ?
Figure 1. Description of Meta-Analysis Gene-set Enrichment of variaNT Associations (MAGENTA) method.
Segrè AV, Groop L, Mootha VK, Daly MJ, et al. (2010) Common Inherited Variation in Mitochondrial Genes Is Not Enriched
for Associations with Type 2 Diabetes or Related Glycemic Traits. PLoS Genet 6(8): e1001058.
doi:10.1371/journal.pgen.1001058
http://www.plosgenetics.org/article/info:doi/10.1371/journal.pgen.1001058
How Successful have GWAS Been?
Thousands of associations have been identified for
many different traits
Each locus explains a very small proportion of the
variation in complex traits (typically <1%)
Overall percentage of variation explained is
substantially less than trait heritability, even for casecontrol diseases: “Missing heritability”
Manolio et al. 2009. Nature 461:
The mixed model that Visccher uses is equivalent to ridge regression on
the genome wide SNPs (so just an ordinary linear regression including all
SNPs with an additive allele coding, but with a Gaussian penalty term to
solve the problem of overfitting due to so many SNPs). Then heritability is
just the usual R^2 for such a model. There's no reason you have to use
this particular model - e.g. why choose a Gaussian penalty? You can
calculate the R^2 for any regression model on the genome-wide SNPs.
The only reason for preferring the model Visscher uses is because the
REML software is set up to do the estimation allowing for the Gaussian
penalty. So it is good because of the sophisticated REML estimation, but
mediocre because it's a simplistic model: every SNP is assumed to have
the same effects size, no allowing for LD or pathways, genic regions etc,
and Gaussian is not a good penalty function.
Figure 1. Graphical illustration of the framework of gene-based single-marker test and its generalization to a
gene-based gene–gene interaction (GGG) test as proposed in this paper.
Ma L, Clark AG, Keinan A (2013) Gene-Based Testing of Interactions in Association Studies of Quantitative Traits. PLoS
Genet 9(2): e1003321. doi:10.1371/journal.pgen.1003321
http://www.plosgenetics.org/article/info:doi/10.1371/journal.pgen.1003321
Les variants rares
Est-ce que je peux faire un test ?
500 autres haplotypes ….
Les variants rares
1/0
0/1
2/02/02/0
Les variants rares
6/1