Population Genetics - Statistical Genetics, Kyoto University

Statistical Genetics
2 Population Genetics
Graduate School of Medicine
Kyoto University
2008/09/17-25
IMS-UT
Ryo Yamada
集団遺伝学 Population genetics
•
•
•
•
•
•
•
•
•
•
•
•
•
集団・有効集団サイズ Effective population size
中立仮説 Neutral hypothesis
Infinite site model
Genetic diversity
Founder effect
Bottleneck
Out-of-Africa
(Natural) selection
HWE (Hardy-Weinberg Equilibrium)
LD/LE (Linkage Disequilibrium/Equilibrium)
ARG・Coalescent
構造化 (Population structure)
Fixation,inbreeding coefficient,Fst
• Mutation
• Random genetic drift
• Selection
変異 Mutation
• 体細胞変異と生殖細胞変異
• Somatic and germline mutation
Mutation
• p(n+1)=(1-u)p(n)+v(1-p(n))
• p(n)=v/(u+v)+(p(0)-v/(u+v))(1-u0v)n
u
A
a
v
Drift
• P(Y(n+1)=j | Y(n) =i)=2NCj pj(1-p) (2N-j)
• 2N: No. chromosomes
• Y(t): No. chromosomes
of an allele “A” at the t-th
generation
• P: Probability
• 2NCj =(2N)!/(j!(2N-j)!)
遺伝的浮動 Genetic drift
• N人の集団 Pop size=N
• 2N本の染色体 No.
chromosomes = 2N
• 1本に変異が存在
– A new mutation in one
chromosome
• 次世代に残るか? How often
does the mutation persist in
thepopulation?
– 次世代もN人
– すべての染色体が同確率で残
すとすると
• (1-1/(2N))^(2N)→1/e
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
20
25
30
35
40
45
0.2
0.7
遺伝的浮動 drift
0.6
アレル頻度
0.5
0.4
0.3
0.2
0.1
0
0.5
1
7
13
19
25
31
37
43
49 55
世代
61
67
73 79
85
91
97
1
0.9
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1
7
13
19
25
31
37
43
49 55
世代
61
67
73 79
85
91
0.01
97
0.25
0.2
アレル頻度
アレル頻度
0.8
0.15
0.1
0.05
0
1
7
13 19
25 31
37 43
49 55
世代
61
67
73
79
85 91
97
Selection
• p(n+1)=kp(n)(p(n)wAA+q(n)wAa)
• q(n+1)=kq(n)(p(n)wAa+q(n)waa)
• p(t): Frequency of “A” allele at the t-th
generation
• q(t): Frequency of “a” generation at the t-th
generation
• wAA: Fitness of diplotype “AA”
Hardy-Weinberg Equilibrium
Wright-Fisher model
•
•
•
•
Finite population size
Random mating
HWE
Fitness
– For neutral polymorphisms, wAA=wAa=waa
Fixation
• One of two alleles tends to sweep out the
entire population, when the locus gets
“fixed”.
• One locus in two populations may be fixed
with the opposite alleles.
– The mixture of two populations that are on the
way to fixation in the opposite direction, will
produce HWD in data.
Infinite allele model
• Any mutation will produce “brand-new”
allele in the population under this model.
Coalescent theory
• Ancestral
recombination
graph
種間系統樹
Phylogeny
種内伝達関係
Intra-species
haplotype graph
Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT THEORY AND
THE ANALYSIS OF GENETIC POLYMORPHISMS
Nature Reviews Genetics 3, 380-390 (2002);
doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT
THEORY AND THE ANALYSIS OF
GENETIC POLYMORPHISMS
交配が行われている違いは「種内」の多様性
交配が行われえない違いは「種間」の多様性
家系図 pedigree
現代個体のすべてにとってDNA配列の一部を伝達し
た祖になっている染色体が存在する
Chromosomes have the common ancestor in the
past.
From the following article:
Human evolution: Pedigrees for all humanity
Jotun Hein
Nature 431, 518-519(30 September 2004)
doi:10.1038/431518a
家系図は個体単位
Pedigree:individual
遺伝は染色体単位
Chromosomes are shared.
Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS
組換えは起きたり起きなかったり
Recombination
組換え体(2人
親:2人親モ
ザイク)
DNAの親子関係は、
1人親か2人親か
A chromosome has
one or two parent
chromosomes
染色体全体で
考えると、親子
関係は複雑
(複数の祖先
がいる)だが、
部分的には、
単純(祖先は1
つ)
組換え体
Partial parentoffspring relation
among chromosomes
染色体5’端
000
染色体中央部
000
111
111
000 001 001 011
111
染色体3’端
000
111
000 001 001 011 111 000 001 001 011 111
塩基配列DNA(String
of SNPs)
時間経過
time
集団
population
遺伝的多様性
Genetic heterogeneity
~集団遺伝学 population genetics
~
• 変異 mutation
• 遺伝的浮動 genetic drift
• 交叉・組み換え cross-over recombination
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
1
0
0
1
0
0
1
0
0
0
0
0
0
人数が増えると、多型箇所が増える
Bigger population, more polymorphic
sites
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
1
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
多民族で比較するとさらに個人差の箇所は増える→~100塩基に一箇所・・・~3000万箇所
Different ethnic groups, polymorphic sites increase
~30,000,000/genome
0
0
0
0
0
1
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
1
1
0
0
0
0
1
0
0
0
0
0
0
1
0
1
0
0
1
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
1
1
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
1
1
0
0
0
1
0
0
0
0
1
1
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
1
1
0
1
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
0
1
1
0
0
1
1
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
1
1
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
1
1
0
1
0
0
0
0
0
0
0
0
0
0
Linkage equilibrium
Linkage disequilibrium
過去
現在
連鎖不平衡ブロックは時間とともに小さくなる
同じ範囲を調べるのにたくさんのマーカーが必要
になる
原因遺伝子のある場所がより正確になる
連鎖不平衡とは
「連鎖」が
「平衡」に
達していない
いつかは「昔」からの連鎖は崩れて、「平衡」に
達する
連鎖不平衡
• SNPの発生・消長
– 変異
– 遺伝的浮動(ドリフト)
– 組み換え
SNPの誕生と遺伝的浮動
Drift
Drift-out
変異
Drift-out
線の太さは、頻度
0.2
0.7
0.6
アレル頻度
0.5
0.4
0.3
0.2
0.1
0
0.5
1
7
13
19
25
31
37
43
49 55
世代
61
67
73 79
85
91
97
1
0.9
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1
7
13
19
25
31
37
43
49 55
世代
61
67
73 79
85
91
0.01
97
0.25
0.2
アレル頻度
アレル頻度
0.8
0.15
0.1
0.05
0
1
7
13 19
25 31
37 43
49 55
世代
61
67
73
79
85 91
97
SNPペアの発生とドリフト
2nd mutation
D’=1(3種類のハプロタイプ)
No pair
D’=1(3種類のハプロタイプ)
No pair
D’=1
r^2=1(2種類のハプロタイプ)
組み換えによる4種類のハプロタイプの発生
4種類のハプロタイプ
D’=1
Recombination
D’<1
D’<1
D’=1
D’=1
Polyphyletic mutation
D’<1
No way to discriminate
recombination and polyphyletic
mutation as a cause of D’<1.
D’=1
Recombination
Drift
Status IV
4ハプロタイプ
D’<1,r^2<1
Nh : Number of haplotype alleles
Monophyletic
mutation
Birth of SNP pairs
Ns : Number of polymorphic
sites
Status III
3ハプロタイプ
D’=1,r^2<1
Status II-A
SNP1個
Nh=2,Ns=1
Status II-B
2ハプロタイプ
D’=1,r^2=1
Status I
SNPなし
Nh=1,Ns=0
Death of SNP pairs
連鎖平衡と連鎖不平衡
2SNPの場合~ペアワイズ連鎖不平衡
• 連鎖平衡: A/a, B/b
–
–
–
–
P(AB)=P(A)xP(B)
P(Ab)=P(A)xP(b)
P(aB)=P(a)xP(B)
P(ab)=P(a)xP(b)
• 連鎖平衡: A/a, B/b
– 4ハプロタイプの頻度が連鎖平衡からずれているとき
– その程度
– 4ハプロタイプのうち3タイプしかない、2タイプしかない場
合を含む
LD評価の基礎はペアワイズ
ペアワイズの不十分性
3SNPsの場合
• 例1
– ABC
– ABc
– AbC
– Abc
– aBC
– aBc
– abC
– abc
• 例2
0.125
0.125
0.125
0.125
0.125
0.125
0.125
0.125
– ABC
– ABc
– AbC
– Abc
– aBC
– aBc
– abC
– abc
0.25
0
0
0.25
0
0.25
0.25
0
すべてのSNPペアは連鎖平衡
AB
BC
– AB
– Ab
– aB
– ab
AC
– AC
– Ac
– aC
– ac
0.25
0.25
0.25
0.25 – BC
– Bc
– bC
– bc
0.25
0.25
0.25
0.25
0.25
0.25
0.25
0.25
• 例1
–
–
–
–
–
–
–
–
ABC
ABc
AbC
Abc
aBC
aBc
abC
abc
• 例2
0.125
0.125
0.125
0.125
0.125
0.125
0.125
0.125
–
–
–
–
–
–
–
–
ABC
ABc
AbC
Abc
aBC
aBc
abC
abc
0.25
0
0
0.25
0
0.25
0.25
0
増えた情報は?
• 3SNPs
– ペア数 3
– トリオ数 1・・・この部分を表示したか否かの差
AC
AB
BC
ABC
N SNPsに一般化
•
•
•
•
SNP数 N
ハプロタイプ数 2^N
複合ジェノタイプ数 3^N
SNP組合せ数
– N個の要素からなる集合の部分集合
•
•
•
•
•
•
•
0SNPの選び方 NC0 =1
1SNPの数
NC1 =N
2SNP組合せ数 NC2 =N(N-1)/2
3SNP組合せ数 NC3
…
N-1個組合せ数 NCN-1
N個組合せ数 NCN=1
– 組合せ数の総和は2^N
べき集合 power set
{φ}
{1}
{1,2}
{1,3}
{1,2,3}
{2}
{3}
{4}
{2,3}
{1,4}
{2,4}
{1,2,4}
{1,3,4}
{1,2,3,4}
{2,3,4}
{3,4}
組合せ数のべき集合表現
n=2
n=1
2=2^1
n=5
32=2^5
n=3
n=4
8=2^2
4=2^2
16=2^4
n=6
64=2^6
n=7
128=2^7
組合せ数のグラフ表現
組合せ数の多面体表現
n=1
n=2
n=3
n=4
『点』
『線分』
『正三角形』
『正四面体』
頂点 1
頂点 2
頂点 3
頂点 4
2^1-1=1
辺 1
辺 3
辺 6
2^2-1=2+1=3
面 1
面 4
2^3-1=3+3+1=7
内部空間 1
2^4-1=4+6+4+1=15
• 連鎖不平衡は 2^N-(N+1) 通りのSNP組合せによっ
て総合的に評価される
• ペアワイズLDは、そのうちの N(N-1)/2 の組合せに
特に着目している
– べき集合表現でいうところの上から2段目のみ
– 多面体表現でいうところの辺のみ
SNPの組合せの数も膨大だが、組合せにだけ着目す
ればよいのだろうか?
連鎖不平衡
•
•
連鎖平衡からの逸脱状態
連鎖平衡
– 複合アレルの頻度が、構成アレル頻度の乗算で推定できる状態(構成アレル間が独
立)
•
SNPペアの場合
– 2SNPが作る4ハプロタイプの頻度と2個のSNPのアレル頻度との関係
•
SNPトリオの場合
– 3SNPが作る8ハプロタイプの頻度と3個のSNPのアレル頻度との関係??
– 3SNPを3個のSNPに分割してやり、その3SNPのアレル頻度との独立性として考える
ことが可能
– 3SNPを1組のSNPペアと、1個のSNPとに2分してやり、そのSNPペアの4ハプロタイ
プ頻度と1SNPの2アレル頻度との独立性について考えることが可能
→SNPの組合せの他に、SNP組合せの分解パターンごとに平衡からのずれ、「不平衡」
の程度が定められる。
ゲノム研究の時系列
• ヒトゲノム配列決定プロジェクト
– 1983ゲノムプロジェクト開始
– 1999 First Human Chromosome (ch22) Completely
Sequenced!
– February 12, 2001 : Publication of Initial Working
Draft Sequence
• ヒトゲノム多様性解析プロジェクト HapMap
– 2002: International Consortium Launches Genetic
Variation Mapping Project
– 2004: International HapMap Consortium Widens Data
Access
Population subdivision
• Fixation index f
– f=1-Ho/He
• Ho: Observed heterozygoutes
• He: Expected heetrozygoutes in HWE
History of the human species
• Out-of-Africa
• Bottlenecks
– Effective population size
• Genetic distance among populations