Statistical Genetics 2 Population Genetics Graduate School of Medicine Kyoto University 2008/09/17-25 IMS-UT Ryo Yamada 集団遺伝学 Population genetics • • • • • • • • • • • • • 集団・有効集団サイズ Effective population size 中立仮説 Neutral hypothesis Infinite site model Genetic diversity Founder effect Bottleneck Out-of-Africa (Natural) selection HWE (Hardy-Weinberg Equilibrium) LD/LE (Linkage Disequilibrium/Equilibrium) ARG・Coalescent 構造化 (Population structure) Fixation,inbreeding coefficient,Fst • Mutation • Random genetic drift • Selection 変異 Mutation • 体細胞変異と生殖細胞変異 • Somatic and germline mutation Mutation • p(n+1)=(1-u)p(n)+v(1-p(n)) • p(n)=v/(u+v)+(p(0)-v/(u+v))(1-u0v)n u A a v Drift • P(Y(n+1)=j | Y(n) =i)=2NCj pj(1-p) (2N-j) • 2N: No. chromosomes • Y(t): No. chromosomes of an allele “A” at the t-th generation • P: Probability • 2NCj =(2N)!/(j!(2N-j)!) 遺伝的浮動 Genetic drift • N人の集団 Pop size=N • 2N本の染色体 No. chromosomes = 2N • 1本に変異が存在 – A new mutation in one chromosome • 次世代に残るか? How often does the mutation persist in thepopulation? – 次世代もN人 – すべての染色体が同確率で残 すとすると • (1-1/(2N))^(2N)→1/e 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 40 45 0.2 0.7 遺伝的浮動 drift 0.6 アレル頻度 0.5 0.4 0.3 0.2 0.1 0 0.5 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 97 1 0.9 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 0.01 97 0.25 0.2 アレル頻度 アレル頻度 0.8 0.15 0.1 0.05 0 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 97 Selection • p(n+1)=kp(n)(p(n)wAA+q(n)wAa) • q(n+1)=kq(n)(p(n)wAa+q(n)waa) • p(t): Frequency of “A” allele at the t-th generation • q(t): Frequency of “a” generation at the t-th generation • wAA: Fitness of diplotype “AA” Hardy-Weinberg Equilibrium Wright-Fisher model • • • • Finite population size Random mating HWE Fitness – For neutral polymorphisms, wAA=wAa=waa Fixation • One of two alleles tends to sweep out the entire population, when the locus gets “fixed”. • One locus in two populations may be fixed with the opposite alleles. – The mixture of two populations that are on the way to fixation in the opposite direction, will produce HWD in data. Infinite allele model • Any mutation will produce “brand-new” allele in the population under this model. Coalescent theory • Ancestral recombination graph 種間系統樹 Phylogeny 種内伝達関係 Intra-species haplotype graph Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795 GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795 GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS 交配が行われている違いは「種内」の多様性 交配が行われえない違いは「種間」の多様性 家系図 pedigree 現代個体のすべてにとってDNA配列の一部を伝達し た祖になっている染色体が存在する Chromosomes have the common ancestor in the past. From the following article: Human evolution: Pedigrees for all humanity Jotun Hein Nature 431, 518-519(30 September 2004) doi:10.1038/431518a 家系図は個体単位 Pedigree:individual 遺伝は染色体単位 Chromosomes are shared. Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795 GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS 組換えは起きたり起きなかったり Recombination 組換え体(2人 親:2人親モ ザイク) DNAの親子関係は、 1人親か2人親か A chromosome has one or two parent chromosomes 染色体全体で 考えると、親子 関係は複雑 (複数の祖先 がいる)だが、 部分的には、 単純(祖先は1 つ) 組換え体 Partial parentoffspring relation among chromosomes 染色体5’端 000 染色体中央部 000 111 111 000 001 001 011 111 染色体3’端 000 111 000 001 001 011 111 000 001 001 011 111 塩基配列DNA(String of SNPs) 時間経過 time 集団 population 遺伝的多様性 Genetic heterogeneity ~集団遺伝学 population genetics ~ • 変異 mutation • 遺伝的浮動 genetic drift • 交叉・組み換え cross-over recombination 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 0 人数が増えると、多型箇所が増える Bigger population, more polymorphic sites 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 多民族で比較するとさらに個人差の箇所は増える→~100塩基に一箇所・・・~3000万箇所 Different ethnic groups, polymorphic sites increase ~30,000,000/genome 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 Linkage equilibrium Linkage disequilibrium 過去 現在 連鎖不平衡ブロックは時間とともに小さくなる 同じ範囲を調べるのにたくさんのマーカーが必要 になる 原因遺伝子のある場所がより正確になる 連鎖不平衡とは 「連鎖」が 「平衡」に 達していない いつかは「昔」からの連鎖は崩れて、「平衡」に 達する 連鎖不平衡 • SNPの発生・消長 – 変異 – 遺伝的浮動(ドリフト) – 組み換え SNPの誕生と遺伝的浮動 Drift Drift-out 変異 Drift-out 線の太さは、頻度 0.2 0.7 0.6 アレル頻度 0.5 0.4 0.3 0.2 0.1 0 0.5 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 97 1 0.9 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 0.01 97 0.25 0.2 アレル頻度 アレル頻度 0.8 0.15 0.1 0.05 0 1 7 13 19 25 31 37 43 49 55 世代 61 67 73 79 85 91 97 SNPペアの発生とドリフト 2nd mutation D’=1(3種類のハプロタイプ) No pair D’=1(3種類のハプロタイプ) No pair D’=1 r^2=1(2種類のハプロタイプ) 組み換えによる4種類のハプロタイプの発生 4種類のハプロタイプ D’=1 Recombination D’<1 D’<1 D’=1 D’=1 Polyphyletic mutation D’<1 No way to discriminate recombination and polyphyletic mutation as a cause of D’<1. D’=1 Recombination Drift Status IV 4ハプロタイプ D’<1,r^2<1 Nh : Number of haplotype alleles Monophyletic mutation Birth of SNP pairs Ns : Number of polymorphic sites Status III 3ハプロタイプ D’=1,r^2<1 Status II-A SNP1個 Nh=2,Ns=1 Status II-B 2ハプロタイプ D’=1,r^2=1 Status I SNPなし Nh=1,Ns=0 Death of SNP pairs 連鎖平衡と連鎖不平衡 2SNPの場合~ペアワイズ連鎖不平衡 • 連鎖平衡: A/a, B/b – – – – P(AB)=P(A)xP(B) P(Ab)=P(A)xP(b) P(aB)=P(a)xP(B) P(ab)=P(a)xP(b) • 連鎖平衡: A/a, B/b – 4ハプロタイプの頻度が連鎖平衡からずれているとき – その程度 – 4ハプロタイプのうち3タイプしかない、2タイプしかない場 合を含む LD評価の基礎はペアワイズ ペアワイズの不十分性 3SNPsの場合 • 例1 – ABC – ABc – AbC – Abc – aBC – aBc – abC – abc • 例2 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 – ABC – ABc – AbC – Abc – aBC – aBc – abC – abc 0.25 0 0 0.25 0 0.25 0.25 0 すべてのSNPペアは連鎖平衡 AB BC – AB – Ab – aB – ab AC – AC – Ac – aC – ac 0.25 0.25 0.25 0.25 – BC – Bc – bC – bc 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 • 例1 – – – – – – – – ABC ABc AbC Abc aBC aBc abC abc • 例2 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 – – – – – – – – ABC ABc AbC Abc aBC aBc abC abc 0.25 0 0 0.25 0 0.25 0.25 0 増えた情報は? • 3SNPs – ペア数 3 – トリオ数 1・・・この部分を表示したか否かの差 AC AB BC ABC N SNPsに一般化 • • • • SNP数 N ハプロタイプ数 2^N 複合ジェノタイプ数 3^N SNP組合せ数 – N個の要素からなる集合の部分集合 • • • • • • • 0SNPの選び方 NC0 =1 1SNPの数 NC1 =N 2SNP組合せ数 NC2 =N(N-1)/2 3SNP組合せ数 NC3 … N-1個組合せ数 NCN-1 N個組合せ数 NCN=1 – 組合せ数の総和は2^N べき集合 power set {φ} {1} {1,2} {1,3} {1,2,3} {2} {3} {4} {2,3} {1,4} {2,4} {1,2,4} {1,3,4} {1,2,3,4} {2,3,4} {3,4} 組合せ数のべき集合表現 n=2 n=1 2=2^1 n=5 32=2^5 n=3 n=4 8=2^2 4=2^2 16=2^4 n=6 64=2^6 n=7 128=2^7 組合せ数のグラフ表現 組合せ数の多面体表現 n=1 n=2 n=3 n=4 『点』 『線分』 『正三角形』 『正四面体』 頂点 1 頂点 2 頂点 3 頂点 4 2^1-1=1 辺 1 辺 3 辺 6 2^2-1=2+1=3 面 1 面 4 2^3-1=3+3+1=7 内部空間 1 2^4-1=4+6+4+1=15 • 連鎖不平衡は 2^N-(N+1) 通りのSNP組合せによっ て総合的に評価される • ペアワイズLDは、そのうちの N(N-1)/2 の組合せに 特に着目している – べき集合表現でいうところの上から2段目のみ – 多面体表現でいうところの辺のみ SNPの組合せの数も膨大だが、組合せにだけ着目す ればよいのだろうか? 連鎖不平衡 • • 連鎖平衡からの逸脱状態 連鎖平衡 – 複合アレルの頻度が、構成アレル頻度の乗算で推定できる状態(構成アレル間が独 立) • SNPペアの場合 – 2SNPが作る4ハプロタイプの頻度と2個のSNPのアレル頻度との関係 • SNPトリオの場合 – 3SNPが作る8ハプロタイプの頻度と3個のSNPのアレル頻度との関係?? – 3SNPを3個のSNPに分割してやり、その3SNPのアレル頻度との独立性として考える ことが可能 – 3SNPを1組のSNPペアと、1個のSNPとに2分してやり、そのSNPペアの4ハプロタイ プ頻度と1SNPの2アレル頻度との独立性について考えることが可能 →SNPの組合せの他に、SNP組合せの分解パターンごとに平衡からのずれ、「不平衡」 の程度が定められる。 ゲノム研究の時系列 • ヒトゲノム配列決定プロジェクト – 1983ゲノムプロジェクト開始 – 1999 First Human Chromosome (ch22) Completely Sequenced! – February 12, 2001 : Publication of Initial Working Draft Sequence • ヒトゲノム多様性解析プロジェクト HapMap – 2002: International Consortium Launches Genetic Variation Mapping Project – 2004: International HapMap Consortium Widens Data Access Population subdivision • Fixation index f – f=1-Ho/He • Ho: Observed heterozygoutes • He: Expected heetrozygoutes in HWE History of the human species • Out-of-Africa • Bottlenecks – Effective population size • Genetic distance among populations
© Copyright 2024 ExpyDoc