連鎖不平衡 と 連鎖不平衡ありのデータ作成 法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮 マイクロサテライト と 一塩基多型 SNP http://blog.livedoor.jp/j0kerj0j0shin-syoshin/tag/SNP ジェノタイプの多様性が大事 • 同一人物判定 – 偶然に同じジェノタイプが出現する確率 – Π=P1^2 + … + Pk^2 • P1 + … + Pk = 1 P1=P2=…=Pk = 1/kのときにΠは最小になる ジェノタイプの多様性が大事 • ジェノタイプ数 k • すべてのジェノタイプの頻度が等しい (1/k) • Π=P1^2 + … + Pk^2 = (1/k)^2+…+(1/k)^2 = ? アレル数と ディプロイド・ジェノタイプ数 – SNPのアレル数 2 – MSのアレル数 r – H: Homo ? – H: hetero ? – k = r + r(r-1)/2 = ? H h h h h h H h h h h H h h h H h h H h H Hardy-Weinberg 平衡(HWE) • • • • アレルの組み合わせが独立に決まる状態 アレル数 r アレル頻度 Q1,Q2,…,Qr ジェノタイプ頻度 – Qi^2 – 2Qi Qj 練習問題 • アレル数 r=2 (SNP)で、アレル頻度が等しい ときに、 – 偶然に同じジェノタイプが出現する確率 – Π=P1^2 + … + Pk^2 • の値は? • ただし、HWEを仮定せよ • r を一般化すると? 家系データ と マイクロサテライトマーカー ヘテロの割合が最大 ホモの割合が最小 • 偶然に同一ジェノタイプが出る確率と同じ考 え方 – Π=P1^2 + … + Pk^2 • P1 + … + Pk = 1 すべてのアレル頻度が等しいときに ホモ割合は最小になる 練習問題 • アレル数rの座位について、アレル頻度が均 等であるときのヘテロ接合体の割合を求めよ • ただし、HWEを仮定せよ マーカーとしての「力」 • 偶然に一致する確率が低い • ヘテロ・ジェノタイプの割合が高い • アレル数が多いとよい • アレル頻度が均等な方がよい SNP 数は多いしゲノム全体に存在する ぎっしり並んだマーカーの 共有具合で血縁推定 SNPのアレル数は r=2 • SNPを使ってアレル数を増やす • ハプロタイプ http://www.mext.go.jp/b_menu/hakusho/html/hpaa200601/column/002.htm ぎっしり並んだマーカーの 共有具合で血縁推定 • どんな推定法がよいか? • 推定法がよくワークするかどうかはどうやって 判断するか? ぎっしり並んだSNPの ジェノタイプデータを シミュレーションして シミュレーションデータで うまくワークすることを 確かめたい 手法評価をするときの定番 よくできた SNPジェノタイプデータ と そこからの家系データ とは ハプロタイプデータを作る • (A,a) - (B,b) – (C,c) • (ABC,abc) と (ABC, ABc, abc) とは違う • 何が? • (ABC, ABc, abc) と (ABC, AbC, abc) とは 違う • 何が? (ABC,abc) (ABC, ABc, abc) A B C A B C a b c a b c (ABC, AbC, abc) A B C a b c 「斜め」は交叉・組み換えの歴史(後述) 異同の区別がつくならば • 同じものは作れる • 似ているものは、それだけでは作れない 「似ている」とは • 比較尺度が必要 似ている 似ていない 連鎖不平衡 2SNPの場合 • 独立と非独立 – 「独立」な状態は1つ – 「非独立」な状態はいろいろ – 「非独立」な状態の中にも「もっとも独立から遠 い」状態がある B b A P(AB) P(Ab) P(A) a P(aB) P(ab) P(a) P(B) P(b) 1 D = P(AB) – P(A) P(B) 連鎖不平衡係数 • r2, D’ – D = P(AB) – P(A) P(B) 2SNPの連鎖不平衡 • 歴史 • 変異と交差・組み換え・遺伝的浮動 多数のSNPの 連鎖不平衡パターン • SNPペアがたくさん。ペアワイズLDインデックスを色表現す る ハプロタイプを シミュレーションするとは • 同一ではないが、似たようなパターンを作る • 「似ている」かどうかを判断するには – パターンが似ているかどうかを測る尺度、が必要 連鎖不平衡 何が把握できて 何が把握できないのか バリアント箇所とその組み合わせ 個々の多バリアントのアレル頻度 バリアント・ペア バリアント・トリオ バリアント・カルテット … 色々な方法 • 大きく分けて – 前方シミュレーション・後方シミュレーション – 用途別 • 予測 • 歴史推定 • 統計手法のバリデーション用 Population Simulation 色々な方法 決め手に欠ける からこそ たくさんの方法がある https://popmodels.cancercontrol.cancer.go v/gsr/search/ LD structure Simulation GenomeSIM -> GenomeSIMLA SIMLA : Familial data HAP-sample : resampling hapmap data Genome MaCS SimuGWAS Biochem Genet. 2011 Jun;49(5-6):395-409. doi: 10.1007/s10528-0119416-x. Epub 2011 Jan 14. Simulating linkage disequilibrium structures in a human population for SNP association studies. Nat Rev Genet. 2012 Jan 10;13(2):110-22. doi: 10.1038/nrg3130. Computer simulations: tools for population and evolutionary genetics. 現実データから リ・サンプリング そして 家系データ作成 交叉・組み換えシミュレーション 交叉・組み換え 1 モルガンは 1 回の減 数分裂において 1 回の 乗換えが期待できる距 離として定義されます が、よく用いられる 1 cM とは 100 回の減数 分裂で 1 回の交叉が 起こることが期待される 距離です。 https://www.rikanenpyo.jp/FAQ/seibutsu/fa q_sei_002.html 交叉・組み換え どうやって交叉・組み換えシミュレーションする? Polymorphic Variation in Human Meiotic Recombination Am J Hum Genet. 2007 Mar; 80(3): 526–530. まとめ • • • • SNPの位置づけ ハプロタイプ ハプロタイプ・パターンの評価尺度 ハプロタイプのシミュレーション作成とその「 良さ」の評価方法 • 未解決問題がたくさん
© Copyright 2024 ExpyDoc