Slide 1

連鎖不平衡
と
連鎖不平衡ありのデータ作成
法数学勉強会
2015/09/26
京都大学統計遺伝学分野
山田 亮
マイクロサテライト
と
一塩基多型 SNP
http://blog.livedoor.jp/j0kerj0j0shin-syoshin/tag/SNP
ジェノタイプの多様性が大事
• 同一人物判定
– 偶然に同じジェノタイプが出現する確率
– Π=P1^2 + … + Pk^2
• P1 + … + Pk = 1
P1=P2=…=Pk = 1/kのときにΠは最小になる
ジェノタイプの多様性が大事
• ジェノタイプ数 k
• すべてのジェノタイプの頻度が等しい (1/k)
• Π=P1^2 + … + Pk^2 = (1/k)^2+…+(1/k)^2 = ?
アレル数と
ディプロイド・ジェノタイプ数
– SNPのアレル数 2
– MSのアレル数
r
– H: Homo ?
– H: hetero ?
– k = r + r(r-1)/2 = ?
H
h
h
h
h
h
H
h
h
h
h
H
h
h
h
H
h
h
H
h
H
Hardy-Weinberg 平衡(HWE)
•
•
•
•
アレルの組み合わせが独立に決まる状態
アレル数 r
アレル頻度 Q1,Q2,…,Qr
ジェノタイプ頻度
– Qi^2
– 2Qi Qj
練習問題
• アレル数 r=2 (SNP)で、アレル頻度が等しい
ときに、
– 偶然に同じジェノタイプが出現する確率
– Π=P1^2 + … + Pk^2
• の値は?
• ただし、HWEを仮定せよ
• r を一般化すると?
家系データ
と
マイクロサテライトマーカー
ヘテロの割合が最大
ホモの割合が最小
• 偶然に同一ジェノタイプが出る確率と同じ考
え方
– Π=P1^2 + … + Pk^2
• P1 + … + Pk = 1
すべてのアレル頻度が等しいときに
ホモ割合は最小になる
練習問題
• アレル数rの座位について、アレル頻度が均
等であるときのヘテロ接合体の割合を求めよ
• ただし、HWEを仮定せよ
マーカーとしての「力」
• 偶然に一致する確率が低い
• ヘテロ・ジェノタイプの割合が高い
• アレル数が多いとよい
• アレル頻度が均等な方がよい
SNP
数は多いしゲノム全体に存在する
ぎっしり並んだマーカーの
共有具合で血縁推定
SNPのアレル数は
r=2
• SNPを使ってアレル数を増やす
• ハプロタイプ
http://www.mext.go.jp/b_menu/hakusho/html/hpaa200601/column/002.htm
ぎっしり並んだマーカーの
共有具合で血縁推定
• どんな推定法がよいか?
• 推定法がよくワークするかどうかはどうやって
判断するか?
ぎっしり並んだSNPの
ジェノタイプデータを
シミュレーションして
シミュレーションデータで
うまくワークすることを
確かめたい
手法評価をするときの定番
よくできた
SNPジェノタイプデータ
と
そこからの家系データ
とは
ハプロタイプデータを作る
• (A,a) - (B,b) – (C,c)
• (ABC,abc) と (ABC, ABc, abc) とは違う
• 何が?
• (ABC, ABc, abc) と (ABC, AbC, abc) とは
違う
• 何が?
(ABC,abc)
(ABC, ABc, abc)
A
B
C
A
B
C
a
b
c
a
b
c
(ABC, AbC, abc)
A
B
C
a
b
c
「斜め」は交叉・組み換えの歴史(後述)
異同の区別がつくならば
• 同じものは作れる
• 似ているものは、それだけでは作れない
「似ている」とは
• 比較尺度が必要
似ている
似ていない
連鎖不平衡
2SNPの場合
• 独立と非独立
– 「独立」な状態は1つ
– 「非独立」な状態はいろいろ
– 「非独立」な状態の中にも「もっとも独立から遠
い」状態がある
B
b
A
P(AB)
P(Ab)
P(A)
a
P(aB)
P(ab)
P(a)
P(B)
P(b)
1
D = P(AB) – P(A) P(B)
連鎖不平衡係数
• r2, D’
– D = P(AB) – P(A) P(B)
2SNPの連鎖不平衡
• 歴史
• 変異と交差・組み換え・遺伝的浮動
多数のSNPの
連鎖不平衡パターン
• SNPペアがたくさん。ペアワイズLDインデックスを色表現す
る
ハプロタイプを
シミュレーションするとは
• 同一ではないが、似たようなパターンを作る
• 「似ている」かどうかを判断するには
– パターンが似ているかどうかを測る尺度、が必要
連鎖不平衡
何が把握できて
何が把握できないのか
バリアント箇所とその組み合わせ
個々の多バリアントのアレル頻度
バリアント・ペア
バリアント・トリオ
バリアント・カルテット
…
色々な方法
• 大きく分けて
– 前方シミュレーション・後方シミュレーション
– 用途別
• 予測
• 歴史推定
• 統計手法のバリデーション用
Population Simulation
色々な方法
決め手に欠ける
からこそ
たくさんの方法がある
https://popmodels.cancercontrol.cancer.go
v/gsr/search/
LD structure Simulation
GenomeSIM -> GenomeSIMLA
SIMLA : Familial data
HAP-sample : resampling hapmap data
Genome
MaCS
SimuGWAS
Biochem Genet. 2011 Jun;49(5-6):395-409. doi: 10.1007/s10528-0119416-x. Epub 2011 Jan 14.
Simulating linkage disequilibrium structures in a human
population for SNP association studies.
Nat Rev Genet. 2012 Jan 10;13(2):110-22. doi: 10.1038/nrg3130.
Computer simulations: tools for population and
evolutionary genetics.
現実データから
リ・サンプリング
そして
家系データ作成
交叉・組み換えシミュレーション
交叉・組み換え
1 モルガンは 1 回の減
数分裂において 1 回の
乗換えが期待できる距
離として定義されます
が、よく用いられる 1
cM とは 100 回の減数
分裂で 1 回の交叉が
起こることが期待される
距離です。
https://www.rikanenpyo.jp/FAQ/seibutsu/fa
q_sei_002.html
交叉・組み換え
どうやって交叉・組み換えシミュレーションする?
Polymorphic Variation in Human Meiotic Recombination
Am J Hum Genet. 2007 Mar; 80(3): 526–530.
まとめ
•
•
•
•
SNPの位置づけ
ハプロタイプ
ハプロタイプ・パターンの評価尺度
ハプロタイプのシミュレーション作成とその「
良さ」の評価方法
• 未解決問題がたくさん