家系ジェノタイプ情報の確率尤度計算20110520

家系ジェノタイプデータの
確率・尤度計算
2011/05/28
京都大学大学院
附属ゲノム医学センター統計遺伝学分野
山田 亮
• 確率を計算する
• ジェノタイプがわかっているか、わかっていな
いか
• 場合に分ける
• 場合は網羅する
何が確率的に起きるのか
親子
• 父:A B
• 母:B B
• 子:
–AA:0
– A B : 1/2
– B B : 1/2
AB
BB
AA ?
AB
BB
親子を探せ
親子を探せ
親子を探せ
親子を探せ
親子を探せ
家系図での「確率」計算
親子ごとに確率を計算する
親子を数え上げる
全部の親子について掛け合わせる
もう、できる!
ジェノタイプがわかっているときの確率
と
ジェノタイプがわかっていないときの確率
母親のジェノタイプがわからない
BB
AA
AB
BB
AA
AB
BB
母親のジェノタイプがわからないって
どういうこと?
BB
AA
AB
BB
AA
AB
BB
わからないって
どういうこと?
BB
• わからない → 計算できない
• わからない → 計算できるようにする
AA
AB
BB
AA
AB
BB
• 母親のジェノタイプがわかっていれば、計算
できる
• 母親のジェノタイプは「わからないけれど」場
合分けすれば、「わかる」
BB
場合に分ける
AA
AB
BB
AA
AB
BB
AA
AA
AA
AB
BB
AB
AB
AA
AB
BB
これなら、計算できる!
BB
BB
AA
AB
BB
BB
場合に分けた後に
どうやってまとめる?
AA
AB
BB
AA
AB
BB
AA
AA
AA
AB
BB
AB
AB
AA
AB
BB
これなら、計算できる!
BB
BB
AA
AB
BB
BB
場合に分けた後に
どうやってまとめる?
AA
AB
BB
AA
AB
BB
場合に重みが付けばよい
AA
AA
AA
AB
BB
AB
AB
AA
AB
BB
BB
BB
AA
AB
BB
場合に重みが付けばよい
これならできる!
これならできる!
子供が増えても?
子供が増えても、できる
これも大丈夫
これは。
先祖がたどれない・・・
困ったら、「困ったときの
経験」を活かそう
わからないって
どういうこと?
BB
• わからない → 計算できない
• わからない → 計算できるようにする
AA
AB
BB
AA
AB
BB
• 母親のジェノタイプがわかっていれば、計算
できる
• 母親のジェノタイプは「わからないけれど」場
合分けすれば、「わかる」
先祖がたどれない、って
どういうこと?
• たどれない → 計算できない
• たどれない → 計算できるようにする
• 先祖のジェノタイプがわかっていれば、計算
できる
• 先祖のジェノタイプは「わからないけれど」場
合分けすれば、「わかる」
• 先祖のジェノタイプの場合の重みづけがわか
れば計算できる
先祖は集団
集団のジェノタイプ頻度が
『重みづけ』
たどれない先祖が誰かわかれば、
対処できる
たどれない先祖は誰か
~ 集団の雲はどこか?
集団の雲はどこか?
集団の雲はどこか?
集団の雲はどこか?
集団の雲はどこか?
集団の雲はどこか?
すべて解決
復習
•
•
•
•
•
親子を見つける
ジェノタイプ不明なら、場合分けする
場合分けしたら、重みづけする
重みは、親が決める
親は
– 「実在」する「親」かもしれないし、
– 「集団」という「雲」かもしれない
• 問
– 親子関係はいくつ?
– ジェノタイプの場合分けが
必要なのは何人?
– 「集団雲」で隠されるメン
バーは何人?
何ができるようになったのか?
• ある集団に属する
• 家系と
• 家系メンバーのジェノタイプとがあったときに、
• その確率を計算することができるようになった
『この身元不明者は
この行方不明者なのか?』
という質問と
確率との
関係
行方不明者
身元不明者
行方不明者
身元不明者
?『行方不明者=身元不明者』?
を
考え始める前に、
少し回り道をすることにします
?『行方不明者=身元不明者』?
• 何の情報を使うのか?
– 行方不明者の、「何」?
– 身元不明者の、「何」?
?『行方不明者=身元不明者』?
• 何の情報を使うのか?
– 行方不明者の、「何」?
• ジェノタイプの確率分布
– いろいろと可能性があるジェノタイプの、どれがどれくらいの
確率なのか
• 特別な場合
– 場合1:行方不明者のDNAはある場合
» ただ一つのジェノタイプである確率が1であって、それ以
外のジェノタイプである確率が0である
– 場合2:本人のDNAも家族のDNAもない場合
» 「集団」という「雲」のジェノタイプの確率を使うしかない
※ 特別な場合は、一般的な場合に含まれますから、この先は気にしないこ
とにします
• 行方不明者のジェノタイプの確率分布
– 行方不明者本人のDNAがあれば、確定する
– 家族のジェノタイプを調べるのは、行方不明者の
ジェノタイプの確率分布をよりよく推定するため
– 家族のジェノタイプがわからなければ、行方不明
者のジェノタイプの確率分布は、集団のそれと同
じ
?『行方不明者=身元不明者』?
• 何の情報を使うのか?
– 行方不明者の、「何」?
– 身元不明者の、「何」?
• DNAはあるので
• ジェノタイプは確定しています
?『行方不明者=身元不明者』?
行方不明者の
ジェノタイプの
確率分布
身元不明者の
確定している
ジェノタイプ
一致する確率は?
行方不明者
身元不明者
この確率が計算できる?
行方不明者
身元不明者
この確率が計算できる?
はい、できます!
確率の計算はできた。
さて、それで何がわかったか?
行方不明者
身元不明者
この確率が計算できる?
はい、できます!
確率の計算はできた。
さて、それで何がわかるのか?
• 確率が0である
– 「ありえない」
• 確率が1である
– 「絶対そうだ」
• 確率が0から1の間である
– 「ありえるけれど、絶対ではない」
– 確率という数字の大きさをどう考えるか・・・
確率
大きいか小さいかを測るもの
• 確率が0から1の間である
– 「ありえるけれど、絶対ではない」
• 「大きい」か「小さい」か
– 絶対評価
• 「ありえない」=0
• 「絶対」=1
– 相対評価
• 何かと比較することで意味を持つ
比較したい
~ 別の確率を計算したい
比較したい
~ 別の確率を計算したい
比較1
比較2
別の身元不明者
比較1
身元不明者
が
家系情報のない誰かである
身元不明者
が
行方不明者である
別の身元不明者
が
家系情報のない誰かである
比較2
身元不明者
が
行方不明者である
別の身元不明者
いわゆる
血縁鑑定はこちら
比較1
身元不明者
が
家系情報のない誰かである
身元不明者
が
行方不明者である
話しの終盤で、両方の比較
が出てくるので、忘れ去らな
いでおきましょう
比較1
比較2
別の身元不明者
話しの終盤までの長い道のり
行方不明者
身元不明者
この確率が計算できる?
はい、できます!
この確率が計算できる?
はい、できます!
この確率が計算できる?
はい、できます!
この確率が計算できる?
はい、できます!
本当にできるのか?
できるなら、
やって見せよ!
話しの終盤までの長い道のり
計算ができるまでの長い道のり
いわゆる
血縁鑑定はこちら
比較1
身元不明者
が
家系情報のない誰かである
身元不明者
が
行方不明者である
計算は
•
•
•
•
•
親子を見つける
ジェノタイプ不明なら、場合分けする
場合分けしたら、重みづけする
重みは、親が決める
親は
– 「実在」する「親」かもしれないし、
– 「集団」という「雲」かもしれない
何が問題か
• 場合分けが多すぎる
– ジェノタイプの種類数gは
• アレル数aのマーカーで
– G=a(a+1)/2
– 場合分けは、ジェノタイプが不明のメンバー数kに
ついて
• Gk
• 場合の数が多すぎて、時間がかかりすぎる
場合の数を減らす工夫
• 2倍体ではなく1倍体で扱う
場合の数を減らす工夫
場合の数を減らす工夫
アレルは必ず親アレルが決まる
ただし、
受け渡しパターンは
いろいろあって
場合分けが必要
ただし、
受け渡しパターンは
いろいろあって
場合分けが必要
ただし、
受け渡しパターンは
いろいろあって
場合分けが必要
ただし、
受け渡しパターンは
いろいろあって
場合分けが必要
ただし、
受け渡しパターンは
いろいろあって
場合分けが必要
伝達のパターンはいくつある?
伝達のパターンはいくつある?
2
2
2 2
2
2
2x2x2x2x2x2=(2x2)x(2x2)x(2x2)
伝達のパターンはいくつある?
4 子供の数
2
2
2 2
2
2
2x2x2x2x2x2=(2x2)x(2x2)x(2x2)
場合分けはこれで終わり・・・
ではない
A
A
A
B
A
B
B
B
A
B
B
B
A
A
A
B
A
B
B
B
B
B
A
B
A
A
A
B
A
B
B
B
B
A
A
B
A
A
A
B
A
B
B
B
B
A
A
A
A
A
A
B
A
B
B
B
B
A
A
A
母方・父方由来アレルの場合分け
伝達パターンの場合分け
x
母方・父方アレルの割り付けの場合分け
たくさんあるけれど、
G=a(a+1)/2
よりはまし
→ Gk
場合に分けたら
確率を計算すべし
メンデルの法則は満足している?
A
A
A
B
A
B
B
B
B
A
A
A
A
A
A
B
A
B
B
B
B
A
A
A
A
A
A
B
A
B
B
B
B
A
A
A
A
A
A
B
A
B
B
B
B
A
A
A
A
A
A
B
A
B
B
B
B
A
A
A
「雲の中」に突っ
込んでいるときは
「A」アレルの雲の
中での確率を考
慮しよう
A
A
A
B
A
B
B
B
B
A
A
A
いわゆる
血縁鑑定
両方で計算して比
較しよう
比較1
身元不明者
が
家系情報のない誰かである
身元不明者
が
行方不明者である
2つの仮説
2つの確率~尤度
2つの確率~尤度を比較する
比を取る
なんとか、
合いまし
た・・・
計算があっているかど
うか、見せてみよ!
産みの苦しみ
休憩、必須
休憩、必須
休憩、必須
ここまでで、十分
なのでは
さて、終盤戦
• 終盤戦ってなんだった?
身元不明者が複数いるときに、
その情報をどう使うか
別の身元不明者
が
家系情報のない誰かである
比較2
身元不明者
が
行方不明者である
別の身元不明者
身元不明者が複数いるときに、
その情報をどう使うか
別の身元不明者
が
家系情報のない誰かである
比較2
別の身元不明者
身元不明者
が
行方不明者である
別の身元不明者
行方不明になった人数Nがわかっている
身元不明なままの遺体がN体ある
行方不明・身元不明となった「きっかけ」も確定
している
身元不明者リスト
行方不明
身元不明者リスト
行方不明
L(1)
L(2)
L(3)
L(1)
L(1)+L(2)+L(3)+…+L(N)
…
…
…
L(N)
すべての仮説に関して尤度を
足し合わせたものが分母
行方不明になった人数Nがわかっている
身元不明な遺体が1体だけある
行方不明・身元不明となった「きっかけ」は
確定している
DNAがない場合には、「集団の子供」のジェノタ
イプを持っているとみなして計算できる
身元不明者リスト
行方不明
計算は同じ
L(1)
L(2)
L(3)
L(1)
L(1)+L(2)+L(3)+…+L(N)
…
…
…
L(N)
すべての仮説に関して尤度を
足し合わせたものが分母
• 行方不明者総数が少なければ、
L(1)
L(1)+L(2)+L(3)+…+L(N)
• は大きくなる
最後の最後
• さて、これをするのに必要なことは
行方不明者1
行方不明者2
行方不明者3
行方不明者4
行方不明者…
行方不明者…
行方不明者…
行方不明者…
行方不明者…
行方不明者N
行方不明者1
行方不明者2
行方不明者3
行方不明者4
NxMの確率計算・・・
行方不明者…
だと思います
行方不明者…
申請のない行方不明
者の扱いとか、検討
する課題は残ってい
るように思えますが、
方向性は悪くないよう
に思います。
行方不明者…
行方不明者…
行方不明者…
行方不明者N