ジェノタイプ以外の情報の利用

ジェノタイプ以外の情報の利用
法数学勉強会
2011/11/26
京都大学大学院医学研究科
統計遺伝学分野
山田 亮
個人識別
• 行方不明者Mは身元不明者B1かB2か…
• 現場に居たのは容疑者X1かX2か…
DNA鑑定とその他の情報の利用
• 行方不明者Mは身元不明者B1かB2か…
• 現場に居たのは容疑者X1かX2か…
• MがBiである尤度を計算する
– DNAジェノタイプについて尤度を計算する
– その他の情報が合致するかを確認する
– その他の情報が合致するMとBiのペアを確認する
– 確認済みのペアについてのみDNAジェノタイプについ
て尤度を計算する
DNAとその他、その順序
• 2通りのやり方
– DNA→その他で確認
– その他で絞り込み→DNAで確認
• どちらも、同じ
– では、どちらを先にする?
– それには理由がある?
臨床診断では
• 病気の全国の頻度情報
• 患者さんの性別・年齢を用いて、ありそうな病
気に重みづけ
• 症状を聞いて、さらにありそうな病気に重み
づけ
• 検査を実施して、絞り込み
• (遺伝性疾患ならDNA情報を持ち込む)
• 診断確定
法数学←→臨床医学
• 行方不明者Mは身元不明者B1かB2か…
• 現場に居たのは容疑者X1かX2か…
• 患者Mの診断は病気D1かD2か…
情報を使って判断しよう
• DNA鑑定
– DNAジェノタイプ情報
– 年齢・性別、着衣情報
• 犯人推定
– (DNAジェノタイプ情報)
– 証言
• 臨床診断
– 検査
• 遺伝子診断:DNAジェノタイプ情報
– 症状・・・証言
– 年齢・性別
場合ごとの使い方
• DNAジェノタイプ情報
– 個人識別
• ジェノタイプが「符合」する確率・尤度
– 犯人推定
• ジェノタイプが「符合」する確率・尤度
– 臨床診断
• 「診断DならGジェノタイプのはずだ」
場合ごとの使い方
• 年齢情報
– 個人識別
• 行方不明者の年齢は確定
• 身元不明者は「推定年齢」
– 犯人推定
• 年齢に関する証言
– 現場から逃走したのは、「○才くらいだった」
– 容疑者の年齢は確定
– 臨床診断
• 年齢ごとに疾患のかかり易さが異なる
– 事前確率が変わる
場合ごとの使い方
• 性別情報
– 個人識別
• 行方不明者と身元不明者の性別は一致すべし
– 犯人推定
• 性別に関する証言
– 現場から逃走したのは、「男だった」4名、「女だった」2名
– 臨床診断
• 性別ごとに疾患のかかり易さが異なる
– 事前確率が変わる
場合ごとの使い方
• その他の情報
– 個人識別
• 行方不明者がある色の服を着ていたかについての色々な
証言
• 身元不明者の着衣の色についての推定
– 犯人推定
• 服装に関する証言
• 容疑者の衣服レパートリーに関する情報
– 臨床診断
• 検査をする、結果が出る、診断名をつけるかどうかは確率
的に決める
事前確率→情報→事後確率
DNAジェノタイプの場合
• 単一マーカー
– 行方不明者
• 家系から計算
– 身元不明者
• DNAを採取し
て観察
– 一致する確率
は?
行方不明者
身元不明者
家系からのジェノタイプ保有確率推定
• 単一マーカー
– 行方不明者
• 家系から計算
• 伝達確率1/2
• 集団のアレル
頻度・ディプロ
タイプ頻度
行方不明者
身元不明者
身元不明者
が
家系情報のない誰かである
だれでも適当に連れてきて、「たまた
ま」一致する確率は?
複数のマーカー
• 個々のマーカーの一致する確率
• 複数のマーカーでは、「すべてがそろって
一致する確率」
• 確率の積
DNA多型情報の良さ
• 確率の計算がわかりやすい
• とは言え、「仮定」は入っている
– 集団のアレル頻度・ディプロタイプ頻度
年齢の場合
• MがBである…
– M:行方不明者、B:身元不明者
• Mの年齢は既知
• Bの年齢は状態から推定
– M:被目撃者、B:容疑者
• Mの年齢は目撃情報から推定
• Bの年齢は既知
年齢の場合
• M:行方不明者、B:身元不明者
– Mの年齢は既知
– Bの年齢は状態から推定
• Bの推定年齢は○才~○才
– これはどういう意味?
やってみる
• Bの推定年齢は○才~○才
– これはどういう意味?
やってみる
• 21歳から60歳まで2歳刻みで20人の乗客と運転
手の乗ったバスが、宇宙人にさらわれた
• 乗客の家族は宇宙人との交信基地に集合した
• 宇宙人から連絡があり、「1人を解放するべく、解
法地点Tに置いた。その1人の年齢について、運
転手は『31歳から50歳』だと思うと言っている。
この1人の氏名を当てたら、開放してやろう。ただ
し、間違えたら、解法予定者と、間違って指名さ
れた乗客は我々の星に連行する」、と。
• さて、20人の乗客の家族が指名者を決める会議
を始めた。その結果や、いかに?
やってみる
• 21歳から60歳まで1歳刻みで20人
• 『31歳から50歳』だと思う
• 家族の意見がまとまらないので、全員に
– 20人に候補とする順序を1,2,3でつけるアン
ケートを実施し、その意見の順序を足し合わせて、
順序総点が最も小さい人を指名することとした
– 同点をつけてもよい。ただし、1,2,3,3、とつけ
たら、その次は4ではなく、5とするように
• 「『31歳から50歳』だと思う」
– 「『31歳から50歳』のどれかに、差をつけられな
いけれど、31歳未満、51歳以上の可能性はゼ
ロ」
– 「『31歳から50歳』が95%になるような正規分布
だと思う」
–…
年齢の場合
• M:被目撃者、B:容疑者
– Mの年齢は目撃情報から推定
– Bの年齢は既知
• Mの目撃者は
– a1,a2,a3,...歳
– これはどういう意味?
やってみる
• 21歳から60歳までのさらわれた20人
• 1人解放
• 宇宙人から、届いたメッセージは
– 「34歳だと思う」という意見が1つ
– 「39歳だと思う」という意見が1つ
– 「43歳だと思う」という意見が1つ
• さあ、家族アンケートを行おう
• 「34歳だと思う」
– 「34歳の可能性が最大になる1峰性の予想」…正
規分布?
– 正規分布なら、その幅(分散は?)
性別の場合
• 犯人は男なのか、女なのか?
• 容疑者は複数
• 目撃者は複数
やってみる
• ある夕闇迫る夕方、「泥棒!」という叫び声と
ともに走り去る人影1人
• 向かいの小学校には帰宅しようとしていた小
学生がたくさんいた
• 男か女かと訊いた
• 捜査の結果、男の容疑者が3人、女の容疑
者が1人、見つかった
やってみる
• A 小学生:10人
– 「男だった」:6人、「女だった」:4人
• B 小学生:100人
– 「男だった」:60人、「女だった」:40人
• さて、女の容疑者は、「私は女だから、犯人
じゃない」と主張したい、AとBとでは、どちら
が、女の容疑者にとって有利だろうか?
やってみる
• 目撃時の状況から、性別を正しく判別できる
確率を0.5<=p<=1とする
• 「男だった」人数Nm、「女だった」人数Nfとなる
のは
– 実際に男(Hm)で、Nm回正解し、Nf回誤答する
• Lm=choose(Nm+Nf,Nm)p^Nm (1-p)^Nf
– 実際に女(Hf)で、Nf回正解し、Nm回誤答する
• Lf=choose(Nm+Nf,Nm)p^Nm (1-p)^Nf
やってみる
• pの尤度は「犯人は男」と信じる事前確率qに
ついて
– Lp=qLm+(1-q)Lf
• 男女の仮説のそれぞれの尤度は
– int(0.5<=p<=1) Lp x Lm dp
– int(0.5<=p<=1) Lp x Lf dp
6 vs. 4 60 vs. 40
「男」が真 「女」が真
正答確率pの尤度
「男」が真 「女」が真
2つの仮説を合算したときの
正答確率pに関する尤度
p>=0.5に限定
「男」が真 「女」が真の尤度を
正答確率pの関数で表す
• 実際の尤度は、こ
のグラフの下面積
p>=0.5に限定