林檎殺人事件 曖昧な情報

林檎殺人事件
曖昧な情報
京大(医)統計遺伝学分野 山田 亮
とあるさびしい峠で
殺人事件が起こりました
現場にはたくさんの林檎が落
ちていたとの目撃情報が寄せ
られました
犯人が落として行ったものらし
いのです
あいにく、現場の保全をする前
に、サルが大挙して出没し、す
べての林檎は跡形もなく食べら
れてしまったそうです
耳より情報が寄せられた
• ある1種類の品種の林檎ばかりを載せた軽ト
ラックの運転手が関わっていた
林檎の品種を特定して
犯人を絞り込みたい!
耳より情報が寄せられました
• ある主婦 Y が現場に落ちていた林檎の数と
品種を数え上げていたと言うのです。
• 『さんたろうが213個、こうたろうが326個』
林檎は1品種なのに…
• 主婦 Y の情報は使えないのか!?
• 主婦 Y の「さんたろう・こうたろう」識別能力試
験が行われた
– さんたろう100個を見せたところ
• さんたろう80個、こうたろう20個 と答えた
– こうたろう100個を見せたところ
• さんたろう40個、こうたろう60個 と答えた
• さて、軽トラックに積まれていた林檎はさんた
ろうかこうたろうか?
計算中・・・
あいまいな識別能力も
「数打ちゃ、当たる」
曖昧な情報を丸めて白黒つける
『実験結果って、絶対に、ぜーったいに、正し
いって言えるんですか?』
『ぜーったい』と言わ
れると絶対とはいい
かねるが、でも、『実
質的に正確だ』と
思っている
『実質的に正確だ』とは?
• 『実質的に正確』~『めったに間違わない』
• 『すべてのマーカー、その全部があっているよ、
ほとんどの場合にはね』
間違い行列
間違い確率 p の場合
A
B
C
D
E
A
(1-p)^2
(1-p) p/4
(1-p) p/4
(1-p) p/4
(1-p) p/4
B
(1-p) p/4
(p/4)^2
(p/4)^2
(p/4)^2
(p/4)^2
C
(1-p) p/4
(p/4)^2
(p/4)^2
(p/4)^2
(p/4)^2
D
(1-p) p/4
(p/4)^2
(p/4)^2
(p/4)^2
(p/4)^2
E
(1-p) p/4
(p/4)^2
(p/4)^2
(p/4)^2
(p/4)^2
a : タイプ数
2試料のタイプが一致する確率 : x = (1-p)^2 + (a-1 ) * (p/(a-1))^2
2試料のタイプが一致しない確率 : 1- x = p*
『すべてのマーカー、その全部があっ
ているよ、ほとんどの場合にはね』
• マーカー数 n
• (1-p*)^n ~ ほとんど 1 と信じられる
• (1-p*)^n ~1 – np + δ
– デルタはp*が小さいとき、無視できる
• 1 – np* > 1-t
t は小さい値
• p* < t/n
• あなたのtはどれくらい?
実験に要求している精度
• (1-p)^2 + (a-1 ) * (p/(a-1))^2 = 1 – p*
• …少し式変形して…p^2の項は無視して…
• 2p ~ p*
• p ~ p*/2 < t/(2n) pの上限が決まる
• もし2つの試料の実験精度が異なるなら
– p1 + p2 ~ p*
2つの試料の実験精度が異なるって…?
どちらを信用するか?
•
•
•
•
•
•
•
•
5箇所のマーカーのすべてが一致した
15箇所のマーカーのすべてが一致した
100箇所のマーカーのすべてが一致した
1,000箇所のマーカーのすべてが一致した
10,000箇所のマーカーのすべてが一致した
100,000箇所のマーカーのすべてが一致した
…
30億箇所のマーカーのすべてが一致した
– 2つの試料の実験結果なのに、1つの結果を2つの
試料の結果にコピーペーストしたんじゃない?
• 1-(1-p*)^k ~ 1-kp*
• p* が小さいと言っても…kが大きくなれば
– 1-kp* はあり得ないくらい小さいでしょう?
• では、kがどれくらいだと、ミスが入っていそ
う?
• そこから、p*の下限想定値が決まる
30億箇所調べたら…
•
•
•
•
•
•
•
•
•
•
•
•
30億箇所のマーカーのすべてが一致した
1箇所違っていた
10箇所違っていた
100箇所違っていた
1000箇所違っていた
10,000箇所違っていた
100,000箇所違っていた
1,000,000箇所違っていた
10,000,000箇所違っていた
100,000,000箇所違っていた
1,000,000,000箇所違っていた(10億箇所)
3,000,000,000箇所違っていた
10万回に1度のエラーなら
30,000箇所のエラー
• 同一個人由来なら、何箇所違うはず?
• 赤の他人2人由来なら、何カ所違うはず?
• K箇所違っていた、じゃあどっち
あいまいな識別能力も
「数打ちゃ、当たる」
不一致箇所の増え方
•
•
•
•
完璧な実験系の場合
2つの同一試料での実験結果を比較すると
マーカー数を増やしても、不一致箇所は
0,0,0,0,…..,0,0,….,0,0,0,……….
不一致箇所の増え方
• 完璧な実験系の場
合
• 2つの異なる個人由
来の試料での実験
結果を比較すると
• マーカー数を増やす
と、不一致箇所は
• どんどん増える
不一致箇所の増え方
• マーカー数を増
やすと、不一致
箇所は、どんど
ん増えるが、ばら
つきもある
• ばらつきがあると
いうことは、不一
致箇所として、
「らしい箇所数」と
「らしからぬ箇所
数」がある
尤度比で比較しているのは?
• 「平均的な線」との
乖離の程度を調べ
ている
尤度比で比較しているのは?
• 「平均的な線」との
乖離の程度を調べ
ている
• こんなに離れた線は
観測されないくらい
珍しい、と考えてもよ
い
「ぜーったい」に正しいわけでもない
• 「犯人」の方の不一
致箇所数がある程
度、増えてもよい
「ぜーったい」に正しいわけでもない
• ただし、2つの場合
とも、ばらつきつつ、
十分に離れていれ
ば、区別ができる
箇所数の増え方は
マーカーの増加に対して直線的
確率・尤度にすると
「倍々」式~指数関数的
対数尤度は
マーカーの増加に対して直線的なの
で
対数尤度の比較は
箇所数と同様に直線的
対数の場合は
値の差~比
対数尤度の差が直線的に開いていく
尤度比が指数関数的に大きくなっていく
2つの仮説の間で
十分な尤度の違いが出ればよいので
2つの直線(ばらつきに対応して幅
がある)のおおまかな傾きにしかる
べき差があり、
その差が十分に開くだけのマーカー
数があればよい
これが
あいまいな識別能力も
「数打ちゃ、当たる」
手描き
たとえば
最後の1マーカーが…
コールエラーがないとする
たとえば
最後の1マーカーが…
コールエラーがないとする
たとえば
最後の1マーカーが…
コールエラーがないとする
たとえば
15マーカーで14マーカーはほぼ完璧
最後の1マーカーが怪しい…
コールエラーがあるとする
完璧に異なる型
に合致
まったく読み取れ
ない
完璧に合致
DNA鑑定15マーカーの場合
• すべてのマーカーである特定のジェノタイプ
の頻度を q = 0.1とする
• 同じ型のときに実験結果が一致する確率を p
= p* = 1, 0.9999 とする
• 今、14/15 マーカーで2つの試料の実験結果
が一致している
• 仮説1「2つは同一人物由来である」
– p = 1:
• 1^14 = 1
– p = 0.9999^14 = 0.9986
• 仮説2「2つの同一人物由来ではない」
– q = 0.1
• q^14 = 10^(-14)
• 尤度比
– p = 1:
10^14
– p = 0.9999: 0.9986 x 10^14
最後のマーカーが一致した
• 仮説1「2つは同一人物由来である」
– p = 1:
• 1^14 = 1 1^15 = 1
– p = 0.9999^14 = 0.9986 0.9999^15 = 0.0085
• 仮説2「2つの同一人物由来ではない」
– q = 0.1
• q^14 = 10^(-14) q^15 = 10^(-15)
• 尤度比
– p = 1:
1 x 10^14
– p = 0.9999: 0.9986 x 10^14
1 x 10^15
0.9985 x 10^15
最後のマーカーが一致しなかった
• 仮説1「2つは同一人物由来である」
– p = 1:
• 1^14 = 1 1^14 x 0 = 0
– p = 0.9999^14 = 0.9986 0.9999^14 * (1-p) =
0.00009986
• 仮説2「2つの同一人物由来ではない」
– q = 0.1
• q^14 = 10^(-14) q^15 = 10^(-15)
• 尤度比
– p = 1:
1 x 10^14
– p = 0.9999: 0.9986 x 10^14
0
0.9986 x 10^12