情報の多寡

寄り道2
真のタイプと判定タイプとが
一致しない確率は0ではない
法数学勉強会
2012/03/24
京都大学 医学研究科
統計遺伝学分野
山田
DNA鑑定の大きな枠組み
試料1
試料2
?同じ?
?同じ?
真のタイプ1
真のタイプ2
検査・推定
判定タイプ1
判定タイプ2
DNA鑑定の大きな枠組み
寄り道2
真のタイプと判定タイプとが
試料1
試料2
?同じ?
一致しない確率は
0ではない
?同じ?
真のタイプ1
真のタイプ2
検査・推定
判定タイプ1
判定タイプ2
真のタイプと判定タイプとが
一致しない確率は0ではない
• 一致する確率が1(完全一致)の検査結果は
使う
• 一致する確率が1より低い検査結果は
– 決して使わない
– 部分的に使う
真のタイプと判定タイプとが
一致しない確率は0ではない
• 一致する確率が1(完全一致)の検査結果は
使う
• 一致する確率が1より低い検査結果は
– 決して使わない
– 部分的に使う
• 一致する確率が1(完全一致)の検査は、現
実にはない
真のタイプと判定タイプとが
一致しない確率は0ではない
• 一致する確率が1より低い検査結果は
– 決して使わない
– 部分的に使う
• 使うか使わないかの判断基準が必要
• 複数の検査を組み合わせている場合には、
一部の検査結果だけを使うことになる
自信のある検査の組合せ
と
自信のない検査の組合せ
調べたマーカーの
1部を不採用にすること
• 利用・不利用の線引きをすること
• 多くの場合は
– 利用するマーカーと利用しないマーカーとの峻別
に苦労はしないだろう
• しかし、必ず、ボーダーラインぎりぎりのマー
カーが登場する、そのときにのために
• 「線引き」の影響について考えてみる
マーカーの線引き
• このマーカーは『信頼がおけるから』合格
• このマーカーは『信頼がおけないから』不合格
• 『信頼がおける』『おけない』
– 「実験レポート」と「真のジェノタイプ」との一致率が
• 高い・高くない で線引きをする
「自信のあるマーカー結果のみを使う」
• マーカー数が多くなると、カットオフ基準が高く
ても、かなりの確率で「間違ったジェノタイプ」を
「正解」とする
• 1マーカーの「正解率p」
• tマーカーのすべてが「正しい」確率は
– p^t
• すべてが正しい確率qをえるためには、
– q=p^t
– p=q^(1/t)
t=15 マーカー
完全正解率
q
q
p
個別正解率
完全正解率
p
個別正解率
十分に高い、「完全正解率」のためには
十二分に高い「個別正解率」が必要
p
個別正解率
完全正解率
p
q
個別正解率
完全正解率
q
15マーカー全体の正解率
1-10^(-4)を
得るために必要な
個別マーカーの正解率は
1-6.7x10^(-6)
これをカットオフとして
結果として
1,2,...,15個の
マーカーの結果を
利用することとなったとき
採用されたマーカー全体の
正解率
結果として
1,2,...,15個の
マーカーの結果を
利用することとなったとき
採用されたマーカーが決める
複合ジェノタイプの集団中頻
度は
マーカー数が増えるにつれて
指数関数的に低くなる
検査の精度でマーカーを選択すると
• マーカー数が増えるにつれ
– 正解率が下がる
• 間違った結論が出やすくなる
– 複合ジェノタイプの集団中頻度が下がる
• この人しかいないと言いやすくなる
– さて、その程度は?
– その程度に照らした、適切なカットオフ基準は?
消しゴム事件 ふたたび
消しゴム事件
• ある小学校では、すべての男子生徒300人
に「消しゴム屋」さんから1個ずつ消しゴムが
配られた
– 「ナルト」柄が50個、「ワンピース」柄が100個、
「ドラえもん」柄が150個
ある日、音楽室で
• 1個の消しゴムの落し物が発見された
• 「ナルト」柄だった(50個/300個)
らぶ
「ほなみたまちゃん♥」
• その消しゴムには
– 「ほなみたまちゃん♥」と書かれていた!
• さあ、この消しゴムは誰のものか?
– 女子生徒たちの捜査が始まった
信頼がおけないレポート(~実験結果)
• 「最近のアニメは難しいわねぇ、『ナルト』って
いうのは、青い猫型ロボットのことだったかし
ら…」
信頼がおけないレポート(~実験結果)
• 「最近のアニメは難しいわねぇ、
『ナルト』っていうのは、青い猫型
ロボットのことだったかしら…」
• 「花輪君が受け取った消しゴム
は・・・『ナルト』っていうのだと思い
ます」
• 「音楽室に落ちていた消しゴム
は・・・『ナルト』っていうのだと思う
わ」
実験レポートと真実との 一致・不一致
レポートは
『ナルト』
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
P(N,n) P(N,w) P(N,d)
真実は
『ワンピース』
P(W,n) P(W,w) P(W,d)
真実は
『ドラえもん』
P(D,n)
P(D,w)
P(D,d)
1
1
1
花輪君の消しゴムのタイプ別確率
• 「花輪君が受け取った
消しゴムは・・・『ナル
ト』っていうのだと思い
ます」
• P(N,n) + P(W,n)+P(D,n) = 1
• P(N,n) < 1
花輪君の真実 レポートは
『ナルト』
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
P(N,n) P(N,w) P(N,d)
真実は
『ワンピース』
P(W,n) P(W,w) P(W,d)
真実は
『ドラえもん』
P(D,n)
P(D,w)
P(D,d)
1
1
1
花輪君の消しゴムのタイプ別確率
• 「花輪君が受け取った
消しゴムは・・・『ナル
ト』っていうのだと思い
ます」
• P(N,n) + P(W,n)+P(D,n) = 1
• P(N,n) < 1
花輪君の真実 レポートは
『ナルト』
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
P(N,n) P(N,w) P(N,d)
真実は
『ワンピース』
P(W,n) P(W,w) P(W,d)
真実は
『ドラえもん』
P(D,n)
P(D,w)
P(D,d)
1
1
1
実験レポートと真実との 一致・不一致
レポートは
『ナルト』
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
Q(N,n) Q(N,w) Q(N,d)
真実は
『ワンピース』
Q(W,n) Q(W,w) Q(W,d)
真実は
『ドラえもん』
Q(D,n) Q(D,w) Q(D,d)
1
1
1
「たまちゃん♥」消しゴムのタイプの確率
• 「音楽室に落ちていた
消しゴムは・・・『ナル
ト』っていうのだと思う
わ」
レポートは
『ナルト』
• Q(N,n) + Q(W,n)+Q(D,n) = 1
• P(N,n) < 1
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
Q(N,n) Q(N,w) Q(N,d)
真実は
『ワンピース』
Q(W,n) Q(W,w) Q(W,d)
真実は
『ドラえもん』
Q(D,n) Q(D,w) Q(D,d)
1
1
1
「たまちゃん♥」消しゴムのタイプの確率
• 「音楽室に落ちていた
消しゴムは・・・『ナル
ト』っていうのだと思う
わ」
レポートは
『ナルト』
• Q(N,n) + Q(W,n)+Q(D,n) = 1
• P(N,n) < 1
レポートは
『ワンピース』
レポートは
『ドラえもん』
真実は
『ナルト』
Q(N,n) Q(N,w) Q(N,d)
真実は
『ワンピース』
Q(W,n) Q(W,w) Q(W,d)
真実は
『ドラえもん』
Q(D,n) Q(D,w) Q(D,d)
1
1
1
ナルト
ナルト
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
ナルト
ナルト
• 普通は・・・
• 「花輪君の消しゴムタイプと落し物の消しゴムタ
イプが一致した!」と、思って、確率・尤度計算を
する
– 「花輪君が落とし主である」
– 「花輪君以外が落とし主である」
• 「花輪君=落とし主」と信じるに足るかどうかの
判断をする
– 「花輪君が落とし主である」尤度が高く
– 「花輪君以外が落とし主である」尤度が低い
ナルト
ナルト
• 「花輪君が落とし主である」尤度が高く
• 「花輪君以外が落とし主である」尤度が低い
「♥」消しゴムと「花輪君」消しゴムの
タイプが一致している場合
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
「♥」消しゴムと「花輪君」消しゴムの
タイプが一致していない場合
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
「♥」消しゴムと「花輪君」消しゴムの
タイプが一致していない場合
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
「♥」消しゴムと「花輪君」消しゴムの
タイプが一致している場合
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
ナルト
ナルト
• 普通は・・・
• 「花輪君の消しゴムタイプと落し物の消しゴム
タイプが一致した!」と、思って、確率・尤度
計算をする
「花輪君の消しゴムタイプと
落し物の消しゴムタイプが
一致した!」と、思って
花輪君は
『ナルト』
花輪君は
『ワンピース』
花輪君は
『ドラえもん』
♥は
『ナ
ルト』
P(N,n)Q(N,n)
P(W,n)Q(N,n)
♥は
『ワン
ピー
ス』
P(N,n)Q(W,n)
P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n)
♥は
『ドラ
えも
ん』
P(N,n)Q(D,n)
P(W,n)Q(D,n)
P(D,n)Q(D,n)
Q(D,n)
P(N,n)
P(W,n)
P(D,n)
1
P(D,n)Q(N,n)
Q(N,n)
検査結果にエラーが含まれるとき
• 検査結果が正しいと思って判断すると
– 偽陽性は以下の2つの場合の和になる
• 検査結果が正しくないために偽陽性が生じる
• 検査結果は正しいのだけれど、もともと、偽陽性があ
る程度はある
容疑者の立場に立てば
偽陽性が大きくなるなら
「犯人だ」と言わないことにするのがよ
いだろう
• 大雑把に言うと
– 検査結果が正しくないために生じる偽陽性
• 検査のエラー率そのもの(で代用する)
– 検査結果は正しいのだけれど、もともと、偽陽性があ
る程度はある
• 検査が正しいと思ったときに、一般人が犯人と同じタイプを
持つ確率
• これらの和
マーカーを
増やすべきか・増やさざるべきか
• 増やす前
–
–
–
–
検査が正しい確率 r1
検査が正しいときの偽陽性率 p1
検査が正しいときの真陽性率 q1
エラーの合算
• (1-r1)+r1 x p1 = 1-r1 x (1-p1) = 1-r1 x q1
• 増やした後
–
–
–
–
検査が正しい確率 r2
検査が正しいときの偽陽性率 p2
検査が正しいときの真陽性率 q2
エラーの合算
• (1-r2)+r2 x p2 = 1-r2 x (1-p2) = 1-r1 x q1
マーカーを
増やすべきか・増やさざるべきか
• マーカーを増やすと
– 検査が正しい率 r は小さくなる
– 検査が正しいとしたときの偽陽性率 p は小さくな
る
– 検査が正しいとしたときの真陽性率 q は大きくな
る
– トータルの偽陽性率 1- rq は・・・
• r1 x q1 > r2 x q2 ならば、小さくなる
• r1 x q1 < r2 x q2 ならば、大きくなる
マーカーを
増やすべきか・増やさざるべきか
• 個々のマーカーの検査の正解率 r は
– 1-10^(-6)とか??
• マーカーを一つ増やすと、該当するジェノタイプ
頻度は
– 1/50 ~ 1/100 くらい??
– 該当する偽陽性率・真陽性率は 0 付近・1付近で低ど
まり・高どまりする
• マーカーを増やすと、偽陽性率 1- rq は最小値を
取った後に、増加に転ずる
• この「ボトム」になりそうなマーカー数が適切か
– もちろん、検査結果の精度を考慮して
さらに・・・データの欠損の意味??
さらに・・・データの欠損の意味??
マーカー数が少ないキットを使った(初めからそ
のつもり)ではなくて
いくつかのマーカーのデータが「欠損」している
とき
追加で考慮することは何か?
消しゴム事件に戻る
• 「消しゴムの持ち主を探していたん
ですか?」
• 「それなら、消しゴムケースには
もっと情報があったんですよ・・・」
ア キ セ
ウ ケ セ
エ カ シ
オ ケ ソ
ア キ セ
ウ ケ セ
エ カ シ
オ ケ ソ
ア行、カ行、サ行 から1文字ずつが、ケース裏
に書いてあった
アカサ、アカシ、アカス・・・オコソ
の5x5x5通りのそれぞれの個数がわかるという
• 「早く、それを言いなさいよー」
• 「で、なんて書いてあったのよー」
ア キ セ
ア キ セ
かすれていた!
ア キ
切り取ってあった!
ア キ セ
2文字目は大丈夫か!
ア キ セ
ア キ
切り取ってあった!
• 切り取ってあった
• あきらめるしかない・気にする必要はない
• p = 1/(5x5x5) -> p = 1/(5x5)
1/5^3
1/5^2
1/100万
1/1万
「切り取ってあった」とは
• 初めから、解析対象外
• 解析キットに含まれていなかった
ア キ セ
かすれていた!
ア キ セ
2文字目は大丈夫か!
はっきりした2文字
怪しい1文字
ア キ セ
かすれていた!
怪しい文字があるとき
怪しくない、とされる文字は
本当に怪しくないのか?
ア キ セ
2文字目は大丈夫か!
すべての文字は
怪しいかもしれない
怪しさの程度問題
ア キ セ
かすれていた!
「怪しさ」に基準を入れるときの
基準の影響の出方について
ア キ セ
2文字目は大丈夫か!
この「ボトム」になりそうなマーカー数
が適切か
もちろん、検査結果の精度を考慮して
すべての文字は
怪しいかもしれない
怪しさの程度問題
ア キ セ
「怪しさ」に基準を入れるときの
基準の影響の出方について
ア キ セ
容疑者の立場に立てば
偽陽性が大きくなるなら
「犯人だ」と言わないことにするのがよ
いだろう
• 大雑把に言うと
– 検査結果が正しくないために生じる偽陽性
• 検査のエラー率そのもの(で代用する)
– 検査結果は正しいのだけれど、もともと、偽陽性があ
る程度はある
• 検査が正しいと思ったときに、一般人が犯人と同じタイプを
持つ確率
• これらの和
容疑者の立場に立てば
偽陽性が大きくなるなら
「犯人だ」と言わないことにするのがよ
いだろう
• 大雑把に言うと
– 検査結果が正しくないために生じる偽陽性
• 検査のエラー率そのもの(で代用する)
大雑把に言わずに、
丁寧に検討する
• 検査が正しいと思ったときに、一般人が犯人と同じタイプを
持つ確率
価値はありそう
これらの和
– 検査結果は正しいのだけれど、もともと、偽陽性があ
る程度はある
•