寄り道2 真のタイプと判定タイプとが 一致しない確率は0ではない 法数学勉強会 2012/03/24 京都大学 医学研究科 統計遺伝学分野 山田 DNA鑑定の大きな枠組み 試料1 試料2 ?同じ? ?同じ? 真のタイプ1 真のタイプ2 検査・推定 判定タイプ1 判定タイプ2 DNA鑑定の大きな枠組み 寄り道2 真のタイプと判定タイプとが 試料1 試料2 ?同じ? 一致しない確率は 0ではない ?同じ? 真のタイプ1 真のタイプ2 検査・推定 判定タイプ1 判定タイプ2 真のタイプと判定タイプとが 一致しない確率は0ではない • 一致する確率が1(完全一致)の検査結果は 使う • 一致する確率が1より低い検査結果は – 決して使わない – 部分的に使う 真のタイプと判定タイプとが 一致しない確率は0ではない • 一致する確率が1(完全一致)の検査結果は 使う • 一致する確率が1より低い検査結果は – 決して使わない – 部分的に使う • 一致する確率が1(完全一致)の検査は、現 実にはない 真のタイプと判定タイプとが 一致しない確率は0ではない • 一致する確率が1より低い検査結果は – 決して使わない – 部分的に使う • 使うか使わないかの判断基準が必要 • 複数の検査を組み合わせている場合には、 一部の検査結果だけを使うことになる 自信のある検査の組合せ と 自信のない検査の組合せ 調べたマーカーの 1部を不採用にすること • 利用・不利用の線引きをすること • 多くの場合は – 利用するマーカーと利用しないマーカーとの峻別 に苦労はしないだろう • しかし、必ず、ボーダーラインぎりぎりのマー カーが登場する、そのときにのために • 「線引き」の影響について考えてみる マーカーの線引き • このマーカーは『信頼がおけるから』合格 • このマーカーは『信頼がおけないから』不合格 • 『信頼がおける』『おけない』 – 「実験レポート」と「真のジェノタイプ」との一致率が • 高い・高くない で線引きをする 「自信のあるマーカー結果のみを使う」 • マーカー数が多くなると、カットオフ基準が高く ても、かなりの確率で「間違ったジェノタイプ」を 「正解」とする • 1マーカーの「正解率p」 • tマーカーのすべてが「正しい」確率は – p^t • すべてが正しい確率qをえるためには、 – q=p^t – p=q^(1/t) t=15 マーカー 完全正解率 q q p 個別正解率 完全正解率 p 個別正解率 十分に高い、「完全正解率」のためには 十二分に高い「個別正解率」が必要 p 個別正解率 完全正解率 p q 個別正解率 完全正解率 q 15マーカー全体の正解率 1-10^(-4)を 得るために必要な 個別マーカーの正解率は 1-6.7x10^(-6) これをカットオフとして 結果として 1,2,...,15個の マーカーの結果を 利用することとなったとき 採用されたマーカー全体の 正解率 結果として 1,2,...,15個の マーカーの結果を 利用することとなったとき 採用されたマーカーが決める 複合ジェノタイプの集団中頻 度は マーカー数が増えるにつれて 指数関数的に低くなる 検査の精度でマーカーを選択すると • マーカー数が増えるにつれ – 正解率が下がる • 間違った結論が出やすくなる – 複合ジェノタイプの集団中頻度が下がる • この人しかいないと言いやすくなる – さて、その程度は? – その程度に照らした、適切なカットオフ基準は? 消しゴム事件 ふたたび 消しゴム事件 • ある小学校では、すべての男子生徒300人 に「消しゴム屋」さんから1個ずつ消しゴムが 配られた – 「ナルト」柄が50個、「ワンピース」柄が100個、 「ドラえもん」柄が150個 ある日、音楽室で • 1個の消しゴムの落し物が発見された • 「ナルト」柄だった(50個/300個) らぶ 「ほなみたまちゃん♥」 • その消しゴムには – 「ほなみたまちゃん♥」と書かれていた! • さあ、この消しゴムは誰のものか? – 女子生徒たちの捜査が始まった 信頼がおけないレポート(~実験結果) • 「最近のアニメは難しいわねぇ、『ナルト』って いうのは、青い猫型ロボットのことだったかし ら…」 信頼がおけないレポート(~実験結果) • 「最近のアニメは難しいわねぇ、 『ナルト』っていうのは、青い猫型 ロボットのことだったかしら…」 • 「花輪君が受け取った消しゴム は・・・『ナルト』っていうのだと思い ます」 • 「音楽室に落ちていた消しゴム は・・・『ナルト』っていうのだと思う わ」 実験レポートと真実との 一致・不一致 レポートは 『ナルト』 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 P(N,n) P(N,w) P(N,d) 真実は 『ワンピース』 P(W,n) P(W,w) P(W,d) 真実は 『ドラえもん』 P(D,n) P(D,w) P(D,d) 1 1 1 花輪君の消しゴムのタイプ別確率 • 「花輪君が受け取った 消しゴムは・・・『ナル ト』っていうのだと思い ます」 • P(N,n) + P(W,n)+P(D,n) = 1 • P(N,n) < 1 花輪君の真実 レポートは 『ナルト』 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 P(N,n) P(N,w) P(N,d) 真実は 『ワンピース』 P(W,n) P(W,w) P(W,d) 真実は 『ドラえもん』 P(D,n) P(D,w) P(D,d) 1 1 1 花輪君の消しゴムのタイプ別確率 • 「花輪君が受け取った 消しゴムは・・・『ナル ト』っていうのだと思い ます」 • P(N,n) + P(W,n)+P(D,n) = 1 • P(N,n) < 1 花輪君の真実 レポートは 『ナルト』 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 P(N,n) P(N,w) P(N,d) 真実は 『ワンピース』 P(W,n) P(W,w) P(W,d) 真実は 『ドラえもん』 P(D,n) P(D,w) P(D,d) 1 1 1 実験レポートと真実との 一致・不一致 レポートは 『ナルト』 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 Q(N,n) Q(N,w) Q(N,d) 真実は 『ワンピース』 Q(W,n) Q(W,w) Q(W,d) 真実は 『ドラえもん』 Q(D,n) Q(D,w) Q(D,d) 1 1 1 「たまちゃん♥」消しゴムのタイプの確率 • 「音楽室に落ちていた 消しゴムは・・・『ナル ト』っていうのだと思う わ」 レポートは 『ナルト』 • Q(N,n) + Q(W,n)+Q(D,n) = 1 • P(N,n) < 1 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 Q(N,n) Q(N,w) Q(N,d) 真実は 『ワンピース』 Q(W,n) Q(W,w) Q(W,d) 真実は 『ドラえもん』 Q(D,n) Q(D,w) Q(D,d) 1 1 1 「たまちゃん♥」消しゴムのタイプの確率 • 「音楽室に落ちていた 消しゴムは・・・『ナル ト』っていうのだと思う わ」 レポートは 『ナルト』 • Q(N,n) + Q(W,n)+Q(D,n) = 1 • P(N,n) < 1 レポートは 『ワンピース』 レポートは 『ドラえもん』 真実は 『ナルト』 Q(N,n) Q(N,w) Q(N,d) 真実は 『ワンピース』 Q(W,n) Q(W,w) Q(W,d) 真実は 『ドラえもん』 Q(D,n) Q(D,w) Q(D,d) 1 1 1 ナルト ナルト 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) ナルト ナルト • 普通は・・・ • 「花輪君の消しゴムタイプと落し物の消しゴムタ イプが一致した!」と、思って、確率・尤度計算を する – 「花輪君が落とし主である」 – 「花輪君以外が落とし主である」 • 「花輪君=落とし主」と信じるに足るかどうかの 判断をする – 「花輪君が落とし主である」尤度が高く – 「花輪君以外が落とし主である」尤度が低い ナルト ナルト • 「花輪君が落とし主である」尤度が高く • 「花輪君以外が落とし主である」尤度が低い 「♥」消しゴムと「花輪君」消しゴムの タイプが一致している場合 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 「♥」消しゴムと「花輪君」消しゴムの タイプが一致していない場合 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 「♥」消しゴムと「花輪君」消しゴムの タイプが一致していない場合 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 「♥」消しゴムと「花輪君」消しゴムの タイプが一致している場合 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) ナルト ナルト • 普通は・・・ • 「花輪君の消しゴムタイプと落し物の消しゴム タイプが一致した!」と、思って、確率・尤度 計算をする 「花輪君の消しゴムタイプと 落し物の消しゴムタイプが 一致した!」と、思って 花輪君は 『ナルト』 花輪君は 『ワンピース』 花輪君は 『ドラえもん』 ♥は 『ナ ルト』 P(N,n)Q(N,n) P(W,n)Q(N,n) ♥は 『ワン ピー ス』 P(N,n)Q(W,n) P(W,n)Q(W,n) P(D,n)Q(W,n) Q(W,n) ♥は 『ドラ えも ん』 P(N,n)Q(D,n) P(W,n)Q(D,n) P(D,n)Q(D,n) Q(D,n) P(N,n) P(W,n) P(D,n) 1 P(D,n)Q(N,n) Q(N,n) 検査結果にエラーが含まれるとき • 検査結果が正しいと思って判断すると – 偽陽性は以下の2つの場合の和になる • 検査結果が正しくないために偽陽性が生じる • 検査結果は正しいのだけれど、もともと、偽陽性があ る程度はある 容疑者の立場に立てば 偽陽性が大きくなるなら 「犯人だ」と言わないことにするのがよ いだろう • 大雑把に言うと – 検査結果が正しくないために生じる偽陽性 • 検査のエラー率そのもの(で代用する) – 検査結果は正しいのだけれど、もともと、偽陽性があ る程度はある • 検査が正しいと思ったときに、一般人が犯人と同じタイプを 持つ確率 • これらの和 マーカーを 増やすべきか・増やさざるべきか • 増やす前 – – – – 検査が正しい確率 r1 検査が正しいときの偽陽性率 p1 検査が正しいときの真陽性率 q1 エラーの合算 • (1-r1)+r1 x p1 = 1-r1 x (1-p1) = 1-r1 x q1 • 増やした後 – – – – 検査が正しい確率 r2 検査が正しいときの偽陽性率 p2 検査が正しいときの真陽性率 q2 エラーの合算 • (1-r2)+r2 x p2 = 1-r2 x (1-p2) = 1-r1 x q1 マーカーを 増やすべきか・増やさざるべきか • マーカーを増やすと – 検査が正しい率 r は小さくなる – 検査が正しいとしたときの偽陽性率 p は小さくな る – 検査が正しいとしたときの真陽性率 q は大きくな る – トータルの偽陽性率 1- rq は・・・ • r1 x q1 > r2 x q2 ならば、小さくなる • r1 x q1 < r2 x q2 ならば、大きくなる マーカーを 増やすべきか・増やさざるべきか • 個々のマーカーの検査の正解率 r は – 1-10^(-6)とか?? • マーカーを一つ増やすと、該当するジェノタイプ 頻度は – 1/50 ~ 1/100 くらい?? – 該当する偽陽性率・真陽性率は 0 付近・1付近で低ど まり・高どまりする • マーカーを増やすと、偽陽性率 1- rq は最小値を 取った後に、増加に転ずる • この「ボトム」になりそうなマーカー数が適切か – もちろん、検査結果の精度を考慮して さらに・・・データの欠損の意味?? さらに・・・データの欠損の意味?? マーカー数が少ないキットを使った(初めからそ のつもり)ではなくて いくつかのマーカーのデータが「欠損」している とき 追加で考慮することは何か? 消しゴム事件に戻る • 「消しゴムの持ち主を探していたん ですか?」 • 「それなら、消しゴムケースには もっと情報があったんですよ・・・」 ア キ セ ウ ケ セ エ カ シ オ ケ ソ ア キ セ ウ ケ セ エ カ シ オ ケ ソ ア行、カ行、サ行 から1文字ずつが、ケース裏 に書いてあった アカサ、アカシ、アカス・・・オコソ の5x5x5通りのそれぞれの個数がわかるという • 「早く、それを言いなさいよー」 • 「で、なんて書いてあったのよー」 ア キ セ ア キ セ かすれていた! ア キ 切り取ってあった! ア キ セ 2文字目は大丈夫か! ア キ セ ア キ 切り取ってあった! • 切り取ってあった • あきらめるしかない・気にする必要はない • p = 1/(5x5x5) -> p = 1/(5x5) 1/5^3 1/5^2 1/100万 1/1万 「切り取ってあった」とは • 初めから、解析対象外 • 解析キットに含まれていなかった ア キ セ かすれていた! ア キ セ 2文字目は大丈夫か! はっきりした2文字 怪しい1文字 ア キ セ かすれていた! 怪しい文字があるとき 怪しくない、とされる文字は 本当に怪しくないのか? ア キ セ 2文字目は大丈夫か! すべての文字は 怪しいかもしれない 怪しさの程度問題 ア キ セ かすれていた! 「怪しさ」に基準を入れるときの 基準の影響の出方について ア キ セ 2文字目は大丈夫か! この「ボトム」になりそうなマーカー数 が適切か もちろん、検査結果の精度を考慮して すべての文字は 怪しいかもしれない 怪しさの程度問題 ア キ セ 「怪しさ」に基準を入れるときの 基準の影響の出方について ア キ セ 容疑者の立場に立てば 偽陽性が大きくなるなら 「犯人だ」と言わないことにするのがよ いだろう • 大雑把に言うと – 検査結果が正しくないために生じる偽陽性 • 検査のエラー率そのもの(で代用する) – 検査結果は正しいのだけれど、もともと、偽陽性があ る程度はある • 検査が正しいと思ったときに、一般人が犯人と同じタイプを 持つ確率 • これらの和 容疑者の立場に立てば 偽陽性が大きくなるなら 「犯人だ」と言わないことにするのがよ いだろう • 大雑把に言うと – 検査結果が正しくないために生じる偽陽性 • 検査のエラー率そのもの(で代用する) 大雑把に言わずに、 丁寧に検討する • 検査が正しいと思ったときに、一般人が犯人と同じタイプを 持つ確率 価値はありそう これらの和 – 検査結果は正しいのだけれど、もともと、偽陽性があ る程度はある •
© Copyright 2024 ExpyDoc