生物統計学・第15回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値- 2016年1月26日 生命環境科学域 応用生命科学類 尾形 善之 いよいよ最終回です ★今日の流れ ♦ 期末レポートの説明 ♦ 2種類のエラー ♦ 外れ値の検定 ♦ ちょっと雑談 ♦ 簡単な課題 ♦ 早めに、期末レポートの作業開始 期末レポートの概要 ★提出期限 ♦ 2016年2月12日(金) 必着 ★提出方法 ♦ 直接提出する • B11棟4階413号室(または418号室)に印刷物を提出 ♦ メールで提出する • メールにワードファイルを添付 • 「[email protected]」 ♦ 選んだコース名(後で説明)を必ず書いてくださ い。 期末レポートの書式 ★他の学生実験のレポートに準じます。 ♦ タイトル ♦ 目的 ♦ 材料 ♦ 方法 ♦ 結果 ♦ 考察 ♦ 感想 • これらを含めてください。 期末レポートの内容 ★使うデータ ♦ 「biostat15finaldata.txt」 • いつものサイトの「期末レポート」の「扱うデータ」の右端 のテキストの絵を右クリックして保存する。 ★作業方法 ♦ こだわりコース(25点) • これまで学んだ方法とさまざまな方法を駆使して解析す る。 ♦ おまかせコース(15点) • 手順書(概略のみ)通りに解析を進める。 – いつものようなコマンドまでは書いていません!! データの説明 ★36実験の遺伝子発現データ ♦ シロイヌナズナ ♦ 4系統、時系列3時点、3反復 ♦ 提供するデータは反復なしの12実験のデータで す。 ♦ データの概要 • 次世代シーケンサー(Illumina社HiSeq2000) • 塩基長:76塩基 • 配列数:900,224,946配列(900メガ配列、9億配列) 実験の概要 ★シロイヌナズナの4系統 ♦ Col-0とSei-0コントロール(野生種) ♦ FcsとFsc:Col-0とSei-0との交雑種 • 菌感染の耐性が高いとされている(雑種強勢)。 ★菌の感染 ♦ Pseudomonas syringae (Pst DC3000) • 感染すると、過敏感細胞死が誘導される。 ★時系列データ ♦ 感染後:1日目、2日目、3日目 研究目的 ★雑種の菌感染時に特異的に発現する遺 伝子を探す。 ♦ 雑種の実験の負荷量の絶対値が大きい主成分を 選ぶ(主成分Aとする)。 ♦ 主成分Aで得点の絶対値が大きい遺伝子を探す。 ♦ これらの遺伝子は菌感染に関係がある可能性があ る。 こだわりコース ★合計点:𝟐𝟓 + 𝜶点 ♦ 高得点を狙いたい人向きです。 ♦ 専用の手順書などはありません。 ♦ これまでのスライド、手順書、レポートなどを参照 してください。 ★評価のポイント ♦ 使った方法の正確性 ♦ 考察の妥当性 ♦ その他のポイント おまかせコース ★合計点:15点 ♦ 何をしていいか分からない人向きです。 ♦ 手順書に従って進めます。 ♦ ただし、コマンドは書いていません。 • これまでの手順書のコマンドを利用してください。 ★評価のポイント ♦ 手順書通りに解析できているか。 ♦ 考察の妥当性 コース選択のおすすめ ★「おまかせコース」の手順書通りに進め て、それ以外の解析をいくつか混ぜる。 ♦ この場合も、「こだわりコース」として考えます。 ♦ 検定、相関係数など。 𝑭𝑫𝑹のリマインド ★下の表で考えると…… ♦ 病気と診断された人が10人 ♦ 病気と診断された人のうち、病気でなかった人は3 人 𝟑 𝟏𝟎 ♦ つまり、𝑭𝑫𝑹 = となる、なかなか優秀…? 検査で陽性 検査で陰性 合計 実際に陽性 7 1 8 実際に陰性 3 89 92 合計 10 90 100 2種類のエラー ★偽陽性 False Positive ♦ 検査で陽性だが実際は陰性 • 「第一種の過誤(誤り)」「あわてんぼうのエラー」 • FDRは、こちらのエラーだけを評価している。 ★偽陰性 False Negative ♦ 検査で陰性だが実際は陽性 • 「第二種の過誤(誤り)」「うっかりもののエラー」 ★意識しないとどちらかのエラーを忘れがち 2種類のエラーに関する4項目 ★True positive (TP) ♦ 調べて陽性のものが、実際に陽性。 ★True negative (TN) ♦ 調べて陰性のものが、実際に陰性。 ★False positive (FP) ♦ 調べて陽性のものが、実際には陰性。 ★False negative (FN) ♦ 調べて陰性のものが、実際には陽性。 2種類のエラーを評価する指標 ★𝑭𝑫𝑹 = 𝑭𝑷 𝑻𝑷+𝑭𝑷 ★𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = ★𝑹𝒆𝒄𝒂𝒍𝒍 = 𝑻𝑷 、つまり𝟏 𝑻𝑷+𝑭𝑷 𝑻𝑷 𝑻𝑷+𝑭𝑵 ★F-measure= − 𝑭𝑫𝑹 2種類のエラーをひとつ の指標で評価 𝟏 𝟏 𝟏 + 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 𝑹𝒆𝒄𝒂𝒍𝒍 = 𝟐𝑻𝑷 𝑻𝑷+𝑭𝑷 +(𝑻𝑷+𝑭𝑵) 医療検査と2種類のエラー ★ある病気の検査方法の信頼度は? 実際に 陽性 実際に 陰性 検査で 陽性 検査で 陰性 True Positive False Negative False Positive True Negative 20 80 8 12 8 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 40% 20 0 80 8 𝑅𝑒𝑐𝑎𝑙𝑙 = = 100% 8 8 92 医療検査と2種類のエラー 偽陽性 偽陰性 検査で陽性 検査で陰性 精密検査で陰性 実は陽性 ほっとひと息 これは困る 情報検索と2種類のエラー ★あるブラウザの検出の信頼度は? 目的の ページ 関係ない ページ ブラウザで ヒット ブラウザで ノーヒット 8 0 8 992 999,000 999,992 1000 999,000 8 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 0.8% 1000 8 𝑅𝑒𝑐𝑎𝑙𝑙 = = 100% 8 情報検索と2種類のエラー ★あるブラウザの検出の信頼度は? 目的の ページ 関係ない ページ ブラウザで ヒット ブラウザで ノーヒット 3 5 8 7 999,985 999,992 10 999,990 3 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 30% 10 3 𝑅𝑒𝑐𝑎𝑙𝑙 = = 37.5% 8 情報検索と2種類のエラー 偽陽性 偽陰性 ブラウザでヒット ブラウザでヒットせず 実は外れ 実は当たり これが多すぎると困る ひとつも当らないと困 る 外れ値 ★グラブスの検定 ♦ 目的 • データセット中でひとつだけ離れた値を外す • 纏めて省くときは… – クラスタリング、主成分分析 – ただし、省く理由は必要です!! ♦ 手順 • 離れていると予想される値の𝑍値を計算 • グラブスの表で𝑝値を得る グラブスの検定 A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42 26 − 34 = 1.333 6 8 − 22 = 1.400 10 どちらも1%の危険率で有意に外れる 実験数 5% 1% 3 1.153 1.155 今日の課題・1 ★以下の医療検査結果(簡易検査)について、 𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏と𝒓𝒆𝒄𝒂𝒍𝒍を計算し、この検査方法の 信頼度と実用性について考察しなさい。 検査で陽性 検査で陰性 実際に 陽性 True Positive False Negative 実際に 陰性 False Positive True Negative 10 90 7 3 1 89 8 92 今日の課題・2 ★「生物統計学」の感想を書いてください。
© Copyright 2025 ExpyDoc