実際には陽性。

生物統計学・第15回
エラーを調べる
-第一種の過誤、第二種の過誤、外れ値-
2016年1月26日
生命環境科学域 応用生命科学類
尾形 善之
いよいよ最終回です
★今日の流れ
♦ 期末レポートの説明
♦ 2種類のエラー
♦ 外れ値の検定
♦ ちょっと雑談
♦ 簡単な課題
♦ 早めに、期末レポートの作業開始
期末レポートの概要
★提出期限
♦ 2016年2月12日(金) 必着
★提出方法
♦ 直接提出する
• B11棟4階413号室(または418号室)に印刷物を提出
♦ メールで提出する
• メールにワードファイルを添付
• 「[email protected]」
♦ 選んだコース名(後で説明)を必ず書いてくださ
い。
期末レポートの書式
★他の学生実験のレポートに準じます。
♦ タイトル
♦ 目的
♦ 材料
♦ 方法
♦ 結果
♦ 考察
♦ 感想
• これらを含めてください。
期末レポートの内容
★使うデータ
♦ 「biostat15finaldata.txt」
• いつものサイトの「期末レポート」の「扱うデータ」の右端
のテキストの絵を右クリックして保存する。
★作業方法
♦ こだわりコース(25点)
• これまで学んだ方法とさまざまな方法を駆使して解析す
る。
♦ おまかせコース(15点)
• 手順書(概略のみ)通りに解析を進める。
– いつものようなコマンドまでは書いていません!!
データの説明
★36実験の遺伝子発現データ
♦ シロイヌナズナ
♦ 4系統、時系列3時点、3反復
♦ 提供するデータは反復なしの12実験のデータで
す。
♦ データの概要
• 次世代シーケンサー(Illumina社HiSeq2000)
• 塩基長:76塩基
• 配列数:900,224,946配列(900メガ配列、9億配列)
実験の概要
★シロイヌナズナの4系統
♦ Col-0とSei-0コントロール(野生種)
♦ FcsとFsc:Col-0とSei-0との交雑種
• 菌感染の耐性が高いとされている(雑種強勢)。
★菌の感染
♦ Pseudomonas syringae (Pst DC3000)
• 感染すると、過敏感細胞死が誘導される。
★時系列データ
♦ 感染後:1日目、2日目、3日目
研究目的
★雑種の菌感染時に特異的に発現する遺
伝子を探す。
♦ 雑種の実験の負荷量の絶対値が大きい主成分を
選ぶ(主成分Aとする)。
♦ 主成分Aで得点の絶対値が大きい遺伝子を探す。
♦ これらの遺伝子は菌感染に関係がある可能性があ
る。
こだわりコース
★合計点:𝟐𝟓 + 𝜶点
♦ 高得点を狙いたい人向きです。
♦ 専用の手順書などはありません。
♦ これまでのスライド、手順書、レポートなどを参照
してください。
★評価のポイント
♦ 使った方法の正確性
♦ 考察の妥当性
♦ その他のポイント
おまかせコース
★合計点:15点
♦ 何をしていいか分からない人向きです。
♦ 手順書に従って進めます。
♦ ただし、コマンドは書いていません。
• これまでの手順書のコマンドを利用してください。
★評価のポイント
♦ 手順書通りに解析できているか。
♦ 考察の妥当性
コース選択のおすすめ
★「おまかせコース」の手順書通りに進め
て、それ以外の解析をいくつか混ぜる。
♦ この場合も、「こだわりコース」として考えます。
♦ 検定、相関係数など。
𝑭𝑫𝑹のリマインド
★下の表で考えると……
♦ 病気と診断された人が10人
♦ 病気と診断された人のうち、病気でなかった人は3
人
𝟑
𝟏𝟎
♦ つまり、𝑭𝑫𝑹 =
となる、なかなか優秀…?
検査で陽性
検査で陰性
合計
実際に陽性
7
1
8
実際に陰性
3
89
92
合計
10
90
100
2種類のエラー
★偽陽性 False Positive
♦ 検査で陽性だが実際は陰性
• 「第一種の過誤(誤り)」「あわてんぼうのエラー」
• FDRは、こちらのエラーだけを評価している。
★偽陰性 False Negative
♦ 検査で陰性だが実際は陽性
• 「第二種の過誤(誤り)」「うっかりもののエラー」
★意識しないとどちらかのエラーを忘れがち
2種類のエラーに関する4項目
★True positive (TP)
♦ 調べて陽性のものが、実際に陽性。
★True negative (TN)
♦ 調べて陰性のものが、実際に陰性。
★False positive (FP)
♦ 調べて陽性のものが、実際には陰性。
★False negative (FN)
♦ 調べて陰性のものが、実際には陽性。
2種類のエラーを評価する指標
★𝑭𝑫𝑹 =
𝑭𝑷
𝑻𝑷+𝑭𝑷
★𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 =
★𝑹𝒆𝒄𝒂𝒍𝒍 =
𝑻𝑷
、つまり𝟏
𝑻𝑷+𝑭𝑷
𝑻𝑷
𝑻𝑷+𝑭𝑵
★F-measure=
− 𝑭𝑫𝑹
2種類のエラーをひとつ
の指標で評価
𝟏
𝟏
𝟏
+
𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 𝑹𝒆𝒄𝒂𝒍𝒍
=
𝟐𝑻𝑷
𝑻𝑷+𝑭𝑷 +(𝑻𝑷+𝑭𝑵)
医療検査と2種類のエラー
★ある病気の検査方法の信頼度は?
実際に
陽性
実際に
陰性
検査で
陽性
検査で
陰性
True Positive
False Negative
False Positive
True Negative
20
80
8
12
8
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
= 40%
20
0
80
8
𝑅𝑒𝑐𝑎𝑙𝑙 = = 100%
8
8
92
医療検査と2種類のエラー
偽陽性
偽陰性
検査で陽性
検査で陰性
精密検査で陰性
実は陽性
ほっとひと息
これは困る
情報検索と2種類のエラー
★あるブラウザの検出の信頼度は?
目的の
ページ
関係ない
ページ
ブラウザで
ヒット
ブラウザで
ノーヒット
8
0
8
992
999,000
999,992
1000
999,000
8
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
= 0.8%
1000
8
𝑅𝑒𝑐𝑎𝑙𝑙 = = 100%
8
情報検索と2種類のエラー
★あるブラウザの検出の信頼度は?
目的の
ページ
関係ない
ページ
ブラウザで
ヒット
ブラウザで
ノーヒット
3
5
8
7
999,985
999,992
10
999,990
3
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
= 30%
10
3
𝑅𝑒𝑐𝑎𝑙𝑙 = = 37.5%
8
情報検索と2種類のエラー
偽陽性
偽陰性
ブラウザでヒット
ブラウザでヒットせず
実は外れ
実は当たり
これが多すぎると困る
ひとつも当らないと困
る
外れ値
★グラブスの検定
♦ 目的
• データセット中でひとつだけ離れた値を外す
• 纏めて省くときは…
– クラスタリング、主成分分析
– ただし、省く理由は必要です!!
♦ 手順
• 離れていると予想される値の𝑍値を計算
• グラブスの表で𝑝値を得る
グラブスの検定
A
B
1
35
31
2
26
27
3
41
8
平均
34
22
SD
6
10
長さ
60
42
26 − 34
= 1.333
6
8 − 22
= 1.400
10
どちらも1%の危険率で有意に外れる
実験数
5%
1%
3
1.153
1.155
今日の課題・1
★以下の医療検査結果(簡易検査)について、
𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏と𝒓𝒆𝒄𝒂𝒍𝒍を計算し、この検査方法の
信頼度と実用性について考察しなさい。
検査で陽性
検査で陰性
実際に
陽性
True Positive
False Negative
実際に
陰性
False Positive
True Negative
10
90
7
3
1
89
8
92
今日の課題・2
★「生物統計学」の感想を書いてください。