実際に陰性

生物統計学・第7回
違いを調べる(3)
-𝒑値と𝑭𝑫𝑹-
2015年11月17日
生命環境科学域 応用生命科学類
尾形 善之
前回のフォロー・1
★Rでの検定の𝒑値
♦ どうやら𝒑値が限りなく小さいとき、
♦ 「𝒑 < 𝟐. 𝟐𝒆 − 𝟏𝟔」
♦ と表示されるようです。
♦ 実際の数字はそれよりも小さいと思います。
♦ 結果としてエクセルの 𝒑 値と同じと考えてください。
前回のフォロー・2
パラメトリック
対応あり
対応のある𝐭検定
(1対の標本)
対応なし
対応のない𝐭検定
(2標本)
ノンパラメトリック
ウィルコクスンの検定
定
(正確には、ウィルコクスンの符
の符号付順位和検定)
マン・ホイットニーの検
の検定
前回のフォロー・3
★パラメトリックかノンパラメトリックかの判
断
♦ 簡単には、ヒストグラムを見る
ノンパラメトリッ
♦ 統計学的には、「正規性の検定」を行う
パラメトリック
ク
ここまでのおさらい・1
★木を見て森を見てまた木を見る
♦ 注目遺伝子を決める
♦ データ全体の中で注目遺伝子の特徴を知る
• 遺伝子全体、実験全体
♦ 注目遺伝子の特徴について理解する
• 他の遺伝子と比べる
ここまでのおさらい・2
★みんなを納得させる
♦ 平均値の差について
♦ 𝒕検定や𝑼検定を使う
♦ 𝒑値を使って納得させる
♦ 𝒑値以外にも納得させる指標があります
• 比較的最近、はやってきた指標です
𝑭𝑫𝑹
★𝑭𝑫𝑹とは……
♦ False Discovery Rateの略です
• 詳しくは「エラーを調べる」の回でやります
♦ ある病気の検査方法で考えると……
♦ 病気と診断された人のうち、病気でなかった人
の割合
𝑭𝑫𝑹の例・1
★下の表で考えると……
♦ 病気と診断された人が20人
♦ 病気と診断された人のうち、病気でなかった人は12
人
𝟏𝟐
𝟐𝟎
♦ つまり、𝑭𝑫𝑹 =
となる、けっこう外れている
検査で陽性
検査で陰性
合計
実際に陽性
8
0
8
実際に陰性
12
80
92
合計
20
80
100
𝑭𝑫𝑹の例・2
★別の表で考えると……
♦ 病気と診断された人が10人
♦ 病気と診断された人のうち、病気でなかった人は3
人
𝟑
𝟏𝟎
♦ つまり、𝑭𝑫𝑹 =
となる、なかなか優秀…?
検査で陽性
検査で陰性
合計
実際に陽性
7
1
8
実際に陰性
3
89
92
合計
10
90
100
𝒑値と𝑭𝑫𝑹
★情報科学の分野ではなかなか活躍しま
す
♦ 𝒑値:分布を使った統計的な指標
♦ 𝑭𝑫𝑹:𝒑値に加え、ランダムデータの特徴を加味
• 違いのはっきりしたデータセットでは、𝒑値より緩い
• 違いのぼんやりしたデータセットでは、𝒑値より厳しい
違いのはっきりしたデータセット
★葉の9実験と根の9実験、ランダム18実験
★各遺伝子に対して、対応のないデータ
セットの非等分散での𝒕検定
★𝑭𝑫𝑹の方が𝒑値よりも一般的に少し甘い
𝒕値
2.0
2.1
2.2
2.3
生データの
遺伝子数
ランダムデータの
の
遺伝子数
𝒑値
𝑭𝑫𝑹
16121
15848
15569
15341
882
729
605
494
0.076553
0.065118
0.055341
0.046999
0.054711
0.045999
0.038859
0.032201
違いのぼんやりしたデータセッ
ト
★若葉9実験、成熟葉9実験、ランダム18実
験
★各遺伝子に対して、対応のないデータセッ
トの非等分散での𝒕検定
ランダムデータの
★𝑭𝑫𝑹の方が𝒑値よりも一般的に少し厳しい
生データの
の
𝒕値
2.2
2.3
2.4
2.5
遺伝子数
11040
10737
10443
10130
遺伝子数
775
647
532
463
𝒑値
𝑭𝑫𝑹
0.055341
0.046999
0.039898
0.033862
0.070199
0.060259
0.050943
0.045706
チェックポイント・I
1.
𝑭𝑫𝑹とは?
2.
𝑭𝑫𝑹と𝒑値の関係は?
本日の実習・1
★3x3x2=18の実験データを選ぶ
♦ 3組織のデータ:互いに似ている組織を選ぶ
• 実験群Aとする
• 例えば、葉の3組織
♦ 3繰り返し:選んだ組織の繰り返しデータを使う
♦ 2種類:互いに似ている3組織をもう1種類選ぶ
• 実験群Bとする
• 実験群Aと似た組織なら、違いが「ぼんやり」する
• 実験群Aと違う組織なら、違いが「はっきり」する
– 例えば、根、花、種子の3組織
本日の実習・2
★選んだ実験データをランダムに並べ替え
る
♦ 𝑭𝑫𝑹の計算に必要になります
★元の実験データの𝒑値と𝒕値を計算する
★ランダムデータの𝒑値と𝒕値を計算する
★それぞれのデータの𝒕値のヒストグラムを
作る
本日の課題
★選んだ18実験での𝑭𝑫𝑹について、
♦ 5%、1%、0.1%のときに発現量に差がある遺伝子
の数を書きなさい。
♦ 𝑭𝑫𝑹と𝒑値との関係について、選んだ2種類の実
験群の特徴の違いを踏まえて、考察しなさい。
★検定、𝒑値、𝑭𝑫𝑹について疑問点を書
いてください。