生物統計学・第1回 統計解析を始める前に

生物統計学・第10回
違いを調べる(2)
検定-2 (𝑼検定)
2014年12月2日
生命環境科学域 応用生命科学類
尾形 善之
今日の流れ
★講義
♦ 対応のあるデータセット
♦ パラメトリック
♦ ふたつの𝑈検定
★𝑹を使った𝒕検定と𝑼検定の実習
データセットの対応
対応なし
対応あり
繰り返し
At1g56650
At3g43660
実験
At1g56650
At3g43660
1
113.3
8.7
1
308.5
27.5
2
58.4
25.5
2
77.2
18.0
3
59.9
19.7
3
69.7
20.5
4
96.2
13.3
5
40.3
16.8
6
53.1
17.7
⋮
⋮
⋮
79
77.7
99.4
並べ替えても同じ意味
勝手に並べ替えてはダメ
データセットの対応を見る理由
★検定の計算方法が変わる
♦ 𝑡検定
• 対応あり:1対の標本による検定
• 対応なし:2標本による検定
♦ 𝑈検定
• 対応あり:ウィルコクスンの符号付順位和検定
• 対応なし:マン・ホイットニーの検定
パラメトリックとノンパラメ
トリック
★滑らかな分布になっているかどうか
パラメト
リック
10
60
110
160
210
260
310
360
410
460
実
験
数
14
12
10
8
6
4
2
0
発現量
At1g56650の発現量
(算術平均:137?)
実
験
数
14
12
10
8
6
4
2
0
ノンパラメト
リック
10
60
110
160
210
260
310
360
410
460
At5g19840の発現量
(算術平均:134)
発現量
パラメトリックを調べる理由
★パラメトリック
♦ 𝑡検定
♦ 𝑈検定
★ノンパラメトリック
♦ 𝑈検定のみ
ふたつのデータセットの検定
パラメトリック
対応あり
対応のある𝒕検定
(1対の標本)
対応なし
対応のない𝒕検定
(2標本)
ノンパラメトリック
ウィルコクスンの検定
定
(正確には、ウィルコクスンの符
の符号付順位和検定)
マン・ホイットニーの検
の検定
チェックポイント・I
1. 対応のあるデータセット、対応のない
データセットとは?
2. パラメトリック、ノンパラメトリックとは?
3. ふたつのデータセットに対する検定方
法の使い分けは?
𝑼検定
★マン・ホイットニーの検定
♦ 対応のないデータセット
• 対応のあるデータセットでも可能
♦ 注目遺伝子のひとつのデータに注目
• 対照遺伝子の79データに対して大きい個数を数える
• 79データ全部で個数を数えて合計する
♦ 検定表で𝑝値を得る
マン・ホイットニーの検定の実際
注目遺伝子
対照遺伝子
大きい個数
309
171
10
77
129
0
69
150
0
96
144
0
40
131
0
53
120
0
47
139
0
141
149
6
125
111
3
87
118
0
19
検定表により、危険率
5%で有意
もうひとつの𝑼検定
★ウィルコクスンの検定
♦ 正確には、ウィルコクスンの符号付順位和検定
♦ 対応のあるデータセット
♦ 実験ごとに差を計算
• 注目遺伝子の発現量-対照遺伝子の発現量
♦ 差の絶対値の大きい順に順位づけ
♦ 差が正のときの順位の合計を計算
♦ 検定表で𝑝値を得る
ウィルコクスンの検定の実際
注目遺伝子 対照遺伝子
差
差の絶対
値の順位
309
171
138
1
77
129
-52
6
69
150
-81
4
96
144
-48
7
40
131
-91
3
53
120
-67
5
47
139
-92
2
141
149
-8
10
125
111
14
9
87
118
-31
8
差が正のときの順位の合計
10
検定表により、危険率
5%で有意
実用的な𝑼検定
★𝑹を使います!
♦ エクセルでは少々手間がかかります
♦ 𝑡検定と併せて実習します
チェックポイント・II
4. マン・ホイットニー検定の手順は?
5. ウィルコクスンの符号付順位和検定の
手順は?
6. 𝒕検定と𝑼検定の疑問点を書いてくださ
い。
今日の実習と課題
★モデルデータで𝑹を使って𝒕検定と𝑼検
定を実習します
♦ 今回も「対応のある」検定です
♦ 「test141202.txt」を使います
次回までの予習
★次回は分散分析を紹介します。