生物統計学・第1回 統計解析を始める前に

生物統計学・第7回
違いを調べる(2)
分散分析(ANOVA, MANOVA)
2013年11月18日
生命環境科学域 応用生命科学類
尾形 善之
まず最初に……
★前回のレポート
今日も盛りだくさんでいきます
★ 𝒕検定
♦ もう少し説明、いろいろな例
★ 𝑼検定
♦ 目的と手順、ふたつの𝑈検定
★標準化と主成分分析
♦ 標準化による影響
★分散分析
♦ 今回は目的まで
𝒕検定の手順 より丁寧に
★データの用意
♦ 2遺伝子、79実験、パラメトリック、対応あり
★検定の準備
♦ 平均、分散、自由度の計算
★検定の第一歩
ここまでは手計算できる
♦ 検定統計量𝑡値の計算
★検定の第二歩
♦ 𝑝値の取得
手計算できない
𝒕値と𝒑値
この面積が𝒑値
ここが𝒕値としたら
データの用意と検定の準備
★パラメトリック、平均、分散、自由度
分散:101947
10
60
110
160
210
260
310
360
410
460
実
験
数
35
30
25
20
15
10
5
0
発現量
At3g43660の発現量
(算術平均:25)
実
験
数
35
30
25
20
15
10
5
0
分散:194
10
60
110
160
210
260
310
360
410
460
At1g56650の発現量
(算術平均:137)
発現量
3種類の𝒕検定
★実はデータセットに依存して3種類ありま
す
♦ 「対応のある」
• 今回は実はこのケースです(各実験が対応)
– 今回はこの方法で計算します
♦ 「対応のない」
• ふたつのデータセットの分散が等しい
– 標準化したデータに向いています
• ふたつのデータセットの分散が等しくない
– 前回はこの方法で説明しました
– 繰り返し実験のときなど
𝒕値の計算
★79実験での差の平均:112.3
★差の標準誤差:35.8
差の平均
★𝒕 =
差の標準誤差
★𝑡 =
112.3
35.8
= 3.135
実験
At1g56650
At3g43660
差
1
308.5
27.5
281.0
2
77.2
18.0
59.2
3
69.7
20.5
49.2
4
96.2
13.3
82.9
5
40.3
16.8
23.5
6
53.1
17.7
35.4
⋮
⋮
⋮
⋮
79
77.7
99.4
-21.7
平均
137.3
25.0
112.3
𝒕分布表
5% 2% 1% 0.1%
自由度
5%
1%
0.1%
60
2.000
2.660
3.460
120
1.980
2.617
3.373
3.135は危険率1%で有意、まで言える
𝒕検定で覚えてもらいたいこと
★データセット
♦ パラメトリックかどうか
★検定結果の見方
♦ 𝑡値と𝑝値(有意確率)
★結果の解釈
♦ 「データセットの平均値には差がある」
♦ 「差があるとはいえない」
• 「差がない」とはいえない
• でも、最近は「差がない」根拠とすることも……
いろいろなケースでの𝒕検定
𝒕値3.135は危険率1%で有意
𝒕値0.083は仮説を棄却できず
𝒕値2.313は危険率5%で有意
チェックポイント・I
1.
𝒕検定の手順は?
2.
𝒕値と𝒑値の関係は?
3.
𝒕検定で大事なこと3つは?
4.
𝒕検定の手順は理解できましたか?
𝑼検定
★マン・ホイットニーの検定
♦ 注目遺伝子のひとつのデータに注目
• 対照遺伝子の79データに対して大きい個数を数える
• 79データ全部で個数を数えて合計する
♦ 検定表で𝑝値を得る
マン・ホイットニーの検定の実際
注目遺伝子
対照遺伝子
大きい個数
309
171
10
77
129
0
69
150
0
96
144
0
40
131
0
53
120
0
47
139
0
141
149
6
125
111
3
87
118
0
19
検定表により、危険率
5%で有意
もうひとつの𝑼検定
★ウィルコクスンの検定
♦ 実験ごとに差を計算
• 注目遺伝子の発現量-対照遺伝子の発現量
♦ 差の絶対値の大きい順に順位づけ
♦ 差が正のときの順位の合計を計算
ウィルコクスンの検定の実際
注目遺伝子 対照遺伝子
差
差の絶対
値の順位
309
171
138
1
77
129
-52
6
69
150
-81
4
96
144
-48
7
40
131
-91
3
53
120
-67
5
47
139
-92
2
141
149
-8
10
125
111
14
9
87
118
-31
8
差が正のときの順位の合計
10
検定表により、危険率
5%で有意
チェックポイント・II
5.
マン・ホイットニーの検定の手順は?
6.
ウィルコクスンの検定の手順は?
ちょっとひといき……
★統計解析の略語(隠語……)
♦ PCA:主成分分析
♦ SD:標準偏差(𝑎𝑣𝑒𝑟𝑎𝑔𝑒 ± 𝑆𝐷)
♦ SE:標準誤差(𝑎𝑣𝑒𝑟𝑎𝑔𝑒 ± 𝑆𝐸)
♦ ノンパラ:ノンパラメトリック
♦ 𝑡値:𝑡検定での検定統計量
♦ 𝑝値:確率、特に𝑡検定の時は有意確率
Z化、今日は簡単に
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
♦ データ全体が正規分布に近いとき
• 分布が偏っていると正確に評価できない
標準化データ
★計算式
♦𝑍 =
308.5−137.3
319.3
= 0.536
♦ 𝑍値の場合は、正負が混ざります
元のデータ
標準化データ
308.5
0.536
77.2
-0.187
69.7
-0.209
96.2
-0.127
標準化データでの主成分分析
標準化前の寄与率
標準化後の寄与率
標準化前の第一主成分が消えた!
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
負荷量のグラフに原点が出現!
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
ちょっと似ていませんか? やっぱり変な花粉です
標準化データでの主成分分析
標準化前の得点
標準化後の得点
得点の分布がやや均等になっています
標準化データでの主成分分析
標準化前の得点
標準化後の得点
細かく見るとけっこう違いますね
チェックポイント・III
7. 標準化のあるなしで主成分分析の結
果はどのように変わったか?
8. 標準化による主成分分析の変化につ
いてどんな印象・疑問点を持ちました
か?
分散分析
★判別分析とともに次回取り上げます
★分散分析の目的
♦ 複数グループでの差の検定
• 𝑡検定は2グループでの検定
• でも、どこかに違いがあることがわかるだけ……
今日の自習のポイント
★今日の作業もエクセルでできます!
♦ 「ttest131118.xlsx」をダウンロード
♦ 実は𝑡検定の𝑝値はエクセルのワークシート関数でも
計算できます
• = 𝑡𝑡𝑒𝑠𝑡(𝐴1: 𝐴79, 𝐵1: 𝐵79,2,1)
次回までの予習
★次回は「分散分析・判別分析」です
♦ 教科書
• 分散分析、多変量分散分析
• 判別分析
• 多重比較
本日の課題
★ふたつの遺伝子の79実験での発現データ
に関して
1.
𝒕検定について、検定の種類・検定統計
量の算出・有意の判定方法を答えなさい。
2.
𝒕検定、𝑼検定、標準化データの主成分
分析の印象・疑問点を書いてください。