生物統計学・第1回 統計解析を始める前に

生物統計学・第9回
違いを調べる(1)
検定-1 (𝒕検定)
2014年11月25日
生命環境科学域 応用生命科学類
尾形 善之
今日の流れ
★先週の主成分分析の解答例
♦ 答案の書き方
★𝒕検定の講義と操作方法
答案・1 / 6
★注目遺伝子名を書く
♦ 注目遺伝子:AT1G56650
★遺伝子数と実験数を書く
♦ 注目遺伝子を含む20遺伝子について5つの組織
の15実験を選び、主成分分析を行った。
答案・2 / 6
★寄与率の結果と考察
♦ 累積寄与率は第3主成分で95%を超えるので、第3主
成分までを有効とする。
寄与率(%) 累積寄与率
第1主成分
72.7
72.7
第2主成分
16.6
89.3
第3主成分
6.7
96.0
第4主成分
2.3
98.3
答案・3 / 6
★負荷量の結果
♦ 第1、第2主成分の負荷量の
グラフから、15実験は主に3
つのグループ(1、2、3)に分
かれた。
♦ グループ1は第2主成分が正、
グループ2は第1主成分が負、
グループ3は第1主成分は正、
第2主成分は負となった。
答案・4 / 6
★負荷量と実験情報
♦ 実験情報から、グループ1は
葉と根と花弁、グループ2は
枯葉、グループ3は茎である。
答案・5 / 6
★得点の結果
♦ 第1、第2主成分の得点の
グラフから、第2主成分で
正の遺伝子群(丸1)、第1
主成分で負の遺伝子群
(丸2)、第1主成分が正で
第2主成分が負の遺伝子
群(丸3)が見つかった。
答案・6 / 6
★得点と負荷量と実験情報を
踏まえた考察
♦ Biplotグラフから以下のように推
察できる。
• 丸1:葉、根、花弁で発現している遺
伝子
• 丸2:枯葉で発現している遺伝子
• 丸3:茎で発現している遺伝子
♦ 注目遺伝子は丸2に含まれること
から、枯葉で発現していると考え
られる。
答案・追加
★もし注目遺伝子が以下のような場合に
は、第3主成分についても考察する。
♦ 第1、第2主成分の得点が原点付近にある。
♦ 注目遺伝子の方向と一致する適当な実験が見当
たらない。
主成分分析・符号の話
実験
(成分)2
実験
(成分)2
どちらの向きもあり得
る
発現量
実験(成分)1
実験1、2ともに発現量の大き
い遺伝子は主成分得点も大
きい
発現量
実験(成分)1
実験1、2ともに発現量の大き
い遺伝子は主成分得点は小
さい
チェックポイント
★主成分分析の答案の書き方について、
疑問点を書いてください。
検定
★検定とは……
♦ みんなを納得させるのが目的
• 丸1と丸2は本当に違うのか?
• 統計的に説明する
★検定の種類
♦ 𝑡検定と𝑈検定
★𝒕検定の実用例
♦ 平均の差の検定
• 二つの遺伝子の平均発現量は違うか?
実際の𝒕検定
★ふたつの分布を比較
♦ 平均値が違うことを言いたい
帰無仮説…
★実際の統計解析の手順
♦ 「平均値は違わない」と仮定(きむかせつ)
♦ 𝑡検定の結果、仮定を捨てる
♦ つまり、「平均値は違う」と統計的に言える
実際に𝒕検定してみると……
★ふたつのデータの分布を比較します
At1g56650の発現量
(算術平均:137)
発現量
35
30
25
20
15
10
5
0
10
60
110
160
210
260
310
360
410
460
実
験
数
10
60
110
160
210
260
310
360
410
460
実
験
数
35
30
25
20
15
10
5
0
At3g43660の発現量
(算術平均:25)
発現量
手作業の𝒕値の計算
★79実験での差の平均:112.3
★差の(標本)標準誤差:36.1
差の平均
★𝒕 =
差の標準誤差
★𝑡 =
112.3
36.1
= 3.115
実験
At1g56650
At3g43660
差
1
308.5
27.5
281.0
2
77.2
18.0
59.2
3
69.7
20.5
49.2
4
96.2
13.3
82.9
5
40.3
16.8
23.5
6
53.1
17.7
35.4
⋮
⋮
⋮
⋮
79
77.7
99.4
-21.7
平均
137.3
25.0
112.3
𝒕分布表
5% 2% 1% 0.1%
P=5%
P=1%
P=0.1%
自由度60
2.000
2.660
3.460
自由度120
1.980
2.617
3.373
• 表の数値より大きければ「有意」
• 3.115は危険率1%で有意、まで言え
る
実際の𝒕検定の計算……
★エクセルで計算できます
• ここの確率が「きむか
せつ」の確率
• 0.05 (5%)以下なら「き
むかせつ」を捨てる
• つまり、「ふたつの
データの平均値には
差がある」と統計的に
言える
𝒑値の計算だけなら……
★「ttest」ワークシート関数が使えます
♦ 「=ttest(A2:A80,B2:B80,2,1)」
•
•
•
•
配列1:A2~A80セルまでのデータ
配列2:B2~B80セルまでのデータ
検定の指定:片側なら1、両側なら2
検定の種類
– 1: 対応のあるデータ
– 2: 対応のない等分散
– 3: 対応のない非等分散
3種類の𝒕検定
★実はデータセットに依存して3種類ありま
す
♦ 「対応のある」
• 今回は実はこのケースです(各実験が対応)
– 今回はこの方法で計算します
♦ 「対応のない」
• ふたつのデータセットの分散が等しい
– 標準化したデータに向いています
• ふたつのデータセットの分散が等しくない
– 前回はこの方法で説明しました
– 繰り返し実験のときなど
𝒕検定で覚えてもらいたいこと
★データセット
♦ パラメトリックかどうか
★検定結果の見方
♦ 𝑡値と𝑝値(有意確率)
★結果の解釈
♦ 「データセットの平均値には差がある」
♦ 「差があるとはいえない」
• 「差がない」とはいえない
• でも、最近は「差がない」根拠とすることも……
いろいろなケースでの𝒕検定
𝒕値3.135は危険率1%で有意
𝒕値0.083は仮説を棄却できず
𝒕値2.313は危険率5%で有意
チェックポイント・I
1.
𝒕検定の手順は?
2.
𝒕検定で大事なこと3つは?
3.
3種類の𝒕検定とは?
4.
𝒕検定について理解できましたか?
今日の実習と課題
★モデルデータで𝒕検定の作業を実習しま
す
♦ 今回は「対応のある」𝑡検定です
♦ 「ttest141124.xlsx」を使います
次回までの予習
★次回は𝒕検定の実習と𝑼検定です。
♦ 𝑈検定について予習しておいてください。