生物統計学・第9回 違いを調べる(1) 検定-1 (𝒕検定) 2014年11月25日 生命環境科学域 応用生命科学類 尾形 善之 今日の流れ ★先週の主成分分析の解答例 ♦ 答案の書き方 ★𝒕検定の講義と操作方法 答案・1 / 6 ★注目遺伝子名を書く ♦ 注目遺伝子:AT1G56650 ★遺伝子数と実験数を書く ♦ 注目遺伝子を含む20遺伝子について5つの組織 の15実験を選び、主成分分析を行った。 答案・2 / 6 ★寄与率の結果と考察 ♦ 累積寄与率は第3主成分で95%を超えるので、第3主 成分までを有効とする。 寄与率(%) 累積寄与率 第1主成分 72.7 72.7 第2主成分 16.6 89.3 第3主成分 6.7 96.0 第4主成分 2.3 98.3 答案・3 / 6 ★負荷量の結果 ♦ 第1、第2主成分の負荷量の グラフから、15実験は主に3 つのグループ(1、2、3)に分 かれた。 ♦ グループ1は第2主成分が正、 グループ2は第1主成分が負、 グループ3は第1主成分は正、 第2主成分は負となった。 答案・4 / 6 ★負荷量と実験情報 ♦ 実験情報から、グループ1は 葉と根と花弁、グループ2は 枯葉、グループ3は茎である。 答案・5 / 6 ★得点の結果 ♦ 第1、第2主成分の得点の グラフから、第2主成分で 正の遺伝子群(丸1)、第1 主成分で負の遺伝子群 (丸2)、第1主成分が正で 第2主成分が負の遺伝子 群(丸3)が見つかった。 答案・6 / 6 ★得点と負荷量と実験情報を 踏まえた考察 ♦ Biplotグラフから以下のように推 察できる。 • 丸1:葉、根、花弁で発現している遺 伝子 • 丸2:枯葉で発現している遺伝子 • 丸3:茎で発現している遺伝子 ♦ 注目遺伝子は丸2に含まれること から、枯葉で発現していると考え られる。 答案・追加 ★もし注目遺伝子が以下のような場合に は、第3主成分についても考察する。 ♦ 第1、第2主成分の得点が原点付近にある。 ♦ 注目遺伝子の方向と一致する適当な実験が見当 たらない。 主成分分析・符号の話 実験 (成分)2 実験 (成分)2 どちらの向きもあり得 る 発現量 実験(成分)1 実験1、2ともに発現量の大き い遺伝子は主成分得点も大 きい 発現量 実験(成分)1 実験1、2ともに発現量の大き い遺伝子は主成分得点は小 さい チェックポイント ★主成分分析の答案の書き方について、 疑問点を書いてください。 検定 ★検定とは…… ♦ みんなを納得させるのが目的 • 丸1と丸2は本当に違うのか? • 統計的に説明する ★検定の種類 ♦ 𝑡検定と𝑈検定 ★𝒕検定の実用例 ♦ 平均の差の検定 • 二つの遺伝子の平均発現量は違うか? 実際の𝒕検定 ★ふたつの分布を比較 ♦ 平均値が違うことを言いたい 帰無仮説… ★実際の統計解析の手順 ♦ 「平均値は違わない」と仮定(きむかせつ) ♦ 𝑡検定の結果、仮定を捨てる ♦ つまり、「平均値は違う」と統計的に言える 実際に𝒕検定してみると…… ★ふたつのデータの分布を比較します At1g56650の発現量 (算術平均:137) 発現量 35 30 25 20 15 10 5 0 10 60 110 160 210 260 310 360 410 460 実 験 数 10 60 110 160 210 260 310 360 410 460 実 験 数 35 30 25 20 15 10 5 0 At3g43660の発現量 (算術平均:25) 発現量 手作業の𝒕値の計算 ★79実験での差の平均:112.3 ★差の(標本)標準誤差:36.1 差の平均 ★𝒕 = 差の標準誤差 ★𝑡 = 112.3 36.1 = 3.115 実験 At1g56650 At3g43660 差 1 308.5 27.5 281.0 2 77.2 18.0 59.2 3 69.7 20.5 49.2 4 96.2 13.3 82.9 5 40.3 16.8 23.5 6 53.1 17.7 35.4 ⋮ ⋮ ⋮ ⋮ 79 77.7 99.4 -21.7 平均 137.3 25.0 112.3 𝒕分布表 5% 2% 1% 0.1% P=5% P=1% P=0.1% 自由度60 2.000 2.660 3.460 自由度120 1.980 2.617 3.373 • 表の数値より大きければ「有意」 • 3.115は危険率1%で有意、まで言え る 実際の𝒕検定の計算…… ★エクセルで計算できます • ここの確率が「きむか せつ」の確率 • 0.05 (5%)以下なら「き むかせつ」を捨てる • つまり、「ふたつの データの平均値には 差がある」と統計的に 言える 𝒑値の計算だけなら…… ★「ttest」ワークシート関数が使えます ♦ 「=ttest(A2:A80,B2:B80,2,1)」 • • • • 配列1:A2~A80セルまでのデータ 配列2:B2~B80セルまでのデータ 検定の指定:片側なら1、両側なら2 検定の種類 – 1: 対応のあるデータ – 2: 対応のない等分散 – 3: 対応のない非等分散 3種類の𝒕検定 ★実はデータセットに依存して3種類ありま す ♦ 「対応のある」 • 今回は実はこのケースです(各実験が対応) – 今回はこの方法で計算します ♦ 「対応のない」 • ふたつのデータセットの分散が等しい – 標準化したデータに向いています • ふたつのデータセットの分散が等しくない – 前回はこの方法で説明しました – 繰り返し実験のときなど 𝒕検定で覚えてもらいたいこと ★データセット ♦ パラメトリックかどうか ★検定結果の見方 ♦ 𝑡値と𝑝値(有意確率) ★結果の解釈 ♦ 「データセットの平均値には差がある」 ♦ 「差があるとはいえない」 • 「差がない」とはいえない • でも、最近は「差がない」根拠とすることも…… いろいろなケースでの𝒕検定 𝒕値3.135は危険率1%で有意 𝒕値0.083は仮説を棄却できず 𝒕値2.313は危険率5%で有意 チェックポイント・I 1. 𝒕検定の手順は? 2. 𝒕検定で大事なこと3つは? 3. 3種類の𝒕検定とは? 4. 𝒕検定について理解できましたか? 今日の実習と課題 ★モデルデータで𝒕検定の作業を実習しま す ♦ 今回は「対応のある」𝑡検定です ♦ 「ttest141124.xlsx」を使います 次回までの予習 ★次回は𝒕検定の実習と𝑼検定です。 ♦ 𝑈検定について予習しておいてください。
© Copyright 2024 ExpyDoc