生物統計学・第8回 違いを調べる(4) -その他の分析- 2015年11月24日 生命環境科学域 応用生命科学類 尾形 善之 本日の内容 ★カイ二乗検定(実習付き) ★分散分析 検定の実際の流れ ★𝒕検定の場合 𝒕分布 𝒕値:元のデータの違い によって計算される 𝒑値: 𝒕値以上の範囲の 面積として計算される 元のデータの分 布 統計量の分布 検定と分布 検定方法 データの分布 (得意なデータ) 𝒕検定 正規分布 パラメトリック 𝑼検定 カイ(c)二乗検定 統計量と 分布 判定す る値 𝒕値と 𝒕分布 𝒑値 非正規分布 ノンパラメトリッ リック 𝑼値と 正規分布 𝒑値 二項分布 𝟐 × 𝟐分割表 c𝟐 値と c𝟐 分布 𝒑値 カイ二乗検定とは ★独立性の検定 ★適合度の検定 ★カイ二乗分布で検定する ★𝟐 × 𝟐の分割表で活躍 独立性の検定 ★ふたつのデータの傾向に違いがあるかを 検定 A B 合計 1 2 3 4 5 合計 250 58 62 86 54 510 40 20 21 24 19 124 290 78 83 110 73 634 独立性の検定の手順 ★仮説(対立仮説)を立てる ♦ ふたつの遺伝子の発現傾向には違いがある ★帰無仮説を立てる ♦ ふたつの遺伝子の発現傾向には違いがない ★カイ二乗検定して帰無仮説を捨てる ♦ 𝒑 < 𝟎. 𝟎𝟓ならば、「発現傾向には違いがある」 • どこが、とは言えない ♦ 𝒑 ≥ 𝟎. 𝟎𝟓ならば、「発現傾向に違いがあるとは言 えない」 エクセルでの独立性の検定・1 ★期待値を計算する A B C(合計) D(A’) E(B’) 56.7 15.3 16.2 21.5 14.3 124 1 250 40 290 𝟓𝟏𝟎 𝟐𝟗𝟎 × = 𝟐𝟑𝟑. 𝟑 𝟔𝟑𝟒 2 58 62 86 54 510 20 21 24 19 124 78 83 110 73 634 62.7 66.8 88.5 58.7 510 3 4 5 合計 エクセルでの独立性の検定・2 ★A、B列とD、E列から𝒑値を計算する ♦ =CHITEST(A1:B5,D1,E5) ♦ 𝑝 = 0.017となり、帰無仮説は棄却できる ♦ 両遺伝子の発現量の傾向に違いがあると言える こんなデータだったら…… ★期待値を計算する A B C(合計) D(A’) E(B’) 56.7 15.3 16.2 21.5 14.3 124 1 200 40 240 𝟓𝟏𝟎 𝟐𝟒𝟎 × = 𝟏𝟗𝟑. 𝟏 𝟔𝟑𝟒 2 58 62 136 54 510 20 21 24 19 124 78 83 160 73 634 62.7 66.8 128.7 58.7 510 3 4 5 合計 こんなデータだったら…… ★A、B列とD、E列から𝒑値を計算する ♦ =CHITEST(A1:B5,D1,E5) ♦ 𝑝 = 0.064となり、帰無仮説は棄却されない ♦ 両遺伝子の発現量の傾向に違いがあるとは言えな い カイ二乗検定と相関係数 ★傾向が違う ♦ カイ二乗検定(独立性の検定) ★傾向が似ている ♦ 相関係数 適合度の検定 ★実測値と期待値を比較する点では独立 性の検定と同じ ♦ これらの遺伝子は特異的に発現していると言える か? A: 遺伝子A B: 遺伝子B C: Aの平均 D: Bの平均 1 200 40 102 24.8 2 58 20 102 24.8 3 62 21 102 24.8 4 136 24 102 24.8 5 54 19 102 24.8 合計 510 124 510 124 適合度の検定 ★遺伝子Aの場合 ♦ 「=CHITEST(A1:A5,C1:C5)」 ♦ 𝑝 = 3.7 × 10−34 となり、帰無仮説は棄却できる ★遺伝子Bの場合 ♦ 𝑝 = 0.016となり、帰無仮説は棄却できる 𝟐 × 𝟐分割表の検定 ★検査結果と罹病性との関係を調べる ♦ 独立性の検定をする。 ♦ 𝒑 = 𝟐. 𝟓 × 𝟏𝟎−𝟏𝟒 となり、検査の陽性と陰性は実 際の罹病性に違いがある。 • 検査が有効とまでは言っていない。 チェックポイント・I 1. 独立性の検定の手順は? 2. 適合度の検定の手順は? 3. カイ二乗検定は分かりましたか? 分散分析(ANOVA) ★複数の遺伝子間での発現量の差を検 定する ♦ 𝑡検定は2遺伝子間でしか検定できない ♦ ただし、どこかに違いがあるとわかるだけ…… ♦ 結局、どこに違いがあるか知りたくなる…… 分散分析の実際 ★3つ以上のデータセットの違いを示す ★パラメトリックなデータセットのみ ♦ 平均と分散(標準偏差)を利用しているため ★作業はエクセルのデータ分析でできる ★統計量は𝒇値(𝒇分布)となる ★最終的に𝒑値を読み取る ★言えることは「データセットのどこかに違 いがある」というだけ 分散分析の答案例 ★どの遺伝子のどの実験を使ったか ★一元配置か二元配置か ♦ 79組織からひとつずつ選んでいれば「一元配置」 ♦ 79 組織 x 3繰り返し実験の場合は「二元配置」 ★𝒇値(統計量、なくても構いません) ★𝒑値(𝑡検定と同様に解釈) ♦ 「有意なので、遺伝子間のどこかの発現量が違う」 ♦ 「有意でないので、違いがあるとは言えない」 一元配置と二元配置 一元配置 二元配置 実験 At1g56650 At3g43660 実験 繰り返し At1g56650 At3g43660 1 308.5 27.5 1 1 318.8 36.8 2 77.2 18.0 1 2 280.2 5.4 3 69.7 20.5 1 3 326.6 40.4 4 96.2 13.3 2 1 113.3 8.7 5 40.3 16.8 2 2 58.4 25.5 6 53.1 17.7 2 3 59.9 19.7 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 79 77.7 99.4 79 3 103.7 131.1 自由度について・1 ★検定に使うデータセットについて、いく つのデータを決めれば、残りの数値が自 動的に決まるか? ♦ 「自由に決められるデータがいくつか」という意味 ★分析の種類によって違ってくるのが厄 介… ★検定によっては、小数で出てくるものも 自由度について・2 ★右の4実験のデータの場合 ♦ 自由度は「𝟒 − 𝟏 = 𝟑」となる ♦ なぜ実験数から1を引くのか? ♦ 標準化したデータを使っている • 分散や平均を利用するため ♦ 3つのデータが決まると、 • 残りのひとつが自動的に決まる • この場合「0.5」に決まる 標準化した発現量 (二乗和が1) 0.5 0.5 0.5 ? 判別分析 ★2つ以上のデータをグループ分けする ♦ 実際にはクラスタリングの方が便利 ♦ 統計的にグループ分けの有意を言いたいときに 使う ★予め分類しておくことが必要 ♦ 一部のデータで予測し、全体を分類する ♦ 予め分類できないときは、主成分分析が有利 ★エクセルの分析ツールには含まれない ♦ Rや統計ソフトを使う チェックポイント・2 4. 分散分析でできることは? 5. 一元配置と二元配置の違いは? 6. 自由度についての疑問点を書いてくだ さい。 本日の実習 ★独立性の検定 ♦ 注目遺伝子と発現量の近い別の遺伝子について、 実験群を𝟑 × 𝟑実験選んで、独立性の検定をしな さい。 ♦ 異なる組織をなるべく混ぜること。 • 例えば、葉・花・根の3組織など ★適合度の検定 ♦ 独立性の検定で選んだ遺伝子と実験群を使い、 発現量の平均値に対する適合度の検定を行いな さい。 本日の課題 ★注目遺伝子と比較する遺伝子について、 独立性の検定の結果から、両遺伝子の 発現傾向に違いがあるかを考察しなさい。 ★両遺伝子の適合度の検定の結果から、 それぞれの遺伝子が特異的な発現を示 しているかを考察しなさい。
© Copyright 2025 ExpyDoc