生物統計学・第9回 類似性を調べる(1) -ピアソン相関係数- 2015年12月1日 生命環境科学域 応用生命科学類 尾形 善之 前回のフォロー1:適合度の検 定 ★遺伝子Aの場合 ♦ 「=CHITEST(A1:A5,C1:C5)」 ♦ 𝑝 = 3.7 × 10−34 となり、帰無仮説は棄却できる ♦ 遺伝子Aは特異的に発現していると言える • 適合度の検定では、各実験の発現量を平均値と比べてい る • 平均値から離れるほど、特異的に発現していると考えられ る 前回のフォロー2:検定の後… ★独立性の検定で有意となった。 ♦ 生物統計学としては、どうして有意が出たかを、 元のデータで確認する ♦ 発現傾向がどのように違うか? ★適合度の検定で有意となった。 ♦ 平均値から外れていると分かっただけ ♦ どの実験の発現量が平均値から外れているか? 前回のフォロー3:自由度 ★自由度は独立した実験数のこと ♦ 元のデータではすべての実験が独立している ♦ 検定で式(標準化、平均など)を使うと…… ♦ その式によって、ひとつの実験の値が計算できる ♦ その実験は独立しているとは言えない ♦ そのため、実験数から1を引く ★検定の種類によって、自由度の計算が 変わる 前回のフォロー4:自由度と検定 ★検定では分布曲線を使う ♦ 例えば、𝒕検定では𝒕分布を使います ★分布曲線は自由度で形が違う ♦ そのために、検定のときには自由度を求めます 前回のフォロー5:自由度の実 践 ★対応のある𝒕検定 ♦ 各実験が対応しているから、対応した実験数を使う ♦ 平均を計算するから、ひとつの実験が独立でない ★対応のない𝒕検定(等分散の場合) ♦ 実験が対応していないので、すべての実験数を使 う ♦ それぞれの遺伝子の平均を使うので、遺伝子ごと にひとつずつ、つまりふたつの実験が独立でない ★実用的な自由度の確かめ方…… ♦ エクセルの分析ツールなどを使って教えてもらいま 類似性を調べる指標 ★相関係数 ♦ ピアソン • もっとも一般的(パラメトリックのとき) ♦ スピアマン • ノンパラメトリックのとき • データが数値でないとき(順位など) 標準化、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため • 平均値もばらつきも単位も異なることがある ★標準化の計算 ♦ Z化 • これが最も代表的 • ピアソン相関係数に繋がります ♦ 単位ベクトル化、というものもあります Z化 ★計算方法 発現量−平均値 ♦ 𝒁値= 標準偏差 • なんだか偏差値に似ていますね 10× 得点−平均点 • 偏差値=50 + 標準偏差 ★使い道 ♦ データ全体がパラメトリックのとき • ノンパラメトリックだと正確に評価できない ピアソンの相関係数 ★正確には「ピアソンの積率相関係数」 平均値との差 ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 ★でもZ化したデータを使うと…… ♦𝑟 = 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 • これでOK 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1 Z化したデータの相関係数 ★標準偏差を含めて ♦ 相関係数 = 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差 平均値は0 ♦𝑟 = ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑛 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 × 𝑛 𝑛 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 標準偏差は1 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 Z値 At3g43660 Z値 1 308 77 69 96 40 118.0 96.7 27 18 20 13 16 18.8 4.7 1.96 -0.42 -0.51 -0.23 -0.81 1.74 -0.17 0.25 -1.23 -0.59 2 3 4 5 平均 標準偏差 発現量 − 平均値 𝒁値= 標準偏差 𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛 𝑟= = 0.825 𝑛 エクセルで計算する A B 1 308 27 2 77 18 ♦ これだけ 3 69 20 ♦ 「pearson」関数も同様 4 96 13 5 40 16 ★=correl(A1:A5,B1:B5) 相関係数の意味 ★正の相関係数 ♦ よく似ている ★負の相関係数 ♦ 逆の傾向 ★相関係数が0 ♦ まったく関係がない 相関係数の判断の目安 ★大体の目安 ♦ 0.8以上:かなり相関が高い ♦ 0.6以上:相関がある ★実は検定もできます ♦ エクセルで𝑝値を計算できます ♦ 𝑅表を使うこともできます 相関係数の検定 ★𝒕検定を利用します ♦ まずは𝑡値の計算 • 𝒕= 𝒓 × 𝒏−𝟐 𝟏−𝒓𝟐 • エクセルでは、 – 相関係数がA1セル、要素数が79とすると、 =ABS(A1)*SQRT(79-2)/SQRT(1-A1^2) ♦ 次に𝑝値の計算 • 𝑡値がA2セルとすると、 • =TDIST(A2,77,2) – 自由度:77、両側検定 相関係数の検定 ★相関係数の検定の自由度 ♦ 実験数-2 ♦ 対応のあるデータセットの実験数:237 ♦ それぞれの遺伝子の平均を計算:2 ♦ 自由度=237-2=235 相関係数の検定 ★𝒑値の解釈 ♦ 𝒑 < 𝟎. 𝟎𝟓のとき • ふたつの遺伝子の発現傾向は似ている ♦ 𝒑 ≥ 𝟎. 𝟎𝟓のとき • ふたつの遺伝子の発現傾向は似ているとは言えない • 傾向が違うと言いたければ、カイ二乗検定 従来の相関係数の検定 ★𝑹表を使います ♦ データ数と有意水準を使います ♦ 得られた相関係数が表の数値よりも高ければ、有 意となる ♦ http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/rtable.html チェックポイント・I 1. ピアソン相関係数の計算手順は? 2. ピアソン相関係数の検定手順は? 今日の実習・1 ★注目遺伝子とすべての遺伝子の間で 237実験に対してピアソン相関係数を計 算する。 ★相関係数の降順に遺伝子を並べ替える。 ★注目遺伝子、最大の相関係数の遺伝 子、最小の相関係数の遺伝子を選ぶ。 今日の実習・2 ★相関係数の検定する。 ★注目遺伝子、最大の相関係数の遺伝 子、最小の相関係数の遺伝子について、 ウェブツールを使って、遺伝子発現グラ フを描く。 今日の課題 ★注目遺伝子、相関係数が最大の遺伝 子、および最低の遺伝子について、それ ぞれの遺伝子発現の傾向と相関係数と の関係について考察しなさい。 ★ピアソン相関係数についての疑問点を 書いてください。
© Copyright 2025 ExpyDoc