生物統計学・第13回 類似性を調べる 相関係数(ピアソン、スピアマン) 2015年1月13日 生命環境科学域 応用生命科学類 尾形 善之 今日の流れ ★講義 ♦ カイ二乗検定 ♦ 相関係数 ★実習 ★エクセルを使ったカイ二乗検定 ★エクセルを使った相関係数 カイ二乗検定 ★次回詳しく…… ★独立性の検定 ★適合度の検定 ★比の検定 カイ二乗検定 ★𝒇分布とカイ二乗分布 独立性の検定 ★ふたつのデータに違いがあることを検定 A B 合計 1 308 27 335 2 77 18 95 3 69 20 89 4 96 13 109 5 40 16 56 合計 590 94 684 独立性の検定 ★帰無仮説 ♦ ふたつの遺伝子の発現には違いがない ★仮説(対立仮説) ♦ ふたつの遺伝子の発現には違いがある A B 合計 1 308 27 335 2 77 18 95 3 69 20 89 4 96 13 109 5 40 16 56 合計 590 94 684 エクセルでの独立性の検定・1 ★期待値を計算する A B C(合計) D(A’) 1 308 27 335 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 13 109 94.0 15.0 5 40 16 56 48.3 7.7 合計 590 94 684 = 𝟑𝟑𝟓 × 𝟓𝟗𝟎 𝟔𝟖𝟒 E(B’) 46.0 エクセルでの独立性の検定・2 ★A列とD列から𝒑値を計算する ♦ =CHITEST(A1:A5,D1,D5) ♦ 𝑝 = 0.433となり、帰無仮説は棄却できない ♦ 両遺伝子の発現量に違いがあるとはいえない A B C(合計) D(A’) 1 308 27 335 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 13 109 94.0 15.0 5 40 16 56 48.3 7.7 合計 590 94 684 = 𝟑𝟑𝟓 × 𝟓𝟗𝟎 𝟔𝟖𝟒 E(B’) 46.0 こんなデータだったら…… ★期待値を計算する A B C(合計) D(A’) E(B’) 1 308 13 321 276.9 44.1 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 16 112 96.6 15.4 5 40 27 67 57.8 9.2 合計 590 94 684 エクセルでの独立性の検定 ★A列とD列から𝒑値を計算する ♦ =CHITEST(A1:A5,D1,D5) ♦ 𝑝 = 0.039となり、帰無仮説は棄却される ♦ 両遺伝子の発現量に違いがあるといえる A B C(合計) D(A’) E(B’) 1 308 13 321 276.9 44.1 2 77 18 95 81.9 13.1 3 69 20 89 76.8 12.2 4 96 16 112 96.6 15.4 5 40 27 67 57.8 9.2 合計 590 94 684 チェックポイント・I 1. カイ二乗検定とは? 2. 独立性の検定の手順を書きなさい。 類似性を調べる指標 ★相関係数 ♦ ピアソン • もっとも一般的(パラメトリックのとき) ♦ スピアマン • データが数値でないとき(順位など) ♦ コサイン • 数値が正のとき ★共分散 • 単独で使うことはほとんどない 標準化、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため • 平均値もばらつきも単位も異なることがある ★標準化の計算 ♦ Z化 • これが最も代表的 • ピアソン相関係数に繋がります ♦ 単位ベクトル化、というものもあります Z化、今日は簡単に ★計算方法 発現量−平均値 ♦ 𝒁値= 標準偏差 • なんだか偏差値に似ていますね 10× 得点−平均点 • 偏差値=50 + 標準偏差 ★使い道 正規分布 ♦ データ全体がパラメトリックのとき • ノンパラメトリックだと正確に評価できない ピアソンの相関係数 ★正確には「ピアソンの積率相関係数」 平均値との差 ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 ★でもZ化したデータを使うと…… ♦𝑟 = 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 • これでOK 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1 もう少し詳しく式を書くと…… ★標準偏差を含めて ♦ 相関係数 = 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差 平均値は0 ♦𝑟 = ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑛 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 × 𝑛 𝑛 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 標準偏差は1 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 Z値 At3g43660 Z値 1 308 27 1.96 1.74 2 77 18 -0.42 -0.17 3 69 20 -0.51 0.25 4 96 13 -0.23 -1.23 5 40 16 -0.81 -0.59 平均 118.0 18.8 𝑺𝑫 96.7 4.7 発現量 − 平均値 𝒁値= 標準偏差 𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛 𝑟= = 0.825 𝑛 エクセルで計算する A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 ★=correl(A1:A5,B1:B5) ♦ これだけ ♦ 「pearson」関数も同様 相関係数の目安 ★大体の目安 ♦ 0.8以上:かなり相関が高い ♦ 0.6以上:相関がある ★実は検定もできます ♦ 一般的には、𝑅表を使います ♦ エクセルで𝑝値を計算できます 相関係数の検定・1 ★𝒕検定を利用します ♦ まずは𝑡値の計算 • 𝒕= 𝒓 × 𝒏−𝟐 𝟏−𝒓𝟐 • エクセルでは、 – 相関係数がA1セル、要素数が79とすると、 =A1*SQRT(79-2)/SQRT(1-A1^2) ♦ 次に𝑝値の計算 • 𝑡値がA2セルとすると、 • =TDIST(A2,77,2) – 自由度:77、両側検定 相関係数の検定・2 ★𝒓表を使います ♦ データ数と有意水準を使います ♦ 得られた相関係数が表の数値よりも高ければ、 有意となる ♦ http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/rtable.html スピアマンの順位相関係数 ★使い道 ♦ データが数値でないとき ♦ データが順位のとき ★計算式 ♦𝜌 = 1 − 6 𝑥𝑖 −𝑦𝑖 2 𝑛 𝑛2 −1 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 順位 At3g43660 順位 1 308 27 1 1 2 77 18 3 3 3 69 20 4 2 4 96 13 2 5 5 40 16 5 4 𝑥𝑖 − 𝑦𝑖 2 0+0+4+9+1 𝜌 =1−6 =1−6× = 0.30 2 𝑛 𝑛 −1 5 × 24 79実験で計算すると、0.20 エクセルで計算する場合 ★順位を計算 ♦ =rank(A1,A1:A5) ★順位データでピアソン相関係数を計算 ♦ =correl(C1:D5) A B C (Aの順位) D (Bの順位) 1 308 27 1 1 2 77 18 3 3 3 69 20 4 2 4 96 13 2 5 チェックポイント・II 1. ピアソン相関係数の計算手順は? 2. ピアソン相関係数の検定手順は? 3. スピアマン相関係数の計算手順は? 次回の予告 ★注目遺伝子を決めておいてください。 ♦ 期末試験に使います。 ★カメラが入ります。 ♦ テレビカメラではありません。 本日の実習と課題 ★注目遺伝子のその隣の遺伝子について ♦ はじめから6実験分の発現データを取り出し、カイ二 乗検定を行って、考察しなさい。 ♦ 237実験すべてを使って、ピアソン相関係数を計算し、 検定したうえで、考察しなさい。 ♦ 237実験すべてを使って、スピアマン相関係数を計算 し、ピアソン相関係数と比較しなさい。
© Copyright 2024 ExpyDoc