生物統計学・第10回 類似性を調べる(2) -スピアマン相関係数- 2015年12月8日 生命環境科学域 応用生命科学類 尾形 善之 前回のフォロー1:負の相関 ★相関係数の検定 ♦ 𝒑 < 𝟎. 𝟎𝟓となったので、統計学的に有意 ♦ 正の相関係数が有意 → 傾向が似ている ♦ 負の相関係数が有意 → 逆の傾向を示す 前回のフォロー2:発現傾向 ★実験ごとの発現の上がったり下がったり が似ているかどうか 類似性を調べる指標 ★相関係数 ♦ ピアソン • もっとも一般的(パラメトリックのとき) ♦ スピアマン • ノンパラメトリックのとき • データが数値でないとき(順位など) • スピアマン順位相関係数、スピアマン相関係数、スピアマ ン 標準化 ★なぜ標準化するのか? ♦ 異なるデータを比較するため • 平均値もばらつきも単位も異なることがある ★標準化の計算 ♦ Z化 • これが最も代表的 • ピアソン相関係数に繋がります ♦ 単位ベクトル化、というものもあります スピアマンの順位相関係数 ★標準化には順位を使います ♦ 発現量の大きい順に、1、2、……、と順番を付け る ★順位を使って相関係数を計算 ♦ 計算式は次のスライドで ♦ 正確には、「発現量がすべて異なる場合」と、「一 致している発現量がある場合」で式が異なる 発現量がすべて異なる場合 ★一般的な公式 ♦𝜌 = 1 − 6 𝑥𝑖 −𝑦𝑖 𝑛3 −𝑛 2 ちょっとややこし い ♦ 順位に変えたデータに対するピアソン相関係数に 一致します • つまり、実用的には、順位データに対して、correl関数を 使って求めることができます 実際に計算してみると…… 実験 A列 At1g56650 B列 At3g43660 C列 (A列の順位) D列 (B列の順位) 308 77 69 96 40 27 18 20 13 16 1 3 4 2 5 1 3 2 5 4 =1− 6× 0+0+4+9+1 125−5 1 2 3 4 5 • 𝜌 =1− 6× 𝑥𝑖 −𝑦𝑖 2 𝑛3 −𝑛 • 79実験で計算すると0.20 • 元の発現量のピアソン相関係数は0.83 = 0.30 一致しているデータがある場 合・1 ★すべて異なる場合の式を補正する ♦ まずは、式を変形する ♦𝜌 = 1 − 6 𝑥𝑖 −𝑦𝑖 2 𝑛3 −𝑛 = 𝑛3 −𝑛 𝑛3 −𝑛 2 + −6 𝑥 −𝑦 𝑖 𝑖 2 2 𝑛3 −𝑛 𝑛3 −𝑛 遺伝子Aに対する補 正 遺伝子Bに対する補 正 一致しているデータがある場 合・2 ★補正項を入れる ♦ 遺伝子A:𝑛3 − 𝑛 − 𝑡𝑥𝑖 3 − 𝑡𝑥𝑖 • 𝑡𝑥𝑖 は𝑥𝑖 と同じ発現量の実験数、遺伝子Aの補正項を 𝑇𝑥 ♦ 遺伝子B:𝑛3 − 𝑛 − 𝑡𝑦𝑖 3 − 𝑡𝑦𝑖 • 𝑡𝑦𝑗 は𝑦𝑖 と同じ発現量の実験数、遺伝子Bの補正項を𝑇𝑦 ♦𝜌 = 3 𝑛3 −𝑛−𝑇𝑥 𝑛 −𝑛−𝑇𝑦 + −6 2 2 𝑥𝑖 −𝑦𝑖 2 𝑛3 −𝑛−𝑇𝑥 𝑛3 −𝑛−𝑇𝑦 ♦ これで完成 実際に計算してみると…… それほど違わな い ★いろいろな式での計算 ♦ すべて異なる場合の式:0.675 ♦ 一致データがある場合の式:0.659 ♦ 順位に対するピアソン相関係数:0.667 ♦ 元の発現量に対するピアソン相関係数:0.877 実験 遺伝子A 遺伝子B A順位 B順位 A同発現 B同発現 1 308 27 1 1 1 1 2 77 18 2 3 1 1 3 69 20 3.5 2 2 1 4 69 13 3.5 5 2 1 5 40 16 5 4 1 1 実用的なスピアマン相関係数 ★同順位がない(少ない)と想定される場 合 ♦ 遺伝子発現データ(マイクロアレイ) • 実験数が多く同順位の割合が少ない場合 ★同順位があると想定される場合 ♦ オリンピックの各国のメダル数 ♦ 遺伝子発現データ(次世代シーケンシング) • 欠損値が多い 相関係数の使い分けと違い ★ピアソン相関係数 ♦ 数値のデータ、パラメトリック ♦ 数値の大きさを反映する • 極端な値に引っ張られる可能性がある ★スピアマン相関係数 ♦ 数値または順位のデータ、ノンパラメトリック ♦ 順位を反映する • ほとんど差がない値がたくさんあると影響される チェックポイント・I 1. スピアマン相関係数の計算手順は? 2. スピアマン相関係数とピアソン相関係 数の違いと使い分けは? 今日の実習・1 ★注目遺伝子とピアソン相関係数の高い 遺伝子を選ぶ。 ★選んだ遺伝子のスピアマン相関係数を エクセル、𝑹、Perlで計算する。 ♦ Perlプログラムは先生が作ったものです。 • 不具合があれば、知らせてください…… 今回の実習・2 ★エクセルと𝑹では、同じ発現量がないと想 定して計算する ♦ ワークシート関数がないので、組み合わせて使い ます ♦ スピアマンとピアソンの比較 ★Perlでは、同じ発現量があると想定して 計算する ♦ スピアマンとピアソンの比較 今日の実習・参考 ★参考までに、エクセルで正確なスピアマ ン相関係数を計算する手順を手順書に 書いておきます。 ♦ 実習中には終わらないと思うので、興味がある人 は、時間外に挑戦してください。質問があれば、 次回受け付けます。 今日の課題 ★選んだ遺伝子の間で求めたさまざまな 相関係数の違いについて考察しなさい。 ★相関係数(ピアソン、スピアマン)につい ての感想や疑問点を書いてください。
© Copyright 2024 ExpyDoc