スピアマン相関係数

生物統計学・第10回
類似性を調べる(2)
-スピアマン相関係数-
2015年12月8日
生命環境科学域 応用生命科学類
尾形 善之
前回のフォロー1:負の相関
★相関係数の検定
♦ 𝒑 < 𝟎. 𝟎𝟓となったので、統計学的に有意
♦ 正の相関係数が有意 → 傾向が似ている
♦ 負の相関係数が有意 → 逆の傾向を示す
前回のフォロー2:発現傾向
★実験ごとの発現の上がったり下がったり
が似ているかどうか
類似性を調べる指標
★相関係数
♦ ピアソン
• もっとも一般的(パラメトリックのとき)
♦ スピアマン
• ノンパラメトリックのとき
• データが数値でないとき(順位など)
• スピアマン順位相関係数、スピアマン相関係数、スピアマ
ン
標準化
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★標準化の計算
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化、というものもあります
スピアマンの順位相関係数
★標準化には順位を使います
♦ 発現量の大きい順に、1、2、……、と順番を付け
る
★順位を使って相関係数を計算
♦ 計算式は次のスライドで
♦ 正確には、「発現量がすべて異なる場合」と、「一
致している発現量がある場合」で式が異なる
発現量がすべて異なる場合
★一般的な公式
♦𝜌 = 1 −
6
𝑥𝑖 −𝑦𝑖
𝑛3 −𝑛
2
ちょっとややこし
い
♦ 順位に変えたデータに対するピアソン相関係数に
一致します
• つまり、実用的には、順位データに対して、correl関数を
使って求めることができます
実際に計算してみると……
実験
A列
At1g56650
B列
At3g43660
C列
(A列の順位)
D列
(B列の順位)
308
77
69
96
40
27
18
20
13
16
1
3
4
2
5
1
3
2
5
4
=1−
6× 0+0+4+9+1
125−5
1
2
3
4
5
• 𝜌 =1−
6×
𝑥𝑖 −𝑦𝑖 2
𝑛3 −𝑛
• 79実験で計算すると0.20
• 元の発現量のピアソン相関係数は0.83
= 0.30
一致しているデータがある場
合・1
★すべて異なる場合の式を補正する
♦ まずは、式を変形する
♦𝜌 = 1 −
6
𝑥𝑖 −𝑦𝑖 2
𝑛3 −𝑛
=
𝑛3 −𝑛 𝑛3 −𝑛
2
+
−6
𝑥
−𝑦
𝑖
𝑖
2
2
𝑛3 −𝑛 𝑛3 −𝑛
遺伝子Aに対する補
正
遺伝子Bに対する補
正
一致しているデータがある場
合・2
★補正項を入れる
♦ 遺伝子A:𝑛3 − 𝑛 −
𝑡𝑥𝑖 3 − 𝑡𝑥𝑖
• 𝑡𝑥𝑖 は𝑥𝑖 と同じ発現量の実験数、遺伝子Aの補正項を
𝑇𝑥
♦ 遺伝子B:𝑛3 − 𝑛 −
𝑡𝑦𝑖 3 − 𝑡𝑦𝑖
• 𝑡𝑦𝑗 は𝑦𝑖 と同じ発現量の実験数、遺伝子Bの補正項を𝑇𝑦
♦𝜌 =
3
𝑛3 −𝑛−𝑇𝑥 𝑛 −𝑛−𝑇𝑦
+
−6
2
2
𝑥𝑖 −𝑦𝑖 2
𝑛3 −𝑛−𝑇𝑥 𝑛3 −𝑛−𝑇𝑦
♦ これで完成
実際に計算してみると……
それほど違わな
い
★いろいろな式での計算
♦ すべて異なる場合の式:0.675
♦ 一致データがある場合の式:0.659
♦ 順位に対するピアソン相関係数:0.667
♦ 元の発現量に対するピアソン相関係数:0.877
実験
遺伝子A
遺伝子B
A順位
B順位
A同発現
B同発現
1
308
27
1
1
1
1
2
77
18
2
3
1
1
3
69
20
3.5
2
2
1
4
69
13
3.5
5
2
1
5
40
16
5
4
1
1
実用的なスピアマン相関係数
★同順位がない(少ない)と想定される場
合
♦ 遺伝子発現データ(マイクロアレイ)
• 実験数が多く同順位の割合が少ない場合
★同順位があると想定される場合
♦ オリンピックの各国のメダル数
♦ 遺伝子発現データ(次世代シーケンシング)
• 欠損値が多い
相関係数の使い分けと違い
★ピアソン相関係数
♦ 数値のデータ、パラメトリック
♦ 数値の大きさを反映する
• 極端な値に引っ張られる可能性がある
★スピアマン相関係数
♦ 数値または順位のデータ、ノンパラメトリック
♦ 順位を反映する
• ほとんど差がない値がたくさんあると影響される
チェックポイント・I
1. スピアマン相関係数の計算手順は?
2. スピアマン相関係数とピアソン相関係
数の違いと使い分けは?
今日の実習・1
★注目遺伝子とピアソン相関係数の高い
遺伝子を選ぶ。
★選んだ遺伝子のスピアマン相関係数を
エクセル、𝑹、Perlで計算する。
♦ Perlプログラムは先生が作ったものです。
• 不具合があれば、知らせてください……
今回の実習・2
★エクセルと𝑹では、同じ発現量がないと想
定して計算する
♦ ワークシート関数がないので、組み合わせて使い
ます
♦ スピアマンとピアソンの比較
★Perlでは、同じ発現量があると想定して
計算する
♦ スピアマンとピアソンの比較
今日の実習・参考
★参考までに、エクセルで正確なスピアマ
ン相関係数を計算する手順を手順書に
書いておきます。
♦ 実習中には終わらないと思うので、興味がある人
は、時間外に挑戦してください。質問があれば、
次回受け付けます。
今日の課題
★選んだ遺伝子の間で求めたさまざまな
相関係数の違いについて考察しなさい。
★相関係数(ピアソン、スピアマン)につい
ての感想や疑問点を書いてください。