ピアソン相関係数

生物統計学・第9回
類似性を調べる(1)
-ピアソン相関係数-
2015年12月1日
生命環境科学域 応用生命科学類
尾形 善之
前回のフォロー1:適合度の検
定
★遺伝子Aの場合
♦ 「=CHITEST(A1:A5,C1:C5)」
♦ 𝑝 = 3.7 × 10−34 となり、帰無仮説は棄却できる
♦ 遺伝子Aは特異的に発現していると言える
• 適合度の検定では、各実験の発現量を平均値と比べてい
る
• 平均値から離れるほど、特異的に発現していると考えられ
る
前回のフォロー2:検定の後…
★独立性の検定で有意となった。
♦ 生物統計学としては、どうして有意が出たかを、
元のデータで確認する
♦ 発現傾向がどのように違うか?
★適合度の検定で有意となった。
♦ 平均値から外れていると分かっただけ
♦ どの実験の発現量が平均値から外れているか?
前回のフォロー3:自由度
★自由度は独立した実験数のこと
♦ 元のデータではすべての実験が独立している
♦ 検定で式(標準化、平均など)を使うと……
♦ その式によって、ひとつの実験の値が計算できる
♦ その実験は独立しているとは言えない
♦ そのため、実験数から1を引く
★検定の種類によって、自由度の計算が
変わる
前回のフォロー4:自由度と検定
★検定では分布曲線を使う
♦ 例えば、𝒕検定では𝒕分布を使います
★分布曲線は自由度で形が違う
♦ そのために、検定のときには自由度を求めます
前回のフォロー5:自由度の実
践
★対応のある𝒕検定
♦ 各実験が対応しているから、対応した実験数を使う
♦ 平均を計算するから、ひとつの実験が独立でない
★対応のない𝒕検定(等分散の場合)
♦ 実験が対応していないので、すべての実験数を使
う
♦ それぞれの遺伝子の平均を使うので、遺伝子ごと
にひとつずつ、つまりふたつの実験が独立でない
★実用的な自由度の確かめ方……
♦ エクセルの分析ツールなどを使って教えてもらいま
類似性を調べる指標
★相関係数
♦ ピアソン
• もっとも一般的(パラメトリックのとき)
♦ スピアマン
• ノンパラメトリックのとき
• データが数値でないとき(順位など)
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★標準化の計算
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化、というものもあります
Z化
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
♦ データ全体がパラメトリックのとき
• ノンパラメトリックだと正確に評価できない
ピアソンの相関係数
★正確には「ピアソンの積率相関係数」
平均値との差
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
★でもZ化したデータを使うと……
♦𝑟 =
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
• これでOK
標準偏差
すでに平均値との差を
標準偏差で割っている
平均値は0
標準偏差は1
Z化したデータの相関係数
★標準偏差を含めて
♦ 相関係数 =
𝑥と𝑦の共分散
𝑥の標準偏差×𝑦の標準偏差
平均値は0
♦𝑟 =
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑛
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
×
𝑛
𝑛
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
標準偏差は1
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650 Z値
At3g43660 Z値
1
308
77
69
96
40
118.0
96.7
27
18
20
13
16
18.8
4.7
1.96
-0.42
-0.51
-0.23
-0.81
1.74
-0.17
0.25
-1.23
-0.59
2
3
4
5
平均
標準偏差
発現量 − 平均値
𝒁値=
標準偏差
𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛
𝑟=
= 0.825
𝑛
エクセルで計算する
A
B
1
308
27
2
77
18
♦ これだけ
3
69
20
♦ 「pearson」関数も同様
4
96
13
5
40
16
★=correl(A1:A5,B1:B5)
相関係数の意味
★正の相関係数
♦ よく似ている
★負の相関係数
♦ 逆の傾向
★相関係数が0
♦ まったく関係がない
相関係数の判断の目安
★大体の目安
♦ 0.8以上:かなり相関が高い
♦ 0.6以上:相関がある
★実は検定もできます
♦ エクセルで𝑝値を計算できます
♦ 𝑅表を使うこともできます
相関係数の検定
★𝒕検定を利用します
♦ まずは𝑡値の計算
• 𝒕=
𝒓 × 𝒏−𝟐
𝟏−𝒓𝟐
• エクセルでは、
– 相関係数がA1セル、要素数が79とすると、
=ABS(A1)*SQRT(79-2)/SQRT(1-A1^2)
♦ 次に𝑝値の計算
• 𝑡値がA2セルとすると、
• =TDIST(A2,77,2)
– 自由度:77、両側検定
相関係数の検定
★相関係数の検定の自由度
♦ 実験数-2
♦ 対応のあるデータセットの実験数:237
♦ それぞれの遺伝子の平均を計算:2
♦ 自由度=237-2=235
相関係数の検定
★𝒑値の解釈
♦ 𝒑 < 𝟎. 𝟎𝟓のとき
• ふたつの遺伝子の発現傾向は似ている
♦ 𝒑 ≥ 𝟎. 𝟎𝟓のとき
• ふたつの遺伝子の発現傾向は似ているとは言えない
• 傾向が違うと言いたければ、カイ二乗検定
従来の相関係数の検定
★𝑹表を使います
♦ データ数と有意水準を使います
♦ 得られた相関係数が表の数値よりも高ければ、有
意となる
♦ http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/rtable.html
チェックポイント・I
1. ピアソン相関係数の計算手順は?
2. ピアソン相関係数の検定手順は?
今日の実習・1
★注目遺伝子とすべての遺伝子の間で
237実験に対してピアソン相関係数を計
算する。
★相関係数の降順に遺伝子を並べ替える。
★注目遺伝子、最大の相関係数の遺伝
子、最小の相関係数の遺伝子を選ぶ。
今日の実習・2
★相関係数の検定する。
★注目遺伝子、最大の相関係数の遺伝
子、最小の相関係数の遺伝子について、
ウェブツールを使って、遺伝子発現グラ
フを描く。
今日の課題
★注目遺伝子、相関係数が最大の遺伝
子、および最低の遺伝子について、それ
ぞれの遺伝子発現の傾向と相関係数と
の関係について考察しなさい。
★ピアソン相関係数についての疑問点を
書いてください。