生物統計学・第1回 統計解析を始める前に

生物統計学・第9回
類似性を調べる
相関係数、共分散
2013年12月2日
生命環境科学域 応用生命科学類
尾形 善之
まず最初に……
★前回のレポート
♦ 分散分析を使う意味が分からない
♦ 判別分析を使う意味が分からない
♦ 分かった気はするが実際に使ってみないとなんと
もいえない
データセットのグループ分け
★判別分析
 グループ分けの統計的有意性と実際のグルー
プ分けを同時にできる
 作業が煩雑、結果の解釈がやや難解
★分散分析~各種クラスタリング
 比較的簡便にグループ分けの統計的有意が説
明でき、見た目に訴えてグループ分けできる
 ともかく二度手間
今日のキーワード
★二乗和
♦ もう少し言うと「二乗和のルート」
二乗和を利用する例(1)
★分散
♦
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
♦
𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐
𝟕𝟗−𝟏
2乗サイズ
= 𝟏𝟎𝟏𝟗𝟒𝟕
★標準偏差
♦ 101947=319.3
★標準誤差
319.3
♦
=35.9
79
平均と同じサイ
ズ
平均にまあ対応するサイズ
二乗和を利用する例(2)
★計算方法
♦ ベクトル、覚えてますか?
• 𝑎 = 2, 3
2
• 𝑎=
3
♦ 𝑥1 の単位ベクトル値 =
𝑥1
𝑥1 2 +𝑥2 2 +⋯+𝑥79 2
• 発現量をベクトルの長さで割っています
★使い道
♦ データの分布が分からないときにも使える
類似性を調べる指標
★相関係数
♦ ピアソン
• もっとも一般的
♦ スピアマン
• データが数値でないとき(順位)
♦ コサイン
• 数値が正のとき
★共分散
• 単独で使うことはほとんどない
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★ふたつの標準化
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化
• 特殊だが便利、実は皆さん知っているはず……
• コサイン相関係数に繋がります
Z化、今日は簡単に
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
♦ データ全体が正規分布に近いとき
• 分布が偏っていると正確に評価できない
ピアソンの相関係数
★正確には「ピアソンの積率相関係数」
平均値との差
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
★でもZ化したデータを使うと……
♦𝑟 =
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
• これでOK
標準偏差
すでに平均値との差を
標準偏差で割っている
平均値は0
標準偏差は1
もう少し詳しく式を書くと……
★標準偏差を含めて
♦ 相関係数 =
𝑥と𝑦の共分散
𝑥の標準偏差×𝑦の標準偏差
平均値は0
♦𝑟 =
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑛
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
×
𝑛
𝑛
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
標準偏差は1
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650
Z値
At3g43660
Z値
1
308
27
1.96
1.74
2
77
18
-0.42
-0.17
3
69
20
-0.51
0.25
4
96
13
-0.23
-1.23
5
40
16
-0.81
-0.59
平均
118.0
18.8
𝑺𝑫
96.7
4.7
発現量 − 平均値
𝒁値=
標準偏差
𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛
𝑟=
= 0.825
𝑛
エクセルで計算する
A
B
1
308
27
2
77
18
3
69
20
4
96
13
5
40
16
★=correl(A1:A5,B1:B5)
♦ これだけ
チェックポイント・I
1. ピアソンの相関係数を楽に計算するため
に使う標準化の方法は?
2. 標準化したデータからのピアソンの相関
係数の計算式は?
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★ふたつの標準化
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化
• 特殊だが便利、実は皆さん知っているはず……
• コサイン相関係数に繋がります
単位ベクトル化、今日は簡単に
★計算方法
♦ ベクトル、覚えてますか?
• 𝑎 = 2, 3
2
• 𝑎=
3
♦ 𝑥1 の単位ベクトル値 =
𝑥1
𝑥1 2 +𝑥2 2 +⋯+𝑥79 2
• 発現量をベクトルの長さで割っています
★使い道
♦ データの分布が分からないときにも使える
コサイン相関係数
★「内積」覚えていますか?
♦ 𝑎 = 3, 2
𝜽
♦ 𝑏 = 2,4
♦ 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = 3 × 2 + 2 × 4 = 14
★単位ベクトル化していたら……
♦ 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = cos 𝜃
ベクトルの長さは1になってい
る
エクセルで計算する
A
B
1
308
27
2
77
18
3
69
20
4
96
13
5
40
16
★単位ベクトル化
♦ C1セル
• =A1/SQRT(SUMSQ(A$1:A$5))
♦ C1をC1~D5にコピー
★コサイン
♦ =SUMPRODUCT(C1:C5,D1:D5)
★一度に計算するなら
♦ =SUMPRODUCT(A1:A5,B1:B5)/SQRT(S
UMSQ(A1:A5))/SQRT(SUMSQ(B1:B5))
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650
単位ベクトル
1
308
27
0.90
0.62
2
77
18
0.26
0.42
3
69
20
0.20
0.46
4
96
13
0.28
0.30
5
40
16
0.12
0.37
平均
118.0
18.8
𝑺𝑫
96.7
4.7
単位ベクトル=
発現量
二乗和
At3g43660
単位ベクトル
𝑟 = 𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛 = 0.877
チェックポイント・II
3. コサイン相関係数を楽に計算するために
使う標準化の方法は?
4. 標準化したデータからコサイン相関係数
を求める原理は?
スピアマンの順位相関係数
★使い道
♦ データが数値でないとき
♦ データが順位のとき
★計算式
♦𝜌 = 1 − 6
𝑥𝑖 −𝑦𝑖 2
𝑛 𝑛2 −1
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650
順位
At3g43660
順位
1
308
27
1
1
2
77
18
3
3
3
69
20
4
2
4
96
13
2
5
5
40
16
5
4
𝑥𝑖 − 𝑦𝑖 2
0+0+4+9+1
𝜌 =1−6
=1−6×
= 0.30
2
𝑛 𝑛 −1
5 × 24
79実験で計算すると、0.20
ピアソン相関係数の検定!?
★一般的には
♦ 相関係数が0.6以上なら高い
♦ 0.8以上なら相当高い
★でもみんなを納得させるために……
♦ 𝑅表を使います
• でもあまり見かけません……
• 相関係数を検定統計量として、𝑅表から有意確率(危
険率)を得ます(他の検定と同じです)
𝑹表が見つからないときは
★実は𝒕分布表を利用できます
♦𝑡 =
𝑟
𝑛−2
1−𝑟 2
• 𝑛は実験数
♦ 𝑡分布表で自由度𝑛 − 2で𝑝値を得る
試しに先ほどの結果を検定
★実験数:5
★相関係数:0.825
★有意は出ませんでした……
★実は79実験のデータでは、相関係数は
-0.063でした
実験数
0.05
0.01
5
0.878
0.959
スピアマンの相関係数の検定
★こちらも𝒕分布表が利用できます
♦𝑡 =
𝜌
1−𝜌2
𝑛−2
• 𝑛は実験数
♦ 𝑡分布表で自由度𝑛 − 2で𝑝値を得る
今日の自習のポイント
★相関係数の作業はエクセルでできます!
♦ 「corr131202.xlsx」をダウンロード
次回までの予習
★次回は「回帰分析・相関解析」です
♦ 実はほとんど相関係数と同じです
♦ 教科書
• 回帰分析、重回帰分析
• 自己相関、交差相関、時系列分析
本日の課題
★ふたつの遺伝子の3実験での発現データに関し
て以下の問いに答えなさい。
1.
2.
3.
相関係数の種類と使い分け
を書き、今回のデータではど
れが良いか答えなさい。
実際に3種類の相関係数(ピ
アソン、コサイン、スピアマン)
を計算しなさい。ただし、小
数第一位で計算しなさい。
今回の講義の疑問点を書い
てください。
A
B
1
35
31
2
26
27
3
41
8
平均
34
22
SD
6
10
長さ
60
42