生物統計学・第9回 類似性を調べる 相関係数、共分散 2013年12月2日 生命環境科学域 応用生命科学類 尾形 善之 まず最初に…… ★前回のレポート ♦ 分散分析を使う意味が分からない ♦ 判別分析を使う意味が分からない ♦ 分かった気はするが実際に使ってみないとなんと もいえない データセットのグループ分け ★判別分析 グループ分けの統計的有意性と実際のグルー プ分けを同時にできる 作業が煩雑、結果の解釈がやや難解 ★分散分析~各種クラスタリング 比較的簡便にグループ分けの統計的有意が説 明でき、見た目に訴えてグループ分けできる ともかく二度手間 今日のキーワード ★二乗和 ♦ もう少し言うと「二乗和のルート」 二乗和を利用する例(1) ★分散 ♦ 𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐 𝑵−𝟏 ♦ 𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐 𝟕𝟗−𝟏 2乗サイズ = 𝟏𝟎𝟏𝟗𝟒𝟕 ★標準偏差 ♦ 101947=319.3 ★標準誤差 319.3 ♦ =35.9 79 平均と同じサイ ズ 平均にまあ対応するサイズ 二乗和を利用する例(2) ★計算方法 ♦ ベクトル、覚えてますか? • 𝑎 = 2, 3 2 • 𝑎= 3 ♦ 𝑥1 の単位ベクトル値 = 𝑥1 𝑥1 2 +𝑥2 2 +⋯+𝑥79 2 • 発現量をベクトルの長さで割っています ★使い道 ♦ データの分布が分からないときにも使える 類似性を調べる指標 ★相関係数 ♦ ピアソン • もっとも一般的 ♦ スピアマン • データが数値でないとき(順位) ♦ コサイン • 数値が正のとき ★共分散 • 単独で使うことはほとんどない 標準化、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため • 平均値もばらつきも単位も異なることがある ★ふたつの標準化 ♦ Z化 • これが最も代表的 • ピアソン相関係数に繋がります ♦ 単位ベクトル化 • 特殊だが便利、実は皆さん知っているはず…… • コサイン相関係数に繋がります Z化、今日は簡単に ★計算方法 発現量−平均値 ♦ 𝒁値= 標準偏差 • なんだか偏差値に似ていますね 10× 得点−平均点 • 偏差値=50 + 標準偏差 ★使い道 ♦ データ全体が正規分布に近いとき • 分布が偏っていると正確に評価できない ピアソンの相関係数 ★正確には「ピアソンの積率相関係数」 平均値との差 ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 ★でもZ化したデータを使うと…… ♦𝑟 = 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 • これでOK 標準偏差 すでに平均値との差を 標準偏差で割っている 平均値は0 標準偏差は1 もう少し詳しく式を書くと…… ★標準偏差を含めて ♦ 相関係数 = 𝑥と𝑦の共分散 𝑥の標準偏差×𝑦の標準偏差 平均値は0 ♦𝑟 = ♦𝑟 = 𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦 𝑛 𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2 × 𝑛 𝑛 𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛 𝑛 標準偏差は1 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 Z値 At3g43660 Z値 1 308 27 1.96 1.74 2 77 18 -0.42 -0.17 3 69 20 -0.51 0.25 4 96 13 -0.23 -1.23 5 40 16 -0.81 -0.59 平均 118.0 18.8 𝑺𝑫 96.7 4.7 発現量 − 平均値 𝒁値= 標準偏差 𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛 𝑟= = 0.825 𝑛 エクセルで計算する A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 ★=correl(A1:A5,B1:B5) ♦ これだけ チェックポイント・I 1. ピアソンの相関係数を楽に計算するため に使う標準化の方法は? 2. 標準化したデータからのピアソンの相関 係数の計算式は? 標準化、今日は紹介だけ ★なぜ標準化するのか? ♦ 異なるデータを比較するため • 平均値もばらつきも単位も異なることがある ★ふたつの標準化 ♦ Z化 • これが最も代表的 • ピアソン相関係数に繋がります ♦ 単位ベクトル化 • 特殊だが便利、実は皆さん知っているはず…… • コサイン相関係数に繋がります 単位ベクトル化、今日は簡単に ★計算方法 ♦ ベクトル、覚えてますか? • 𝑎 = 2, 3 2 • 𝑎= 3 ♦ 𝑥1 の単位ベクトル値 = 𝑥1 𝑥1 2 +𝑥2 2 +⋯+𝑥79 2 • 発現量をベクトルの長さで割っています ★使い道 ♦ データの分布が分からないときにも使える コサイン相関係数 ★「内積」覚えていますか? ♦ 𝑎 = 3, 2 𝜽 ♦ 𝑏 = 2,4 ♦ 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = 3 × 2 + 2 × 4 = 14 ★単位ベクトル化していたら…… ♦ 𝑎 ∙ 𝑏 = 𝑎 𝑏 cos 𝜃 = cos 𝜃 ベクトルの長さは1になってい る エクセルで計算する A B 1 308 27 2 77 18 3 69 20 4 96 13 5 40 16 ★単位ベクトル化 ♦ C1セル • =A1/SQRT(SUMSQ(A$1:A$5)) ♦ C1をC1~D5にコピー ★コサイン ♦ =SUMPRODUCT(C1:C5,D1:D5) ★一度に計算するなら ♦ =SUMPRODUCT(A1:A5,B1:B5)/SQRT(S UMSQ(A1:A5))/SQRT(SUMSQ(B1:B5)) 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 単位ベクトル 1 308 27 0.90 0.62 2 77 18 0.26 0.42 3 69 20 0.20 0.46 4 96 13 0.28 0.30 5 40 16 0.12 0.37 平均 118.0 18.8 𝑺𝑫 96.7 4.7 単位ベクトル= 発現量 二乗和 At3g43660 単位ベクトル 𝑟 = 𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛 = 0.877 チェックポイント・II 3. コサイン相関係数を楽に計算するために 使う標準化の方法は? 4. 標準化したデータからコサイン相関係数 を求める原理は? スピアマンの順位相関係数 ★使い道 ♦ データが数値でないとき ♦ データが順位のとき ★計算式 ♦𝜌 = 1 − 6 𝑥𝑖 −𝑦𝑖 2 𝑛 𝑛2 −1 実際に計算してみると…… 実験 At1g56650 At3g43660 At1g56650 順位 At3g43660 順位 1 308 27 1 1 2 77 18 3 3 3 69 20 4 2 4 96 13 2 5 5 40 16 5 4 𝑥𝑖 − 𝑦𝑖 2 0+0+4+9+1 𝜌 =1−6 =1−6× = 0.30 2 𝑛 𝑛 −1 5 × 24 79実験で計算すると、0.20 ピアソン相関係数の検定!? ★一般的には ♦ 相関係数が0.6以上なら高い ♦ 0.8以上なら相当高い ★でもみんなを納得させるために…… ♦ 𝑅表を使います • でもあまり見かけません…… • 相関係数を検定統計量として、𝑅表から有意確率(危 険率)を得ます(他の検定と同じです) 𝑹表が見つからないときは ★実は𝒕分布表を利用できます ♦𝑡 = 𝑟 𝑛−2 1−𝑟 2 • 𝑛は実験数 ♦ 𝑡分布表で自由度𝑛 − 2で𝑝値を得る 試しに先ほどの結果を検定 ★実験数:5 ★相関係数:0.825 ★有意は出ませんでした…… ★実は79実験のデータでは、相関係数は -0.063でした 実験数 0.05 0.01 5 0.878 0.959 スピアマンの相関係数の検定 ★こちらも𝒕分布表が利用できます ♦𝑡 = 𝜌 1−𝜌2 𝑛−2 • 𝑛は実験数 ♦ 𝑡分布表で自由度𝑛 − 2で𝑝値を得る 今日の自習のポイント ★相関係数の作業はエクセルでできます! ♦ 「corr131202.xlsx」をダウンロード 次回までの予習 ★次回は「回帰分析・相関解析」です ♦ 実はほとんど相関係数と同じです ♦ 教科書 • 回帰分析、重回帰分析 • 自己相関、交差相関、時系列分析 本日の課題 ★ふたつの遺伝子の3実験での発現データに関し て以下の問いに答えなさい。 1. 2. 3. 相関係数の種類と使い分け を書き、今回のデータではど れが良いか答えなさい。 実際に3種類の相関係数(ピ アソン、コサイン、スピアマン) を計算しなさい。ただし、小 数第一位で計算しなさい。 今回の講義の疑問点を書い てください。 A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42
© Copyright 2024 ExpyDoc