生物統計学・第1回 統計解析を始める前に

生物統計学・第13回
類似性を調べる
相関係数(ピアソン、スピアマン)
2015年1月13日
生命環境科学域 応用生命科学類
尾形 善之
今日の流れ
★講義
♦ カイ二乗検定
♦ 相関係数
★実習
★エクセルを使ったカイ二乗検定
★エクセルを使った相関係数
カイ二乗検定
★次回詳しく……
★独立性の検定
★適合度の検定
★比の検定
カイ二乗検定
★𝒇分布とカイ二乗分布
独立性の検定
★ふたつのデータに違いがあることを検定
A
B
合計
1
308
27
335
2
77
18
95
3
69
20
89
4
96
13
109
5
40
16
56
合計
590
94
684
独立性の検定
★帰無仮説
♦ ふたつの遺伝子の発現には違いがない
★仮説(対立仮説)
♦ ふたつの遺伝子の発現には違いがある
A
B
合計
1
308
27
335
2
77
18
95
3
69
20
89
4
96
13
109
5
40
16
56
合計
590
94
684
エクセルでの独立性の検定・1
★期待値を計算する
A
B
C(合計)
D(A’)
1
308
27
335
2
77
18
95
81.9
13.1
3
69
20
89
76.8
12.2
4
96
13
109
94.0
15.0
5
40
16
56
48.3
7.7
合計
590
94
684
=
𝟑𝟑𝟓 × 𝟓𝟗𝟎
𝟔𝟖𝟒
E(B’)
46.0
エクセルでの独立性の検定・2
★A列とD列から𝒑値を計算する
♦ =CHITEST(A1:A5,D1,D5)
♦ 𝑝 = 0.433となり、帰無仮説は棄却できない
♦ 両遺伝子の発現量に違いがあるとはいえない
A
B
C(合計)
D(A’)
1
308
27
335
2
77
18
95
81.9
13.1
3
69
20
89
76.8
12.2
4
96
13
109
94.0
15.0
5
40
16
56
48.3
7.7
合計
590
94
684
=
𝟑𝟑𝟓 × 𝟓𝟗𝟎
𝟔𝟖𝟒
E(B’)
46.0
こんなデータだったら……
★期待値を計算する
A
B
C(合計)
D(A’)
E(B’)
1
308
13
321
276.9
44.1
2
77
18
95
81.9
13.1
3
69
20
89
76.8
12.2
4
96
16
112
96.6
15.4
5
40
27
67
57.8
9.2
合計
590
94
684
エクセルでの独立性の検定
★A列とD列から𝒑値を計算する
♦ =CHITEST(A1:A5,D1,D5)
♦ 𝑝 = 0.039となり、帰無仮説は棄却される
♦ 両遺伝子の発現量に違いがあるといえる
A
B
C(合計)
D(A’)
E(B’)
1
308
13
321
276.9
44.1
2
77
18
95
81.9
13.1
3
69
20
89
76.8
12.2
4
96
16
112
96.6
15.4
5
40
27
67
57.8
9.2
合計
590
94
684
チェックポイント・I
1. カイ二乗検定とは?
2. 独立性の検定の手順を書きなさい。
類似性を調べる指標
★相関係数
♦ ピアソン
• もっとも一般的(パラメトリックのとき)
♦ スピアマン
• データが数値でないとき(順位など)
♦ コサイン
• 数値が正のとき
★共分散
• 単独で使うことはほとんどない
標準化、今日は紹介だけ
★なぜ標準化するのか?
♦ 異なるデータを比較するため
• 平均値もばらつきも単位も異なることがある
★標準化の計算
♦ Z化
• これが最も代表的
• ピアソン相関係数に繋がります
♦ 単位ベクトル化、というものもあります
Z化、今日は簡単に
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
正規分布
♦ データ全体がパラメトリックのとき
• ノンパラメトリックだと正確に評価できない
ピアソンの相関係数
★正確には「ピアソンの積率相関係数」
平均値との差
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
★でもZ化したデータを使うと……
♦𝑟 =
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
• これでOK
標準偏差
すでに平均値との差を
標準偏差で割っている
平均値は0
標準偏差は1
もう少し詳しく式を書くと……
★標準偏差を含めて
♦ 相関係数 =
𝑥と𝑦の共分散
𝑥の標準偏差×𝑦の標準偏差
平均値は0
♦𝑟 =
♦𝑟 =
𝑥1 −𝑥 𝑦1 −𝑦 +⋯+ 𝑥𝑛 −𝑥 𝑦𝑛 −𝑦
𝑛
𝑥1 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑦1 −𝑦 2 +⋯+ 𝑦𝑛 −𝑦 2
×
𝑛
𝑛
𝑥1 𝑦1 +⋯+𝑥𝑛 𝑦𝑛
𝑛
標準偏差は1
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650
Z値
At3g43660
Z値
1
308
27
1.96
1.74
2
77
18
-0.42
-0.17
3
69
20
-0.51
0.25
4
96
13
-0.23
-1.23
5
40
16
-0.81
-0.59
平均
118.0
18.8
𝑺𝑫
96.7
4.7
発現量 − 平均値
𝒁値=
標準偏差
𝑥1 𝑦1 + ⋯ 𝑥𝑛 𝑦𝑛
𝑟=
= 0.825
𝑛
エクセルで計算する
A
B
1
308
27
2
77
18
3
69
20
4
96
13
5
40
16
★=correl(A1:A5,B1:B5)
♦ これだけ
♦ 「pearson」関数も同様
相関係数の目安
★大体の目安
♦ 0.8以上:かなり相関が高い
♦ 0.6以上:相関がある
★実は検定もできます
♦ 一般的には、𝑅表を使います
♦ エクセルで𝑝値を計算できます
相関係数の検定・1
★𝒕検定を利用します
♦ まずは𝑡値の計算
• 𝒕=
𝒓 × 𝒏−𝟐
𝟏−𝒓𝟐
• エクセルでは、
– 相関係数がA1セル、要素数が79とすると、
=A1*SQRT(79-2)/SQRT(1-A1^2)
♦ 次に𝑝値の計算
• 𝑡値がA2セルとすると、
• =TDIST(A2,77,2)
– 自由度:77、両側検定
相関係数の検定・2
★𝒓表を使います
♦ データ数と有意水準を使います
♦ 得られた相関係数が表の数値よりも高ければ、
有意となる
♦ http://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/rtable.html
スピアマンの順位相関係数
★使い道
♦ データが数値でないとき
♦ データが順位のとき
★計算式
♦𝜌 = 1 − 6
𝑥𝑖 −𝑦𝑖 2
𝑛 𝑛2 −1
実際に計算してみると……
実験
At1g56650
At3g43660
At1g56650
順位
At3g43660
順位
1
308
27
1
1
2
77
18
3
3
3
69
20
4
2
4
96
13
2
5
5
40
16
5
4
𝑥𝑖 − 𝑦𝑖 2
0+0+4+9+1
𝜌 =1−6
=1−6×
= 0.30
2
𝑛 𝑛 −1
5 × 24
79実験で計算すると、0.20
エクセルで計算する場合
★順位を計算
♦ =rank(A1,A1:A5)
★順位データでピアソン相関係数を計算
♦ =correl(C1:D5)
A
B
C
(Aの順位)
D
(Bの順位)
1
308
27
1
1
2
77
18
3
3
3
69
20
4
2
4
96
13
2
5
チェックポイント・II
1. ピアソン相関係数の計算手順は?
2. ピアソン相関係数の検定手順は?
3. スピアマン相関係数の計算手順は?
次回の予告
★注目遺伝子を決めておいてください。
♦ 期末試験に使います。
★カメラが入ります。
♦ テレビカメラではありません。
本日の実習と課題
★注目遺伝子のその隣の遺伝子について
♦ はじめから6実験分の発現データを取り出し、カイ二
乗検定を行って、考察しなさい。
♦ 237実験すべてを使って、ピアソン相関係数を計算し、
検定したうえで、考察しなさい。
♦ 237実験すべてを使って、スピアマン相関係数を計算
し、ピアソン相関係数と比較しなさい。