今日やること: χ2検定(カイ二乗検定) マイクロアレイ実験の結果から何を

☆今日やること: χ2検定(カイ二乗検定)
これまでに、測定量の平均値が従う性質:
・平均値が正規分布(あるいはt分布)に従う
を利用して、誤差がのった測定値から意味のある情報を取り出す方法を
議論してきた。
一方で、測定量のバラつき(つまり分散)が従う性質:
・分散の和がχ2分布に従う
を利用して、同じように誤差ののった測定量から意味のある情報を取り
出すことができる。
☆マイクロアレイ実験の結果から何を読み取るか?
大腸菌と粘菌の共生過程をマイクロアレイを用いて解析することにより、
単独の大腸菌と比較して、共生している大腸菌では発現量が変化してい
る遺伝子を探索した。
有意水準5%のt検定を全ての遺伝子について行うことによって、 4346個ある既知の大腸菌の遺伝子のうち、
有意に発現が上昇した遺伝子: 933個(21.2%)
有意に発現が低下した遺伝子: 677個(15.6%)
という結果が得られた。
この結果から、共生過程について何が言えるであろうか?
変化した遺伝子の数が多すぎて、その遺伝子のリストを眺めても 何も情報が得られない、、
1
☆発現量が変化した遺伝子と遺伝子カテゴリの関係
粘菌との共生によって、多数の遺伝子で発現量の有意な変化が見られ、
それを並べただけでは共生過程についての情報が得られない。
しかし、粘菌との共生によって発現量の変化した遺伝子が、特定のカテ
ゴリに集中していたとすれば、そのカテゴリが共生過程に関与しているこ
とが示唆される。
たとえば、代謝ネットワークにおいて、発現量が変化してた遺伝子がそ
の一部のネットワークの制御に集中していたとすれば、ネットワークのそ
の部位の変化が共生過程と関与していることが示唆される。
あるいは、同種の機能を持つ遺伝子のカテゴリや、同じ制御配列をプロ
モーター領域に持つ遺伝子のカテゴリに発現量が変化した遺伝子が集
中していれば、それらのカテゴリとの関与が疑われる。
deleted based on copyright concern.
代謝ネットワーク (www.expasy.org/cgi-bin/show_thumbnails.plより)
2
☆発現量が変化した遺伝子と遺伝子カテゴリの関係
遺伝子発現量の変化と遺伝子カテゴリの関係を解析する簡単な例として、
単独状態と比較して共生状態で発現量が有意に変化した遺伝子と、 嫌気性呼吸に関与する遺伝子群との関係を調べてみる。
データベースを利用すると(例えば、 http://www.genome.ad.jp/kegg), 大腸菌の嫌気性呼吸に関わる141個の遺伝子のリストを得ることができる。
また、マイクロアレイの実験結果から、嫌気性呼吸に関わるとされる遺伝子
のうち、共生状態と単独状態で有意に変化があった遺伝子の数を調べると
以下のようになった。
共生と単独で
変化あり
共生と単独で
変化なし
合計
71
70
141
嫌気性呼吸に 関与する遺伝子
/
この嫌気性呼吸に関与する遺伝子群が、集中して変化したかどうかを調べる
ために、まず変化あり/なしの分布がこのカテゴリとは無関係で、ランダムに
決められている場合に、何個の遺伝子が変化するかを計算する。
全遺伝子(4346個)のうち、有意に変化した遺伝子が36.8%なので、 変化あり/なしの分布が嫌気性呼吸と無関係であるとすると、嫌気性呼吸に
関与する遺伝子群(141個)のうち変化したものの期待値は、
141× 0.368 ≈ 51.9
となる。これをまとめると下の表となる。
共生と単独で
変化あり
共生と単独で
変化なし
合計
観測値
71
70
141
期待値
52
89
141
これは、嫌気性呼吸に関与する遺伝子が集中して変化している
といえるか?あるいは単なる偶然であろうか?
3
☆ランダマイゼーション検定
遺伝子発現の変化あり/なしの分布が単なる偶然と異なるかどうかを 調べる(概念的に)簡易な方法として、ランダマイゼーション検定がある。
これは、遺伝子と(変化あり/なし)の関係をランダムに入れ替えたデー
タセットを十分な数だけ作成し、その分布から実際のデータがどの程度
有意かを判断する方法である。
変化あり/なしをランダムに
入れ替えたデータ
遺伝子名
実際のデータ
apaH
変化あり
変化あり 変化なし 変化なし
pdxA
変化なし
変化あり 変化なし 変化あり
:
:
araD
変化あり
変化なし 変化あり 変化なし
変化なし
変化なし 変化なし 変化なし
変化あり
変化なし 変化なし 変化あり
変化あり
変化あり 変化あり 変化なし
嫌気性呼吸
yacL
に関与する gmhA
遺伝子
dinJ
:
:
:
:
:
codB
変化なし
変化あり 変化あり 変化なし
mhpA
変化なし
変化なし 変化あり 変化なし
proY
変化あり
変化なし 変化なし 変化あり
:
:
:
:
:
:
変化なし
・・・・
変化なし
:
・・・・
変化あり
変化なし
変化なし
・・・・
:
変化あり
:
変化あり
・・・・
変化あり
変化あり
:
:
☆ランダマイゼーション検定
ランダムに(変化あり/なし)を入れ替えた
データ群から、嫌気性呼吸に関与する遺伝
子のうちで「変化あり」となっている遺伝子
の数の分布が得られる。
頻度
実際のデータが
どこに来る?
この分布の中で、実際に得られたデータが
どの辺りに来るかを調べることによって、そ
のデータが有意にランダムな分布から外れ
ているか、つまりその遺伝子カテゴリと発現
量の変化が関係があるか否かを判定する
ことができる。
そのカテゴリで 「変化あり」となって いる遺伝子の数
4
☆χ2検定(カイ二乗検定)
ランダマイゼーション検定は概念的には簡単な方法であるが、実行するため
にはランダムデータを十分な数だけ用意する必要があり、面倒である。より
一般的かつ簡便な方法として、 χ2分布を利用した検定について議論する。
これまでに論じた例を一般化すると以下のようになる。
母集団がK個(例では2つ)のカテゴリに分けられるとする。ただし、それぞれ
の測定値はこのK個のカテゴリのどれか一つに入るものとする。このとき、 n個の測定値について、カテゴリ1~Kに入った測定値の数がそれぞれ X1, X 2 ,L, X K
であったとき、「母集団の各カテゴリに属する測定値の数
p1 , p2 , L , p K
の比率が である」という仮説が正しいかどうか(棄却できる
かどうか)検定する。
しばしば、適合度の検定とも呼ばれる
カテゴリ数k=2の場合をまとめると、以下の表となる。
カテゴリ1
カテゴリ2
合計
観測値
X1
X1
比率
p1
p2
n
1
期待値
np1
np2
n
X1 + X 2 = n
p1 + p2 = 1
このとき、以下の統計量
( X i − n pi ) 2
T =∑
=
n pi
i =1
k
k
( 観 測 値i − 期 待 値i )
i =1
期 待 値i
∑
2
は(nが大きいとき近似的に)自由度k−1のχ2分布に従う。 これを利用して帰無仮説
p1 , p2 , L , p K
「カテゴリ に入る測定値の比率は である」 1,2, L , K
が棄却できるかどうか検定ができる。 5
☆χ2分布
n個の独立な確率変数 がそれぞれ標準正規分布
X1 , X 2 , K, X n
N(0,1)に従うとき、以下の確率変数Zは自由度nのχ2分布に従う。 Z = X 12 + X 22 + L + X n2
正規分布の 分散の和の分布
χ2分布
fn ( x) =
ただし
Γ( p) =
n 2−1 − x 2
e
deleted based on copyright concern.
n2
Γ ( n 2) unspecified quotation.
2
x
p −1
e
∫0 x
∞
−x
dx
ガンマ関数と呼ばれる
特殊関数
では、カテゴリの数k=2の場合に、以下の統計量T
k ( X i − npi ) 2
T = ∑
npi
i =1
が自由度1(=k−1)のχ2分布に従うことを示す。K=2の場合は、
X 1 + X 2 = n , p1 + p2 = 1
となるので、
T=
( X 1 − np1 )2 + ( X 2 − np2 )2
np1
np2
2
2
(
X 1 − np1 ) ((n − X 1 ) − n(1 − p1 ) )
=
+
np1
n(1 − p1 )
2
2
(
X 1 − np1 ) ( X 1 − np1 )
=
+
np1
n(1 − p1 )
6
2
2
(
X 1 − np1 ) ( X 2 − np2 )
T=
+
np1
np2
⎧⎪ X 1 − np1 ⎫⎪
2 ⎧ (1 − p1 ) + p1 ⎫
= ( X 1 − np1 ) ⎨
=
⎬
⎬ ⎨
⎩ np1 (1 − p1 ) ⎭ ⎪⎩ np1 (1 − p1 ) ⎪⎭
p1
ここで、 はある測定値がカテゴリ1に属する確率と考えられるので、
n個の測定値のうちでカテゴリ1に属する測定値の数 は二項分布に
X1
np1
従うこととなる。この二項分布は平均 、標準偏差 np1 (1 − p1 )
2
となり、測定値の数nが大きいときは中心極限定理により正規分布となる。
ゆえに、
T =Y2 , Y =
X 1 − np1
np1 (1 − p1 )
正規分布の 標準化の形となる
とするとYは標準正規分布に従うので、Tは自由度1のχ2分布に従う。
(カテゴリの数Kが3以上の場合は証明はもっと難しいので略)
☆χ2分布の表は与えられている
自由度 (サンプル数ー1)
斜線部の面積
(=有意水準)
deleted based on copyright concern.
unspecified quotation.
7
では、カテゴリ数k=2の場合を実際にやってみる。
カテゴリ1
共生と単独で
変化あり
カテゴリ2
共生と単独で
変化なし
合計
観測値Xi
71
70
141
比率pi
0.368
0.632
1
期待値npi
52
89
141
このとき、以下の統計量
k ( X i − npi ) 2
T = ∑
npi
i =1
は自由度1のχ2分布に従う。これを利用して帰無仮説
遺伝子全体で「変化あり」
となった比率が0.368 だったから
帰無仮説H0:「カテゴリ1、2に入る測定値の比率は0.368と0.632である。 つまり、共生する/しないと嫌気性呼吸のカテゴリとは 無関係である。」 が棄却できるかどうか検定ができる。 この場合、実験データから得られた統計量Tは、分布の大きい方に
外れる(ランダムな分布から外れる)ことが期待されているので、分
布の大きい方にだけ棄却域を設定する(片側検定)。
そこで、 χ2分布表より自由度1のχ2分布表において
P (T ≥ α ) = 0.05
f(T)
となるαを求めると、3.841となる。
自由度1のχ2分布
つまり有意水準を5%とすると、棄
却域は
ここの面積が 0.05
T > 3.841
となる。
T
0
Tが3.841より大きくなる、つまり
期待値と観測値の差がそれだ
け大きいという場合は、100回
実験を行って5回以下しか現れ
ないということ。
棄却域
3.841
8
では、実際に得られたデータから統計量Tを計算する。
k ( X − npi )
T = ∑ i
i =1
npi
2
2
(
(
71 − 52 )
70 − 89 )
=
+
2
52 2
89 2
= 11.0
これは、先に設定した棄却域
T > 3.841
に入るので、仮説は棄却される。 つまり、カテゴリ1、2に測定値が入る比率が
p1 、 p2であるなら、実際に得られたデータが現れる確率は5%以下である。
カテゴリ1、2に測定値が入る比率がp1 、 p2ではない。
嫌気性呼吸に関与する遺伝子カテゴリと、共生状態と単独状態とで 発現量が変化する/しないとは相関がある。
Glucose
PEP
ptsG
ptsHI
gnd
zwf
PYR
6PGnt
G6P
Ru5P
解糖系とTCA回路に
おける遺伝子変化
rpe
pgi
X5P
F6P
rpiA
rpiB
pfkA
fbp
pfkB
R5P
F1,6P
fba
talA
tktA
talB
tktB
G3P
tpiA
gapA
pgk
gpmA
gpmB
eno
PEP
・赤い枠の遺伝子: 共生によって有意に発現が減少
pykA
ppc
pckA
pykF
PYR
aceE
aceF
・青い枠の遺伝子: 共生によって有意に発現が増加
AcCoA
gltA
OAA
Citrate
acnA
mdh
・白い枠の遺伝子:変化なし
acnA
Malate
ICT
glcB
fumB
aceA
frdA
fumA
fumC
sdhC
icdA
sucA
SUC
9
★集団として有意に発現が変動した主なカテゴリ
有意に発現がupしたカテゴリ(up/total = 922/4346: 21.2%)
• 嫌気代謝系 (38/141: 27.0%)
• Colanic acid 合成系 (10/28: 35.7%)
ねばねばの成分?
• Peptidoglycan 合成系 (14/40: 35.0%)
• Transposon related
(14/33: 43.4%)
• Suger transport
(11/28: 39.3%)
有意に発現がdownしたカテゴリ(up/total = 678/4346: 15.6%)
• 解糖系 (7/21: 33.3%)
• DNA複製 (13/51: 25.5%)
• RNA転写 (45/96: 46.9%)
• Ribosomal proteins
(39/56: 69.6%)
• Adaptation to osmotic pressure (9/27: 33.3%)
• Adaptation to starvation (7/17: 41.2%)
• SOS response
(15/24: 62.5%)
ストレスに対する
応答関係の遺伝
子が全般的に下
がっている。
☆カテゴリ数が4の場合:メンデルの法則
あるエンドウマメの交配実験の結果は、メンデルの法則によれば「黄色・丸」
「黄色・しわ」「緑色・丸」「緑色・しわ」の4種類の形質の豆が9:3:3:1の割
合で現れるはずだという。実際にこの実験を行ったところ、それぞれの形質
をもったマメの数は447、131、152、38であった。この実験においてメン
デルの法則が成り立っているか有意水準5%で検定せよ。
観測値
比率
期待値
黄色・丸
黄色・しわ
緑色・丸
緑色・しわ
合計
447
9/16
432
131
3/16
144
152
3/16
144
38
1/16
48
768
1
768
帰無仮説「それぞれの形質のマメが現れる比率は9:3:3:1である」 を有意水準5%で検定する。
10
カテゴリ数は4となるので、統計量T
( X i − npi ) 2
npi
i =1
k
T =∑
は自由度3のχ2分布に従う。分布表から有意水準5%の棄却域を求
めると、 となる。また上の観測値から統計量Tを求めると T > 7.815
となるので、棄却域には入らない.
T = 4.22
ゆえに、この観測値から「この系でメンデルの法則が成り立っている 」
という仮説は棄却できない。
適合度の検定の場合は、
「帰無仮説が棄却できない→帰無仮説が成り立つ」 とする場合もあるが、そうした使用方法は一般的とは言えないので注意。
☆酵母の浸透圧ストレス応答のマイクロアレイによる解析
目的:
酵母の浸透圧ストレスに対する応答の解析
実験:
対数増殖期にある酵母に対して、培地にNaClを加えることにより浸透
圧ストレスを与え、その後の遺伝子発現の変化を15,30,45,60,120分後に
マイクロアレイで解析。
浸透圧ストレスを与えることによる発現量の変化を、
全ての遺伝子(酵母は約6000)について定量的に
得ることができる!
11
☆遺伝子発現パターンのクラスタリング
酵母の約6000の全遺伝子の発現ダイナミクスを見ても、データが多す
ぎて何も理解できない。
そこで、同じような発現パターンを持った遺伝子をグループ分けして (クラスタリングと呼ぶ)、そのグループごとに何らかの特徴を持って いないか探ることにする。
遺伝子発現量
同じような発現 パターンのものを
まとめる
すいません。図が出ませんで
した。講義を参照してください。
すいません。図が出ませんで
した。講義を参照してください。
時間
ここで浸透圧ストレス ※遺伝子発現量は0から1の範囲に正規化している。
を与える
☆クラスタリング結果のχ2検定を利用した解析
同じような発現パターンを持つ遺伝子を、クラスターとしてまとめるという
操作を行う。その結果を用いて、浸透圧ストレスに対する応答の過程で、
どのような因子が遺伝子発現に関与しているのかをχ2検定を用いて
調べることができる。
クラスター1
クラスター2
………
クラスターk
遺伝子数
n1
n2
………
nk
因子Aの 観測値
X1
X2
………
Xk
E1
E2
………
Ek
因子Aの 期待値
発現 パターン
発現量
………
因子Aの分布が発現
に関係なくランダム だった場合の期待値
時間
χ2検定を用いて、クラスター間での因子Aの分布がランダムなものとは有
意に異なることが示された場合、因子Aは何らかの形でこのストレス応答
の過程に関わっていることが疑われる。
12
例えば因子Aとして、遺伝子のプロモーター領域にある5bpの任意の配列
を考える(例えば、AAGTCとか、CTCGAなどなど)。5bpの任意の配列は
45=1024種類存在するので、その全てについて、ランダムであった場合
の期待値を計算し、上の方法でランダムな分布と異なるかχ2 検定を行う。
検定の結果、有意にランダムな分布と異なる5bpの配列は、ストレス応答
において遺伝子発現を制御する役割を持った配列かもしれない。例えば、
よく知られているSTRE(Stress response element)と呼ばれる制御配列は上
の方法でχ2検定に引っかかる。
クラスター1
クラスター2
………
クラスターk
遺伝子数
n1
n2
………
nk
因子Aの 観測値
X1
X2
………
Xk
因子Aの 期待値
E1
E2
………
Ek
発現 パターン
発現量
因子Aの分布が発現
に関係なくランダム だった場合の期待値
………
時間
☆k×m分割表を用いたχ2検定
血液型
胃潰瘍患者
胃がん患者
健康者
合計
A型
16
12
15
9
52
12
5
11
2
30
36
20
24
1
81
64
37
50
12
163
B型
O型
AB型
合計
163人の標本集団から、血液型と胃潰瘍・胃がんの関係を調べた。
上のデータから、両者に関係があると言えるか?
13
カテゴリ
A1
A2
Ai
Ak
合計
B1
B2
Bj
X11 X12 …
X21 X22 …
:
:
:
:
:
:
Xk1
…
nB1 nB2
Bm
… … X1m
… … :
:
Xij
:
:
… … Xkm
nBm
nBj
合計
nA1
nA2
nAi
nAk
2個の変数A、Bがそれぞれk個、m個のカテゴリを持ち、 k×mのマス目を持つ分割表が得られたとする。 このとき、 変数Aと変数Bが独立だとすると、Xijの期待値Eijは、
Eij = N ⋅
n Ai nBj n Ai nBj
⋅
=
N N
N
カテゴリAiの比率
カテゴリBjの比率
このとき、以下の統計量T
T = ∑∑
i
j
(X
− Eij )
2
ij
Eij
全てのカテゴリ数k×mから、
拘束条件(nAiなど)の数を
引くとこの値となる。
は自由度 の
(k − 1)(m − 1) χ2分布に従う。
これを利用して、帰無仮説
「変数Aと変数Bが独立である」
が棄却できるかどうか検定することができる。
14