システム生物情報学 - Kyoto University Bioinformatics

生命情報学/システム生物情報学 (5)
遺伝子発現データ解析
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定(阿久津担当分)


第1回: 生命情報学・システム生物情報学概観
第2回:生体内ネットワークの特徴解析(1)


第3回:生体内ネットワークの特徴解析(2)




スケールフリーネットワーク
代謝ネットワーク
第4回:タンパク質相互作用解析
第5回:遺伝子発現データ解析
レポート課題(阿久津担当分)は第5回に出題
内容
 遺伝子発現データ解析
 クラスタリング
 腫瘍細胞分類
 遺伝子ネットワーク推定
遺伝子発現データの解析

DNAチップ・DNAマイクロアレイ


多数の遺伝子の発現量を同時測定可能
遺伝子発現データ解析

クラスタリング


遺伝子ネットワーク推定


どの遺伝子が似ているか?
どの遺伝子がどの遺伝子を制御しているか?
腫瘍細胞分類

腫瘍のより細かな分類、抗がん剤の適切投与
クラスタリング


データをいくつかの
グループ(クラス
ター)に分類
遺伝子発現データ、
バイオインフォマ
ティクス以外にも数
多くの応用
発現データのクラスタリング(1)
発
現
量
時間
似た時間変化をする遺伝子をグループ化
発現データのクラスタリング(2)
分裂開始
10分後
20分後
30分後
40分後
50分後
60分後


遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
遺伝子7
1.1
2.2
1.3
0.8
0.9
0.9
1.7
3.5
2.6
4.8
4.6
2.8
3.0
2.5
1.2
2.0
1.3
0.7
0.9
0.8
1.6
1.2
0.8
0.5
0.9
1.5
2.0
3.1
1.3
2.1
1.4
0.9
0.7
0.8
1.6
3.3
2.5
4.8
4.7
2.7
3.1
2.4
1.1
0.7
0.4
0.9
1.4
2.2
3.2
遺伝子データを7次元の点(ベクトル)と考える
近い点どうしを同じクラスターとする
階層的クラスタリング
(average linkage 法、UPGMA法)
アルゴリズム
 すべての点を別の
クラスターとする
 最も近いクラス
ターを一つにまと
める
 この作業をクラス
ターが一つになる
まで繰り返す
クラスター間の距離:
点間の距離の平均値
階層的クラスタリングと
進化系統樹
進化系統樹



種間(もしくは遺伝子間)の進化の関係を表す木
以前は形態的特徴をもとに構成
現在は配列情報をもとに構成
UPGMA法
(Unweighted pair group method using arithmetic averages)

アルゴリズム


各配列のみからなるクラスタを作成
クラスタが2個になるまで以下を繰り返す



クラスタ間距離が最小のクラスタどうしを併合
新しくできたクラスタと他のクラスタ間の距離を計算
クラスタ間距離
1
Dkl 
dij

| Ck || Cl | iCk , jCl
UPGMA法(例1)
C6  C4  C5  {4,5}  C7  C1  C2  {1,2} 
C8  C7  C3  {1,2,3}  C9  C6  C8  {1,2,3,4,5}
UPGMA法の正当性
分子時計=進化速度一定性の仮定
 枝長=分子時計により刻まれた時間
 分子時計仮説が成立 
「任意の葉までの枝長の和が等しい」が任意節点について成立
⇒UPGMA法は系統樹を正しく再構成
以下の例で、(a) は仮説を満たさないが、(b)は満たす

遺伝子発現データを用いた
腫瘍細胞分類
腫瘍細胞


発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
抗がん剤の適切
な投与などに応
用できる可能性
DNAマイク
ロアレイ
Type A
腫瘍の
タイプ
Type B
Eric Landerらの研究I (1999)

急性白血病の分類




6800個程度の遺伝子の発現データを利用
72サンプル
ALL (acute lymphoblastic leukemias)
AML (acute myeloid leukemias)
Eric Landerらの研究II





急性白血病のデータ(Golub et al, 1999)
38+34の患者の6817遺伝子の発現量を
AffymetrixのDNAチップで計測
ALL と AML のクラス分け
B-CELL ALL と T-CELL ALL のクラス分け
多数決により決定(ただし、差が少ない場合
には判定不能とする)
Eric Landerらの研究III

クラス予測



クラス発見



与えられたデータがどの既知クラスに入るかを推定
(重み付き)多数決により推定
新たな腫瘍のタイプを発見
自己組織化マップ(クラスタリング技法の一種)を利用
Informative Gene



クラス予測に有用な遺伝子セット
クラス分けとの相関に基づき選択
Feature Selection (AI分野で数多くの研究)
発現データからの細胞分類
Sample1
Sample2
Sample3
Sample4
Sample5
Sample6
Sample7


遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
タイプ
1.1
2.2
1.3
0.8
0.9
0.9
1.7
4.5
2.6
4.8
4.6
0.2
3.0
2.5
4.1
5.0
2.5
4.3
2.7
0.5
1.1
2.1
5.3
3.9
4.5
1.1
2.8
3.1
0.4
0.5
0.8
0.3
0.4
1.2
0.2
4.3
3.4
4.8
3.5
3.7
4.3
4.2
ALL
ALL
ALL
ALL
AML
AML
AML
(遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0
⇒ ALLと推定
線形不等式による判別 ⇒ サポートベクターマシンの利用
サポートベクタマシン


分類のための学習方式
特徴





テストデータ
正負の例(トレーニングデータ)
からマージンを最大化するパラ
メータを学習
過学習を起こしにくい
様々なカーネルを利用可能
二次計画法を利用(最適性の
保証)
バイオインフォマティクスに
おいても既に様々な応用
margin
SVMによる腫瘍細胞分類(クラス予測)


ALLを正例、AMLを負
例として与えて、超平
面を学習
新たなサンプルがき
たらば、超平面のどち
らにあるかを判定し、
ALLかAMLかを予測
サンプル
k
x+y = k
ALL
AML
遺伝子ネットワーク推定



環境変化(熱ショック、栄養状態)や発生、細胞分裂時の遺伝子の
時系列データを観測
時系列データから遺伝子の制御関係(ネットワーク)を推定
推定のためにはネットワークの数理モデルが必要
Exp. level
Time Series of Gene Expression
Network
Gene A
Gene B
Gene C
Gene D
Gene E
time
ブーリアンネットワーク(1)

背景


1960年代に複雑系で有名なKauffmanが提唱
特徴

頂点⇔遺伝子


制御規則


状態:1 (発現) と 0 (非発現)のみ
ブール関数 (デジタル回路)
状態は(クロックに)同期して変化

基本的にパソコン内部と同じ
ブーリアンネットワーク(2)
状態遷移表
A
B
時刻 t
C
A’ = B
B’ = A and C
C’ = not A
A B C
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1
時刻 t+1
A’
0
0
1
1
0
0
1
1
B’
0
0
0
0
0
1
0
1
C’
1
1
1
1
0
0
0
0
アトラクター

状態遷移


初期状態が与えられれば、状
態遷移表より、どのような変化
がおきるかがわかる
アトラクター:同じ状態系列
の繰り返し


011 ⇒ 101 ⇒ 010 ⇒ 101 ⇒
010 ⇒ …
111 ⇒ 110 ⇒ 100 ⇒ 000 ⇒
001 ⇒ 001 ⇒ 001 ⇒
time t
time t+1
A B C
A’ B’ C’
0
0
0
0
1
1
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
1
0
1
0
1
0
1
INPUT
0
0
0
0
0
1
0
1
1
1
1
1
0
0
0
0
OUTPUT
アトラクターの例
time t
time
t+1
A B C
A’ B’ C’
0
0
0
0
1
1
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
1
0
1
0
1
0
1
0
0
0
0
0
1
0
1
1
1
1
1
0
0
0
0
111
011
110
100
000
001
INPUT
OUTPUT
101
010
定理:各頂点に対してランダムにn変数ブール関数
を選んでブーリアンネットワークを構成した場合、周
期1のアトラクターの個数は平均的に1個
証明
 時刻 t=0 においてすべての頂点の状態が0であったと
する(すべての i について vi(0)=0 であったとする)
 任意の頂点 vi について、時刻 t=1 に vi の状態が 0 と
なる(vi(1)=0となる)確率は 1/2
 よって、すべての i について vi(1)=0 となる確率は 1/2n(
つまり、000…0 がアトラクターとなる確率が1/2n)
 時刻 t=0 におけるすべての状態(000..00から111…1ま
で)についての和をとることにより、周期1のアトラクター
の個数の期待値は 2n×(1/2n) = 1
定理の説明
時刻 t
時刻 t+1
v1
0
v1
Prob(v1=0)=0.5
v2
0
v2
Prob(v2=0)=0.5
v3
Prob(v3=0)=0.5
vn
Prob(vn=0)=0.5
v3
vn
0
0
Prob(v=000…0)
=0.5n
2n×0.5n = 1
ブーリアンネットワークの同定



時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例
例に無矛盾なネットーワークが一意かを判定
例は発現パターンの変化に相当
時刻 t
A B C
1 0 0
0 1 0
0 1 1
時刻 t+1
A’
0
0
1
B’
0
1
0
C’
1
1
0
A’ = C
B’ = B and (not C)
C’ = not C
A’ = C
B’ = B xor C
C’ = not C
入次数

ネットワーク形状に制約が無い場合
⇒状態遷移表の全部の行(

入次数が定数 K 以下
2n )行が必要
⇒(全部で2n 行あるうちの)たったO(log n)行で十分
入次数=2
A
入次数=3
A
ブーリアンネットワーク同定の
ためのアルゴリズム


基本的にはしらみつぶし
例えば、K=2の場合


いくつかの改良



xi’=xj, xi’=NOT xj, xi’=xj AND xk,… とすべての可能
な論理関数を調べる
情報量の利用
貪欲算法の利用
しかし、本質的にしらみつぶし法より良い方法は
知られていない(Kを固定しない場合はNP完全)
アルゴリズム

例えば右図の場合、遺伝子
Dの制御規則を推定するに
は






D’=A, D’=B
D’=C, D’=D
D’=NOT A, D’=NOT B
D’=NOT C, D’=NOT D
というすべての可能な規則を
生成し、入力データと矛盾が
ないかをチェック(K=1)
5行目までだと、D’=NOT A
と D’=NOT C が残る
6行目まで調べると、
D’=NOT C のみが残る
ネットワーク
入力データ
A
D
B
C
A B C D
A’ B’ C’ D’
0
0
0
1
1
1
0
0
1
0
0
0
1
1
1
0
0
0
1
1
0
1
1
0
1
1 0 0 0
1
1
1
0
0
1
1
0
0
0
1
1
1
0
0
1 0 1 1
定理

状態遷移表の中からランダムに選んだ
O(22 K  (2K   )  logn) 個の行が与え
1
られれば、確率 1  n 以上で
与えられた例に無矛盾な入次数限定の
ブーリアンネットワークが一意に定まる。
ベイジアンネットワーク




条件付き確率で知識
やネットワークを表現
AI分野で数多くの研究
グラフィカルモデリング
と深い関係
ブーリアンネットワーク
とは異なり、時間を陽
には取り扱わない
NOT回路の例
A
Prob(B=0|A=1) = 1.0
B
Prob(B=1|A=0) = 1.0
Prob(B=1|A=1) = 0.0
Prob(B=0|A=0) = 0.0
AND回路の例
A
B
Prob(C=1|A=1,B=1) = 1.0
Prob(C=0|A=1,B=1) = 0.0
Prob(C=1|A=0,B=1) = 0.0
C
Prob(C=0|A=0,B=1) = 1.0
線形微分方程式系
dX 3
 a0  a1 X 1  a2 X 2
dt

X 3 (t  t )  X 3 (t )
 a0  a1 X 1 (t )  a2 X 2 (t )
t


微分方程式を離散化 ⇒ 連立一次方程式 ⇒ 回
帰分析
時系列データが既知なら、Xi (t)やΔt などは定数を考
えることができる ⇒ a0,a1,a2 を計算すればOK
S-system
n
n
dX i  
g 
h



X
X
j
j
i
i
dt
j 1
j 1
ij
ij
例
dX    
3 X X
dt
1
1.5
2.0
2
3
 3  X
2.5
4
実データ解析における問題点



時間間隔の長い(数十分以上)、数点から数
十点程度のデータしか利用できない
正確な発現量を測定できるわけではなく、
同じ測定を行っても数十%の差
同じような時間変化を示す遺伝子が多い
(数百が同じような変化)
まとめ

遺伝子発現データ解析


クラスタリング


似た発現パターンを示す遺伝子をグループ化
腫瘍細胞分類



DNAマイクロアレイやDNAチップなどの技術により、数千種
類の遺伝子の発現量を同時に測定可能
発現パターンの違いにより腫瘍のタイプを細かく分類
サポートベクターマシンなどの機械学習手法が有用
遺伝子ネットワーク推定


様々な数理モデルが提案されている
しかし、精度の高い推定は現状では困難
レポート課題

KULASISに掲載