発現データからのガン細胞分類

分子生物情報学(7)
遺伝子発現データの情報解析法
スケールフリーネットワーク
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容




遺伝子発現データ解析
遺伝子ネットワーク推定
腫瘍細胞分類
スケールフリーネットワーク
遺伝子発現データの解析

DNAチップ・DNAマイクロアレイ


多数の遺伝子の発現量を同時測定可能
遺伝子発現データ解析

クラスタリング


遺伝子ネットワーク推定


どの遺伝子が似ているか?
どの遺伝子がどの遺伝子を制御しているか?
腫瘍細胞分類

腫瘍のより細かな分類、抗がん剤の適切投与
遺伝子ネットワーク推定
発
現
量
ネットワーク
遺伝子発現量の時間変化
ACETYL-CoA
OXALOACETATE
推定
CIT2
MDH2
ACO1
MLS1
ISOCITRATE
時間
GLYOXYLATE
ICL1
ネットワークモデル・推定手法






ブーリアンネットワーク
微分方程式系(線形・非線形)
ニューロ型モデル
時系列解析
ベイジアンネットワーク
グラフィカルモデリング
ブーリアンネットワークの例
状態遷移表
A
B
時刻 t
C
A’ = B
B’ = A and C
C’ = not A
A B C
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1
時刻 t+1
A’
0
0
1
1
0
0
1
1
B’
0
0
0
0
0
1
0
1
C’
1
1
1
1
0
0
0
0
状態遷移

状態遷移


初期状態が与えられれば、状態遷移表より、
どのような変化がおきるかがわかる
アトラクター:同じ状態系列が繰り返される


011 ⇒ 010 ⇒ 101 ⇒ 010 ⇒ 101 ⇒ …
111 ⇒ 110 ⇒ 100 ⇒ 000 ⇒ 001 ⇒ 001 ⇒
001 ⇒ …
ブーリアンネットワークの同定



時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例
例に無矛盾なネットーワークが一意かを判定
例は発現パターンの変化に相当
時刻 t
A B C
1 0 0
0 1 0
0 1 1
時刻 t+1
A’
0
0
1
B’
0
1
0
C’
1
1
0
A’ = C
B’ = B and (not C)
C’ = not C
A’ = C
B’ = B xor C
C’ = not C
入次数


ネットワーク形状に制約が無い場合
⇒状態遷移表の全部の行( 2n )行が必要
入次数が定数 K 以下
⇒(全部で2n 行あるうちの)たったO(log n)行で十分
入次数=2
A
入次数=3
A
ベイジアンネットワーク




条件付き確率で知識
やネットワークを表現
AI分野で数多くの研
究
グラフィカルモデリング
と深い関係
ブーリアンネットワーク
とは異なり、時間を陽
には取り扱わない
NOT回路の例
A
Prob(B=0|A=1) = 1.0
B
Prob(B=1|A=0) = 1.0
Prob(B=1|A=1) = 0.0
Prob(B=0|A=0) = 0.0
AND回路の例
A
B
Prob(C=1|A=1,B=1) = 1.0
Prob(C=0|A=1,B=1) = 0.0
Prob(C=1|A=0,B=1) = 0.0
C
Prob(C=0|A=0,B=1) = 1.0
線形微分方程式系の推定
(D’haeseleer et al. 1999)
dX 

X β
dt

X (t  t )  X (t )  
X
t
i
i
i
i
i
i


i
(t )  β
微分方程式を離散化 ⇒ 連立一次方程式 ⇒
回帰分析
時系列データが既知なら、Xi (t)やΔt などは定
数を考えることができる
S-system
n
n
dX i  
g 
h



X
X
j
j
i
i
dt
j 1
j 1
ij
ij
例
dX    
3 X X
dt
1
1.5
2.0
2
3
 3  X
2.5
4
実データ解析における問題点



時間間隔の長い(数十分以上)、数点から
数十点程度のデータしか利用できない
正確な発現量を測定できるわけではなく、
同じ測定を行っても数十%の差
同じような時間変化を示す遺伝子が多い
(数百が同じような変化)
遺伝子発現データを用いた
腫瘍細胞分類


発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
抗がん剤の適切
な投与などに応
用できる可能性
腫瘍細胞
DNAマイク
ロアレイ
Type A
腫瘍の
タイプ
Type B
Eric Landerらの研究I

(1999)
急性白血病の分類




6800個程度の遺伝子の発現データを利用
72サンプル
ALL (acute lymphoblastic leukemias)
AML (acute myeloid leukemias)
Eric Landerらの研究II





急性白血病のデータ(Golub et al, 1999)
38+34の患者の6817遺伝子の発現量を
AffymetrixのDNAチップで計測
ALL と AML のクラス分け
B-CELL ALL と T-CELL ALL のクラス分け
多数決により決定(ただし、差が少ない場
合には判定不能とする)
Eric Landerらの研究III

クラス予測



クラス発見



与えられたデータがどの既知クラスに入るかを推定
(重み付き)多数決により推定
新たな腫瘍のタイプを発見
自己組織化マップ(クラスタリング技法の一種)を利用
Informative Gene



クラス予測に有用な遺伝子セット
クラス分けとの相関に基づき選択
Feature Selection (AI分野で数多くの研究)
サポートベクタマシン


分類のための学習方式
特徴





正負の例(トレーニングデータ)
からマージンを最大化するパ
ラメータを学習
過学習を起こしにくい
様々なカーネルを利用可能
二次計画法を利用(最適性の
保証)
バイオインフォマティクスに
おいても既に様々な応用
テストデータ
margin
SVMによる腫瘍細胞分類(クラス予測)


ALLを正例、AMLを負
例として与えて、超平
面を学習
新たなサンプルがき
たらば、超平面のどち
らにあるかを判定し、
ALLかAMLかを予測
サンプル
k
x+y = k
ALL
AML
発現データからの細胞分類
Sample1
Sample2
Sample3
Sample4
Sample5
Sample6
Sample7


遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
タイプ
1.1
2.2
1.3
0.8
4.5
2.6
4.8
4.6
4.1
5.0
2.5
4.3
2.1
5.3
3.9
4.5
0.4
0.5
0.8
0.3
4.3
3.4
4.8
3.5
ALL
0.9
0.9
1.7
0.2
3.0
2.5
2.7
0.5
1.1
1.1
2.8
3.1
0.4
1.2
0.2
3.7
4.3
4.2
AML
ALL
ALL
ALL
AML
AML
実際には発現量はアナログ値
(遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0
⇒ALL と推定
スケールフリーネットワーク



Barabasi らが1999年頃に発見。以降、数多くの
研究
特徴: 有力な頂点(ハブ)に多くの頂点が連結
現実のネットワークの多くが該当


代謝ネットワーク、タンパク質相互作用、WWW、電力網、...
次数 k の頂点の個数が k -γに比例(べき乗則)

ランダムな場合(ポアソン分布: e-λλk/k!)と大差
グラフと生物情報ネットワーク
代謝ネットワーク (KEGG)
グラフ
・点と線で構造を表す
スケールフリーネットワーク
次数=5
次数=2
頂
点
数
頂点数 ∝ (次数)-3
次数
次数=3
スケールフリーネットワークの構成法(1)

Preferential Attachment


[Barabasi & Albert 1999]
別名: Rich-get-richer モデル
構成法(ほぼ、k -3 のべき乗則従うネットワークを生成)


m0 個の頂点から成るグラフを構成する
以下のステップを必要なだけ繰り返す
 現在のグラフに新たな頂点 v を追加する
 v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺
を張る(全部で m 本の辺を張る)
m0=4
m=3
スケールフリーネットワークの構成法(2)

Hierarchical Scale-Free Network [Ravasz, Barabasi et al. 2002]



別名:Deterministic Scale-Free Network
再帰的に構成
フラクタル的
参考文献

遺伝子ネットワーク推定


発現データを用いた細胞分類


Golub et al.: Science, 286, 531 (1999)
サポートベクタマシン


北野 編: システムバイオロジーの展開、シュプリンガー・フェアラーク東
京 (2001)
Cristianini, Shawe-Taylor: Support Vector Machines, Cambridge Univ.
Press (2000)
スケールフリーネットワーク


A.-L. Barabasi and Z.N. Oltvai, Nature Genetics Reviews 5, 101 (2004).
Barabasi のホームページ: http://www.nd.edu/~alb/