発現データからのガン細胞分類

集中講義(東京大学)「化学システム工学特論第3」
バイオインフォマティクス的手法による化合物の性質予測(7)
21世紀COE「ゲノム科学の知的情報基
盤・研究拠点形成」
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義のまとめ






スケールフリーネットワーク
配列アライメント
タンパク質立体構造予測
遺伝子発現データ解析
タンパク質-リガンド・ドッキング
カーネル法を用いた化合物の性質予測
スケールフリーネットワーク (1)

頂点の次数


P(k)



次数=5
その頂点につながっ
ている辺の個数
次数分布
次数 k の頂点の頻
度
次数=2
スケールフリーネッ
トワーク

P(k) がべき乗則に
従う
P( k )  k

次数=3
スケールフリーネットワーク (2)
次数=5
次数=2
頂
点
数
頂点数 ∝ (次数)-3
次数
次数=3
配列アライメント




バイオインフォマティクスの
最重要技術の一つ
2個もしくは3個以上の配列
の類似性の判定に利用
文字間の最適な対応関係を
求める(最適化問題)
配列長を同じにするように、
ギャップ記号(挿入、欠失に
対応)を挿入
A L G F G S L Y G
A L G G V S V G
A L G F G
A L G
S L Y G
G V S V
G
動的計画法による大域アライメント(1)
(Needleman-Wunschアルゴリズム)



入力文字列から格子状グラフを構成
アライメントと左上から右下へのパスが一対一対応
最長経路=最適アライメント
G
G
F
V
D
5
-5
K
-2
-5
Y
-5
7
D
1
-6
-1
-2
-3
-2
1
0
-4
4
-7
-7
-7
-7
アライメント
スコア
-7
-7
-7
-7
GKY
D
G F V D
5 -7 +7
-7 +4 = 2
GK Y D
GF V D
-7 -7 -1 +0
-7 -7 = -29
GKY D
-7 -7 -5 -7
-7 -7 -7 = -47
G
F V D
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
遺伝子発現データを用いた
腫瘍細胞分類


発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
抗がん剤の適切
な投与などに応
用できる可能性
腫瘍細胞
DNAマイク
ロアレイ
Type A
腫瘍の
タイプ
Type B
タンパク質-リガンド・ドッキング


タンパク質と化合物
(もしくはペプチド)の
結合(配置)を予測
Rigid Body Docking


タンパク質もリガンド
も変形しないと仮定
Flexible Docking

リガンドやタンパク質
の変形も許容
サポートベクターマシン


正例と負例を与
えて、それらを最
適(マージンを最
大)に分離する超
平面を学習
カーネルを適切に
定義することによ
り超平面以外で
の分離が可能
テストデータ
margin
Marginalized グラフ・カーネル(3)
x
H
O
C
φ(x)
Cl
H
C
N
( 0.03 0.03 0.0
H
C
H
O
C
H
H
C
H
0.02
0.0
0.01
0.002
)
21世紀COE「ゲノム科学の知的情報基盤・
研究拠点形成」



京大化研バイオインフォマティクスセンター(BIC)
と京大薬学研究科で共同で実施
リーダー:金久實(BICセンター長)
特徴:ゲノムとケミストリーの融合




C.f.: ケミカルゲノミクス(米NIHロードマップ)
ゲノム情報とケミカル情報を融合したバイオインフォ
マティクスを開拓
生命システムと環境の相互作用を理解
医療や産業への新しい応用を目指す
三種類の研究領域

環境ゲノミクス



ケモゲノミクス



ゲノムと環境の相互作用を分子のネットワークとして
理解
ゲノム情報とケミカル情報の関連解析
リード化合物探索
ケミカル情報の系統的解析
薬理ゲノミクス


創薬ターゲット探索
ゲノム情報の系統的解析
教育への取り組み

高度なバイオインフォマティクス教育

「ゲノム情報科学研究教育機構」による講義






講義科学技術振興費バイオインフォマティクス人材養成プログラム
(京大BIC+東大HGC)
テレビ会議システムを利用
日本バイオインフォマティクス学会のカリキュラムに基づく
ボストン大学、フンボルト大学と連携
バイオインフォマティクス副専攻教育(薬学研究科)
バイオインフォマティクス基礎教育(薬学部)