発現データからのガン細胞分類

集中講義(東京大学)「化学システム工学特論第3」
バイオインフォマティクス的手法による化合物の性質予測
(1)
バイオインフォマティクス概観
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
バイオインフォマティクス(1)


生物学+情報技術(IT)
1990年代に大きく発展
← ゲノム計画の急速な進展
(既に100種類以上の生物種のゲノムが決
定)

情報解析の必要性



DNA配列⇔プログラムのオブジェクトコード
意味の解析が必要
配列以外のデータ解析も重要

立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2)

主要トピック








データベース構築
遺伝子発見、遺伝子制御領域推定
配列検索、配列比較、進化系統樹
タンパク質構造予測、機能予測、相互作用予測
遺伝子発現データ解析
ネットワーク構造解析
化合物の性質推定
分野としての特徴


多くのデータベース・ソフトウェアがWEBなどから利用可能
研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおける
データベース

多くの重要なデータベースが無償でWEBから
アクセス可能





DNA配列: GenBank, EMBL, DDBJ
タンパク質配列: Swissprot
タンパク質立体構造: PDB
モチーフ: Prosite, Pfam, …
代謝パスウェイ: KEGG
バイオインフォマティクスセンター
Bioinformatics Center



京都大学 化学研究所 附属
2001年4月設立
現在、4研究室


金久研: KEGG
馬見塚研:
データマイニング

阿久津研:
アルゴリズム

人材養成ユニット(藤研): 分子進化
KEGG:
Kyoto Encyclopedia of Genes and Genomes


金久研が開発しているデータベース
様々な生物情報データを格納
代謝パスウェイ
 化合物、代謝反応式
 ゲノム配列
 遺伝子発現データ
 DBGET (統合データベースシステム)


GenBnak, PDB, SwissProt, …
KEGG:
Top page
KEGG中の代謝パスウェイの例
KEGG/LIGAND中の代謝反応式の例
研究室の研究内容

研究方針



数理的原理に基づく生命情報解析手法の開発
生命システムの数理的理解
研究トピック

相互作用推定






タンパク質―タンパク質、遺伝子―遺伝子など
スケールフリーネットワーク
配列解析(文字列解析)アルゴリズム
タンパク質立体構造解析(比較・予測)
化学情報解析(ケモインフォマティクス)
生物データ解析のための統計的手法

HMM、サポートベクタマシン
遺伝子と蛋白質

遺伝情報の流れ


遺伝子


DNA配列中で直接的に
機能する部分
エキソン
転写制御領域
(プロモーターなど)

スプライシング
mRNA
GGU

アミノ酸(20種類)の鎖
GCA
翻訳
GGU → Gly
GCA → Ala
染色体全体(半数体)
遺伝情報の総体
タンパク質
エキソン
転写 ・
ゲノム


DNA⇒RNA⇒タンパク
エキソン
タンパク質
DNA
DNAとアミノ酸
DNAはA,C,G,Tの4文
字の並び

DNAは二重ラセン構
造⇒相補鎖

塩基:DNA1文字、
残基:アミノ酸1文字

DNA3文字がアミノ酸
1文字に対応
(アミノ酸は20種類)

コード表
2文字目
T
TTT
TTC
T
1
文
字
目
C
A
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
相補鎖
G
A C G T C G T C
T G C A G C A G
GTT
GTC
GTA
GTG
C
F
L
L
I
M
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
A
S
P
T
A
TAT
TAC
TAA
TAG
G
Y
stop
CAT
CAC
H
CAA
CAG
TGT
TGC
TGA
TGG
C
stop
W
Q
CGT
CGC
CGA
CGG
R
AAT
AAC
N
AGT
AGC
S
AAA
AAG
K
AGA
AGG
R
GAT
GAC
D
GAA
GAG
E
GGT
GGC
GGA
GGG
G
アミノ酸と蛋白質


アミノ酸:20種類
蛋白質:アミノ酸の
鎖(短いものはペ
プチドと呼ばれる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
計算量

情報科学では、入力データのサイズ(n)に対して、計算時間がど
のように変化するかを理論的に解明することが重要
 O(n): かなり速い(文字列検索など)
 O(n log n): 結構速い(ソートなど)
2
 O(n ): まあまあ速い(アライメントなど)
3
 O(n ): ちょっと遅い(RNA二次構造予測など)
4
 O(n ): 結構遅い(Pseudo-knotつきRNA二次構造予測など)
 NP困難: すごく遅い (マルチプルアライメント、スレッディングなど)



P=NP は理論計算機科学における最大の難問
P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム
(多項式時間アルゴリズム)は存在しない
しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリ
ズムを開発できる可能性はある
講義内容







スケールフリーネットワーク
配列アライメント
タンパク質立体構造予測
遺伝子発現データ解析
タンパク質-リガンド・ドッキング
カーネル法を用いた化合物の性質予測
おわりに+21世紀COE「ゲノム科学の知
的情報基盤・研究拠点形成」