1 バイオインフォマティクス概論

生体情報学I
バイオインフォマティクス概論
関西学院大学理工学部生命医化学科
藤 博幸 1.  PubMed, OMIM
2.  タンパク質立体構造解析
3.  protein-protein interaction, metabolic pathway
階層性
(hierarchy)
生体は、空間的、時間的な階層性を持つ
システムである�
システムと入出力�
生物のスケールと階層性
生体
器官
組織
細胞
分子
原子
スケール
階層性
http://www.garlandscience.com/textbooks/081533480X/pdf/ch01.pdf
5
空間的階層性 1
分子�
DNA�����RNA
タンパク質��脂質
糖������水�
細胞�
要素�
相互作用�
要素を寄せ集めただけでは、システムとしての特性は
得られない。要素間の相互作用により、集団としての
性質として、システムとして働く。�
空間的階層性2
細胞�
臓器�
肝臓�
or
肺�
空間的階層性3�
臓器�
肝臓�
or
肺�
個体�
空間的階層性 4
個体�
個体群�
分子生物学
生化学�
細胞生物学�
生態学
行動学�
生命科学の発展(主要な解析対象の推移)
要素
ゲノム解析
cDNA計画
構造ゲノム解析
1970年代~1980年代
個別の配列データ
構造データ
個別
網羅
トランスクリプトーム
プロテオーム
1980年代
シグナル伝達
相互作用
ゲノム解読の歴史
シークエンサー
1978
1979
1980
1981
1982
1983
1984
SV40
HPV
5.2kbp
4.9kbp
mtDNA
16.6kbp
48kbp
λ
EBI
初めての
ゲノム解読
ウィルス粒子
の環状DNA
172kbp
生物 初
1992 酵母(S.cerevisie)第III染色体 315kbp
1993
真核生物 初
酵母(S.cerevisie)第XI染色体 666kbp
1994
1995
インフルエンザ菌(H.Influenza)ゲノム 1.83Mbp
1996
酵母(S.cerevisiae)ゲノム 13.5Mbp
1997
大腸菌(E.coli)ゲノム 4.6Mbp
1998
線虫(O.elegans)ゲノム 100Mbp
1999
2000
ショウジョウバエゲノム 180Mbp
2001
2002
2003
ヒトゲノム 3,000Mbp
1kbp
10kbp
100kbp
1Mbp
10Mbp
100Mbp 1,000Mbp
バイオインフォマティクスは
ゲノムインフォマティクスとしてはじまった
ヒトゲノム解読宣言
ヒトゲノム解析の歴史
1953
1977
1983
1986
1990
1993
1998
1999
2001
2003
ワトソンとクリックがDNAの二重らせん構
造を発見
DNA配列を解読する方法(サンガー法)が
開発される
PCR法が開発される
ヒトゲノム解読計画が本格的に始まる 自動シークエンサーの開発
ヒトゲノム解読の国際計画正式発足
染色体の物理地図が予定より早く完成
米ベンチャー企業(セレラ社)がヒトゲノム
解読を表明
国際チームがゲノム概要版の解読を加速
日英を中心に22番染色体のシークエンス
が完成
国際チームとセレラ社がヒトゲノム概要版
をそれぞれが発表
ヒトゲノム解読完了宣言
二重らせんが明らかになってから、わずか60年弱の出来事
Human Genome
半数体で約30億塩基対
二倍体で約60億塩基対
2万2千個のタンパク質
をコードする遺伝子
75% spacer
25% genes in which exons (=protein coding region)occupy about 1.5 %
98.5% of the genome do not code proteins.
98.5%
Previously, the region is called junk DNA.
cis regulatoru regions (= promotors & enhancers)
are included in the region.
About 50 % of the genome is occupied by
repetitive sequences including LINE, SINE,
and transposable genetic elements
It was recently revealed that about 70% of the genome is
transcribed into RNA. (RNA continent)
RNAs which do not code proteins (ncRNA =non-coding RNA)
ヒトゲノムとチンパンジーゲノム
97% 一致
ヒトは、タンパク質をコードする遺伝子ではなく、
その発現調節領域が変化している。
年次
2009
8
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
10
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
核酸配列数(千万)
12
5
核酸配列
アミノ酸配列
立体構造
4
3
6
4
2
2
1
アミノ配列、立体構造数(十万)
データの蓄積
爆発的な増加
ギガ・シークエンサー (次世代シークエンサー)
17年かけて読んだヒトゲノム解読 現在は2~3日で(10台の装置)
2002~2009年で塩基解読速度が約1000倍向上
ゲノム解読 8ヵ月で 2 倍 計算機の性能 1.5 年で 2 倍 4 年で 10 倍の差 ゲノム解読の高速化
1.E+10
Illumina GA
ABI SOLiD
Roche 454 FLX
解読可能塩基数/日
1.E+09
10倍の差
• 
1.E+08
454 GS20
1.E+07
ABI3730
1.E+06
ABI3700
ABI377
ムーアの法則 1.6倍/年
8か月で2倍
2年で2倍
1.E+05
1.E+04
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011
年
• 
ムーアの法則 “CPUの性能(集積回路上のトラン
ジスタ数)は 1.5年で2倍になる” 約10倍の個数のCPU並列化でしのぐ 生命科学の発展(主要な解析対象の推移)
要素
ゲノム解析
cDNA計画
構造ゲノム解析
1970年代~1980年代
個別の配列データ
構造データ
個別
網羅
トランスクリプトーム
プロテオーム
1980年代
シグナル伝達
相互作用
網羅的解析 -遺伝子発現-
マイクロアレイ
(2色法)
細胞A
細胞B
mRNAの調整
mRNAの調整
蛍光標識cDNAの調整
蛍光標識cDNAの調整
(例:Cy5標識 赤)
マイクロアレイ
(例:Cy3標識 緑)
混合してハイブリダイゼーションを行う
1つ1つのスポット
スポットの色:赤
A細胞 B細胞
由来 > 由来 mRNA mRNA
基板上のDNA
スポットの色:黄
A細胞 B細胞
由来 ≒ 由来 mRNA mRNA
スポットの色:緑
A細胞 B細胞
由来 < 由来 mRNA mRNA
2点間の距離
x
y
Sample 1
38
72
Sample 2
0
34
Sample 3
6
39
Sample 4
141
136
Sample 5
8
49
Sample 6
16
65
Sample 7
2
38
Sample 8
132
186
• 
• 
• 
200
180
160
140
120
100
80
60
40
20
0
x
y
ユークリッド距離
deuc (x, y) = 108
マンハッタン距離
dman (x, y) = 286
ピアソン相関距離
€
dcor (x, y) = 0.05
€
Single-linkage
Complete-linkage
> estrogen.hc <- hclust(estrogen.d, method="average")
> plot(estrogen.hc)
> estrogen.hc
Call:
hclust(d = estrogen.d, method = "average")
Cluster method : average
Distance
: euclidean
Number of objects: 8
Average-linkage
クラスター分析後
…
同じクラスターに分類された遺伝子群は、
発現パターンが類似していることから、発現
制御機構が類似しているかもしれない
Yan et al., Genome Biology, 2007, 8, R78
マイクロアレイから次世代シークエンサへ
発現アレイ
RNA seq
ChIP-chip
ChIP-seq
網羅的解析 -タンパク質相互作用の解析-
イースト・ツー・ハイブリッド法
a) タンパク質Xとタンパク質Yが ・ ・
相互作用する場合
転写制御因子の
転写活性化ドメイン
DNA結合ドメイン
プロモータ
タンパク質X
を融合させた
X
転写活性化ドメイン
プロモータ
Y
転写 ○
lacZ 遺伝子
プロモータ
プロモータ
転写 ○
lacZ 遺伝子
b) タンパク質Xとタンパク質Zが ・ ・ ・
相互作用しない場合
転写 X
lacZ 遺伝子
Z
Y
プロモータ
タンパク質Y
Y
を融合させた
DNA結合ドメイン
X
転写 X
lacZ 遺伝子
転写 X
lacZ 遺伝子
lacZ 遺伝子の発現をチェックすれば
相互作用の有無が分かる
Reconstruction of protein networks
�
Prediction of Biological Function
Characterization of Biological Network
生命科学の発展(主要な解析対象の推移)
要素
ゲノム解析
cDNA計画
構造ゲノム解析
1970年代~1980年代
個別の配列データ
構造データ
個別
網羅
トランスクリプトーム
プロテオーム
1980年代
シグナル伝達
相互作用
構造ゲノミクスの進展
立体構造既知タンパク質との類似性検索結果を外挿
2018
2021
2031
Yura, K., Yamaguchi, A., Go, M. (2006) J. Str. Func. Genomics, 7, 65-76.
薬剤設計(ドッキング)
•  HIVプロテアーゼ + 化合物
–  メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬
?
薬剤設計(ドッキング)
•  HIVプロテアーゼ + 化合物
–  メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬
薬剤設計(ドッキング)
•  HIVプロテアーゼ + 化合物
–  メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬
断面図(化合物が穴にぴったり埋まっている様子)
生命現象と情報の流れ
セントラルドグマ(遺伝情報の流れに関する基本的概念)
観察される現象
複製
情報の種類
DNA
塩基配列
転写, 逆転写
mRNA
塩基配列, 発現量(転写量)
翻訳
立体構造形成
タンパク質 アミノ酸配列, 三次元座標 翻訳後修飾
局在化
修飾, 局在, 結合情報
に関する情報
分子間の相互作用
生体分子として機能
セントラル・ドグマ�
DNA (遺伝情報の実体)�
転写 (transcription)
RNA
翻訳 (translation)
タンパク質�(protein)
網羅的解析�
ゲノム (genome)
ある生物の有する
遺伝情報の総体�
トランスクリプトーム
(transcriptome)
ある生物の時間的、空間的な
転写産物の総体�
プロテオーム
(proteome)
ある生物の時間的、空間的な
翻訳産物の総体�
個別的���������������網羅的
(genomewide)
セントラルドグマと網羅的解析の対応�
オミクスデータの異質性
研究のレベル
ゲノム
主な分析手法
DNA塩基配列決定
科学領域
ゲノミクス
DNA
(遺伝子全体)
トランスクリプトーム
mRNA
(細胞・組織・器官の
mRNA全体)
プロテオーム
proteins
(細胞・組織・器官の
タンパク質全体)
メタボローム
metabolities
(細胞・組織・器官の
代謝中間体全体)
マイクロアレイ
iAFLP
SAGE
など
情報量
どの細胞でも
同量
トランスクリプト
ミクス
質量分析
プロテオミクス
イースト・ツー・
ハイブリッド
二次元電気泳動 など
NMR分析
質量分析
メタボロミクス
増大
多様化
異質性の例と問題点
細胞
ゲノム
ネットワーク
遺伝子情報
アミノ酸情報
立体構造情報
相互作用情報
タンパク質を中心にみた場合
DNAの構造
塩基
NH2
リン酸
N
O
N
-O
P
O
5’
a
アデニン
t
チミン
グアニン
g
シトシン
c
N
N
O
OH
H
H
OH
H
H
3’
デオキシリボース
基本構造
核酸は”小文字”
で表記する
アルファベット表記は、分子構造を省略したものである
アミノ酸
Asp (D)
Glu (E)
アスパラギン酸グルタミン酸
側鎖
R
H
N
H
Tyr (Y)
チロシン
Ser
(S)
セリン
主鎖
H C アミノ基
Cys
(C)
システイン
OH
C
解離性アミノ酸
Lys
(K)
リジン
Arg (R)
アルギニン
His (H)
ヒスチジン
Thr (T)
スレオニン
O
カルボキシル基
基本構造
Gly
(G)
グリシン
Ala
(A)
アラニン
Val
(V)
バリン
Leu
(L) イソロイシン
Ile (I)
ロイシン
親水性
アミノ酸
Asn (N)
アスパラギン
アミノ酸は
”大文字”
で表記する
疎水性アミノ酸
Met
(M)
メチオニン
Pro
(P)
プロリン
Phe (F)
Trp (W)
フェニルアラニン
トリプトファン
Gln
(Q)
グルタミン
タンパク質の立体構造
R E T V G R I L K E D Q N L I S A H G K T I V V
一次構造
ATOM 3058 N ARG A 180 52.474 50.771 -5.959 1.00 49.58 N ATOM 3059 CA ARG A 180 53.500 51.352 -5.084 1.00 49.65 C ATOM 3060 C ARG A 180 54.504 52.126 -5.899 1.00 50.19 C ATOM 3061 O ARG A 180 55.064 53.128 -5.470 1.00 50.39 O ATOM 3062 CB ARG A 180 54.318 50.339 -4.269 1.00 50.98 C ATOM 3063 CG ARG A 180 55.250 49.428 -5.060 1.00 53.19 C ATOM 3064 CD ARG A 180 56.537 48.892 -4.411 1.00 52.49 C ATOM 3065 NE ARG A 180 57.220 48.150 -5.464 1.00 52.23 N ATOM 3066 CZ ARG A 180 57.891 48.774 -6.443 1.00 52.46 C ATOM 3067 NH1 ARG A 180 58.088 50.090 -6.439 1.00 52.35 N ATOM 3068 NH2 ARG A 180 58.417 48.074 -7.439 1.00 52.66 N ATOM 3069 H ARG A 180 52.332 49.806 -5.992 1.00 0.00 H ATOM 3070 HE ARG A 180 57.158 47.174 -5.485 1.00 0.00 H ATOM 3071 HH11 ARG A 180 57.720 50.650 -5.698 1.00 0.00 H ATOM 3072 HH12 ARG A 180 58.597 50.524 -7.181 1.00 0.00 H ATOM 3073 HH21 ARG A 180 58.334 47.079 -7.457 1.00 0.00 H ATOM 3074 HH22 ARG A 180 58.934 48.538 -8.159 1.00 0.00 H カタボライト活性化タンパク質(CAP), 1CGP
立体構造
(1CGP)
ネットワーク –パスウェイ-
<entry id="1" name="ko:K00128" type="ortholog" reaction="rn:R00710“>
</entry>
<entry id="2" name="ko:K01895" type="ortholog" reaction="rn:R00235“>
</entry> <entry id="3" name="ko:K00129" type="ortholog" reaction="rn:R00711“>
</entry>
<reaction name="rn:R00710" type="reversible"> <substrate name="cpd:C00084"/> <product name="cpd:C00033"/> </reaction>
グルコース
ヌクレオチド
グルコース 6-リン酸
アミノ酸
糖脂質
糖タンパク質
フルクトース 6-リン酸
ジヒドロキシアセ
トンリン酸
解糖系
セリン
細胞の代謝マップ
代謝マップ
(解糖系とクエン酸回路)
アラニン
脂質
3-ホスホグリセリン酸
アミノ酸
ピリミジン塩基
ホスホエノールピルビン酸
ピルビン酸
アスパラギン酸
その他のアミノ酸
クエン酸
オキサロ酢酸
プリン塩基
ピリミジン塩基
コレステロール
脂肪酸
クエン酸
回路
α-ケトグルタル酸
スクシニルCoA
ヘム
クロロフィル
グルタミン酸
その他のアミノ酸
プリン塩基
生命現象と情報処理
細胞
ゲノム
ネットワーク
遺伝子情報
アミノ酸情報
立体構造情報
相互作用情報
タンパク質を中心にみた場合
生命現象と情報処理
細胞
ゲノム
tttatcactatattaatccacgtttttcaaacatatttgaaaaaaaaaatgttagtaagt ctatgcttttcataggtagccatcttgtcaatataaataatggtaatccgcatggttgtt caggcgttcgcaaaattgtaggaagaggagaacgtggaaatatggactttttgcaaattc agaattcattttactaggttcttgcaacatggataacatctcacgctgttatttttcatg cttctccatatcgtatatatgtaatgaagcattttcattgggtttcctgctcaaaggttg acatatattataagttatactggaacaagccacaatcctgtcaaagtctaaattccggtg tattggctatctgaagctctctcatatattaatacattgctttctagcacaacgctgccc tcggtcgccattaattatgaatcatcatcatatagggacatacctctcaagttattgtct <reaction name="rn:R00710"
type="reversible"> <substrate name="cpd:C00084"/> <product name="cpd:C00033"/> </reaction>
ネットワーク
遺伝子情報
ATOM 1 O5' G C 6 50.136 52.825 59.410 1.00115.37 O ATOM 2 C5' G C 6 50.321 52.610 60.822 1.00115.37 C ATOM 3 C4' G C 6 50.059 53.892 61.580 1.00115.37 C ATOM 4 O4' G C 6 51.213 54.152 62.427 1.00115.37 O ATOM 5 C3' G C 6 49.897 55.145 60.721 1.00115.37 C ATOM 6 O3' G C 6 48.540 55.437 60.449 1.00115.37 O アミノ酸情報
立体構造情報
MAPVKSQESINQKLALVIKSGKYTLGYKSTVKSLRQ GKSKLIIIAANTPVLRKSELEYYAMLSKTKVYYFQG GNNELGTAVGKLFRVGVVSILEAGDSDILTTLA データフォーマットが異なる
DIP:40360E DIP:25445N DIP:40361E DIP:24681N DIP:40362E DIP:26515N DIP:40363E DIP:25384N DIP:40364E DIP:24569N 相互作用情報
大量データ
異質データ
データの洪水
データの爆発
情報技術なしには処理しきれない
他分野でも同様の問題
第四パラダイム、データ集約型コンピューティング
バイオインフォマティクスとは
大規模な実験
網羅的な実験
インフォマティクス
計算機
情報学的側面
データの整理
データの解析
新しいルールの発見
生物学的側面
生物学データの爆発
バイオロジー
情報処理
データベース
バイオインフォマティクスにおけるデータベースとは
[[特徴]]
① 実験データや、そのデータに付随する
情報が格納されている。
百科事典
ID seq1
DE seq1, 16 bases, 2688
CC chromosome 1 SQ
16 BP
agctagctag ctagct
//
ID seq2
DE seq2, 16 bases, 25C8
CC expression: heart SQ
16BP
aactaactaa ctaact
//
② データは特定の形式で保存されている。
ただし、形式はデータベースごとに異
なる。
③ 検索することができる。
例えば、キーワード検索などが可能。
④ ウェブで利用できる。
世界中の全ての人が利用可能。
データベースの種類
相互作用
要素(部品)
その他
医学・生物学文献
転写因子情報
機能
反応
ネットワーク
タンパク質 アミノ酸配列
DNA
RNA
低分子
DNA塩基配列
タンパク質
立体構造
遺伝子の配列
オントロジー
特許
疾病情報
タンパク質相互作用データ
モチーフ情報
SNPs
遺伝子発現
基本データベース
リガンド
一次情報
即活用のためのバイオインフォマティクス入門 p90参照を一部改編
高次情報
データベース例 -配列情報-
•  配列情報に関連したデータベース
–  塩基配列に関連するデータベース
•  GenBank, EMBL-Bank, DDBJ
–  アミノ酸配列に関連するデータベース
•  UniProt, IPI
データベース例 -立体構造情報-
•  立体構造に関連したデータベース
–  核酸(DNA、RNA)の三次元構造のデータベース
•  NDB(Nucleic Acid Database)
–  タンパク質、核酸の立体構造データベース
•  PDB(Protein Data Bank)
データベース例 -相互作用-
•  相互作用に関連したデータベース
–  DNA-タンパク質相互作用
•  DBTSS(Database of Transcriptional Start Sites)
–  タンパク質間相互作用
•  String, MIPS, HPRD
データベース例 -ネットワーク情報-
•  ネットワークに関連したデータベース
–  分子間相互ネットワーク情報のデータベース
•  KEGG Pathway (代謝パスウェイが中心)
解糖系
データベース例 -遺伝子発現情報-
•  遺伝子発現に関連したデータベース
–  遺伝子発現情報のデータベース
•  GEO(Gene Expression Omnibus)
•  ヒト統合ボディーマップ
データベースの分類
•  データベースは、大まかに2種類に分類される
–  生データを取り扱ったデータベース
•  実験データ(配列、立体構造、遺伝子発現データ)
•  文献データ
•  一次データベースと呼ばれることが多い
–  加工した情報を取り扱ったデータベース
•  配列モチーフデータ
•  立体構造分類データ
•  二次(もしくは高次)データベースと呼ばれることが多い
最近、この区別は明確ではなくなってきている
一次/二次データベースの関係
配列データ
類似した配列
をグループ化
InterPro
UniProt
立体構造データ
新しい知見
似た構造同士
を分類
PDB
一次データベース
整理/分類
SCOP
二次データベース
統合データベース
データベースを関連付け、統合したもの
http://www.genome.jp/dbget/dbget.links.html
バイオインフォマティクスの研究
キーワード: ツール
ツール/解析法
その他
統計解析
機械学習
データマイニング
Evolutionary Trace
機能
タンパク質
分子動力学法
アラインメント
パスウェイ解析
ホモロジーモデリング
構造認識法
シミュレーション
ネットワーク推定
系統樹
DNA
RNA
配列解析
低分子
可視化ツール
一次情報
基本的な解析ツール
高次情報
本日解析に利用したウェブリソース
サービス名
内容
URL
NCBI-BLAST
配列探索
http://blast.ncbi.nlm.nih.gov/Blast.cgi
ClustalW
マルチプルアラインメント
作成
http://www.ebi.ac.uk/Tools/clustalw2/
index.html
Phylip
系統樹作成
http://
evolution.genetics.washington.edu/
phylip.html
SWISS-MODEL
立体構造予測
http://swissmodel.expasy.org//
SWISS-MODEL.html
Consurf
機能部位の推定
http://consurf.tau.ac.il/
InterProScan
機能部位解析
http://www.ebi.ac.uk/Tools/
InterProScan/
KEGG
パスウェイ解析
http://www.genome.ad.jp/kegg/
kegg2.html
WolfPSORT
細胞内局在の予測
http://wolfpsort.org/
SignalP
シグナルペプチドの予測
http://www.cbs.dtu.dk/services/
SignalP/
すべて無料で使うことができます
最新のデータベース&ツール
•  有名どころ
–  Nucleic Acid Research (NAR)
•  Web server issue
•  Database issue
–  Bioinformatics
•  Applications Note
•  その他
–  BioMed Central
(Bioinformatics/Structural Biology/Genomesなど)
•  Software, Database
–  Bioinformation
•  software
バイオインフォマティクスが目指すところ
生命現象の理解
データの整理
解析技術の開発
生命システム情報統合
生命機能の理解/予測
データベース
解析ツール
システムの情報
相互作用という観点から体系化
部品の情報
配線(相互作用)の情報
ゲノムの全塩基配列情報
生命科学の広範な知識
新しい実験技術による相互作用情報
バイオインフォマティクスのユーザに必要なこと
• コンピュータに関する基礎知識
• 様々なデータベースやツールに関する知識
• 理論や原理に関する知識 (深くなくて良い)
機械学習、統計、物理化学、進化 • プログラミング (高度なことはできなくても良い)
バイオインフォマティクスの開発者に必要なこと
• コンピュータに関する深い知識
• 様々なデータベースやツールに関する知識
• 理論や原理に関する深い知識
機械学習、統計、物理化学、進化の特定領域
に関する深い知識と、それ以外についての浅い
知識 • 高度なプログラミング技能
バイオインフォマティクスって何?
参考文献
•  『即活用のためのバイオインフォマティクス入門』
広川貴次、美成茂樹 中山書店
•  『できるバイオインフォマティクス』
美宅茂樹、広川貴次 中山書店
•  『バイオインフォマティクス(応用生命科学シリーズ) 』
美宅成樹 東京化学同人
•  『バイオインフォマティクス基礎講義 』
岡崎康司、坊農秀雄 メディカル・サイエンス・インターナショナル
•  『ゲノムでわること できること』
水島-菅野純子 羊土社
•  『 Introduction to Bioinformatics 3rd Edition』
Arthur M.Lesk OXFORD UNIVERSITY PRESS