タンパク質ドメイン検索 タンパク質ドメイン タンパク質の特定の機能、構造

タンパク質ドメイン検索
タンパク質ドメイン
• タンパク質の特定の機能、構造に対応する短い類似アミノ酸配列
領域(30アミノ酸~)
– ある特殊な機能を果たす部位(例:酵素活性部位)
– 他の物質と相互作用する部位(例:タンパク質相互作用部位)
– 進化的に保存された領域
• モチーフ
– ドメイン同様に活性部位などの重要な特徴を表すような、よく保存さ
れたアミノ酸のパターン
– ドメインより小さい構成単位とされているが(3~10アミノ酸)、ドメインと
特に明確な使い分けがされているわけではない
タンパク質ドメイン解析
• 配列相同性検索(BLAST, FASTA)では全長にわたって高い相
同性をもつ遺伝子が得られない
• 得られてもその遺伝子も機能未知である
?
相同性
相同性
機能未知アミノ酸配列
機能未知アミノ酸配列
• タンパク質を一つの固まりとしてではなく、異なる機能をもっ
た保存領域の組み合わせとして捉える
代表的なタンパク質ドメインデータベース
DB
特徴
URL
Pfam
タンパク質立体構造ドメインを元に
自動的・手動的に構築
http://www.expasy.ch/prosite/
ProDom
PfamのデータからPSI-BLAST(ホモロ http://prodom.prabi.fr/prodom/curr
ジー検索)を用いて相同な領域を同 ent/html/form.php
定
PRINTS
モチーフ(数残基~数十残程度の
ギャップなしに保存されている配
列)を対象にしたデータべース
http://bioinf.man.ac.uk/dbbrowser/P
RINTS/index.php
PROSITE
実験的に確かめられた機能モチー
フ配列データベース
http://www.expasy.ch/prosite/
SMART
シグナル伝達、細胞外タンパク質、
クロマチンタンパク質がもつ保存領
域を中心に構築
http://smart.embl-heidelberg.de/
PANTHER
タンパク質の(サブ)ファミリー内で
保存されているドメイン配列
http://www.pantherdb.org
InterPro/InterProScan
代表的なタンパク質ドメインデータベース16個(2015年7月現
在)を統合したデータベース、及びその解析ツール
http://www.ebi.ac.uk/Tools/pfa/iprscan/
• CATH-Gene3D, HAMAP, PANTHER, PIRSF, PRINTS, PROSITE, Pfam, ProDom,
SMART, SUPERFAMILY, TIGRFAMs
• 各データベースのプログラムの解析手法をそれぞれ採用し、結果を返す
• 核酸配列も6個の読み枠でアミノ酸配列に変換し解析
InteProScan:入力配列のフォーマット
MALLAEHLLKPLPADKQIETGPFLEAVSHLPPFFDCLG
SPVFTPIKADISGNITKIKAVYDTNPAKFRTLQNILEVE
KEMYGAEWPKVGATLALMWLKRGLRFIQVFLQSICD
GERDENHPNLIRVNATKAYEMALKKYHGWIVQKIFQ
AALYAAPYKSDFLKALSKGQNVTEEECLEKIRLFLVNYT
ATIDVIYEMYTQMNAELNYKV
※核酸配列も可
http://www.ebi.ac.uk
タンパク質2次構造予測
二次構造予測
http://pbil.ibcp.fr/htm/index.php
NPS@ に、二次構造予測等いろいろなツールがあ
る。
様々な二次構造予測手法が提案されているが、
ここでは PHD 法を使ってみる。
“Secondary structure consensus prediction” で
複数の予測手法の結果から
共通する構造を得ることもできる。
>Sample
SVDHGFLVTRHSQTIDDPQCPSGTKILYHGYSLLYVQG
NERAHGQDLGTAGSCLRKFSTMPFLFCNINNVCNFA
SRNDYSYWLSTPEPMPMSMAPITGENIRPFISRCAVC
EAPAMVMAVHSQTIQIPPCPSGWSSLWIGYSFVMH
TSAGAEGSGQALASPGSCLEEFRSAPFIECHGRGTCN
YYANAYSFWLATIERSEMFKKPTPSTLKAGELRTHVSR
CQVCMRRT
アミノ酸配列をペーストする。
“>”から始まるヘッダ行は取り除くこと。
Output width は、結果の表示幅(残基数)。
変えなくてもいい。
アミノ酸配列をペーストする。
“>”から始まるヘッダ行は取り除くこと。
Output width は、結果の表示幅(残基数)。
変えなくてもいい。
PDB (Protein Data Bank)
http://www.rcsb.org/
ヘリックスやストランドの位置を
PDBにある立体構造解析の結果と
比較してみよう。
αヘリックスはよく予測でき
るが、βストランドは難しい。
パスウェイデータベース(KEGG)
パスウェイデータベース(KEGG)
http://www.genome.jp/kegg/kegg_ja.html
代謝経路や遺伝子名、
関連する病気等が分かって
いれば一覧から探す
アミノ酸配列からパスウェイを検索
http://www.genome.jp/kegg/kegg_ja.html
画面下方の「解析ツール」にある BLAST を使う
http://www.genome.jp
データベースは “KEGG GENES”。
必要なら nr (全データベース)等も選べる。
BLASTPになっていることを確認
(アミノ酸vsアミノ酸 の検索)
準備ができたら右上の
「Compute」ボタンを押す。
各自のタンパク質の配列を貼り付ける。
“>”から始まるヘッダはあってもなくてもよい。
データベースは “KEGG GENES”。
必要なら nr (全データベース)等も選べる。
BLASTPになっていることを確認
(アミノ酸vsアミノ酸 の検索)
結果をリストアップする個数。
5か10くらいに減らす。(少ないほど高速)
生物種:遺伝子ID
hsa ヒト
pon オランウータン
ptr チンパンジー
mmu マウス
sce 出芽酵母 ... etc.
トップヒットの青字部分をクリックして
KEGGエントリを見る。
遺伝子が関与する
パスウェイ
パスウェイのひとつをクリックする。
(もしもパスウェイが表示されていなければ、
他の配列でBLAST検索からやり直してみ
てください。)
遺伝子や物質、他の経路などは
クリック可能
前の画面で選んだ遺伝子が
赤く強調表示される。
緑箱は各遺伝子
白箱はその生物が持っていない遺伝子
小さな白丸は物質