Document

ホモロジー検索演習
(FASTA, BLAST)
遺伝子の生体内での働き(機能)を予測する
・ 個々の遺伝子配列の決定
・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定
様々なデータベースを用いる
(統合化データベース)
生体内での働き(機能)を推測する
遺伝子の機能予測
機能が似ている
塩基配列(遺伝子)が似ている
タンパク質の立体構造が似ている
アミノ酸の配列が似ている
配列が似ていれば機能も似ている
配列の類似度の計算
データベースに対するホモロジー検索
ペアワイズ
アライメント
データベース
問い合わせ配列
機能が未知の配列
BLAST, FASTA
SSEARCH
機能が既知な遺伝子や
タンパク質の配列
例)実験で得た配列
Genbank, SWISS-PROT, PIR等
類似した配列をデータベースから検索することにより,問い合わせ配列の
機能を予測する.
ペアワイズアライメント(1)
ギャップ(挿入、欠失)を用いて類似度(スコア)が最大になるように
配列を並べ替える方法
塩基配列
4文字の一致度を計算
A,T,G,C
配列1
配列2
TACG
TTAG
配列1と配列2の間の類似度を知りたい
ペアワイズアライメント(2)
ダイナミック・プログラミング法(DP法)
配列1
T -1
-1
1
T
配列2
-1
-1
G
-2
-3
-4
0
0
-1
-3
-1
-1
-2
0
-1
-1
配列1
配列2
-1
-1
1
-1
-2
-1
-1
1
-1
-1 -4
G -1
1
1
A
C -1
-1
-1 -1
T
A -1
0
-1
0
-1
0
-1
-1
-2
(拡大図)
-1
T
ギャップの挿入
-1
-1
-2
-1
T
-1
-1
同一文字:1
異なる文字:- 1
-1
-1
ギャップの挿入
1
1
-1
-1
配列1
配列2
TACG
TTAG
ペアワイズアライメント
T-ACG
TTA-G
ギャップ
ペアワイズアライメント(3)
アミノ酸配列の場合はどのようにするか?
アミノ酸配列
A,R,N,D,C,Q,E,G,H,I
L,K,M,F,P,S,T,W,Y,V
配列1
配列2
20文字
GCRC
GWWD
配列1と配列2の間の類似度を知りたい
20文字の類似度を定義する必要がある
Dayhoff マトリックス(PAM250)
距離行列(PAM250)
進化の過程でアミノ酸間での置換が,どの程度
起こりやすいかを推定し,数値化したもの.
250は進化距離の基準.
PAM40,PAM120,PAM250が存在する.
ジスルフィド結合性
Cys
Ser
Thr
Pro
Ala
Gly
Asn
Asp
Clu
Gln
His
Arg
Lys
Met
Ile
Leu
Val
Phe
Tyr
Trp
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
12
0
-2
-3
-2
-3
-4
-5
-5
-5
-3
-4
-5
-5
-2
-6
-2
-4
0
-8
C
2
1
1
1
1
1
0
0
-1
-1
0
0
-2
-1
-3
-1
-3
-3
-2
S
3
0
1
0
0
0
0
-1
-1
-1
0
-1
0
-2
0
-3
-3
-5
T
6
1
-1
-1
-1
-1
0
0
0
-1
-2
-2
-3
-1
-5
-5
-6
P
小型
2
1
0
0
0
0
-1
-2
-1
-1
-1
-2
0
-4
-3
-6
A
5
0
1
0
-1
-2
-3
-2
-3
-3
-4
-1
-5
-5
-7
G
2
2
1
1
2
0
1
-2
-2
-3
-2
-4
-2
-4
N
BLOSUM マトリックス
4
3
2
1
-1
0
-3
-2
-4
-2
-6
-4
-7
D
モチーフ周辺の配列の保存性
から数値化したもの.
BLOSUM80,BLOSUM62,
BLOSUM50が存在する.
酸性
4
2
1
-1
0
-2
-2
-3
-2
-5
-4
-7
E
4
3
1
1
-1
-2
-2
-2
-5
-4
-5
Q
6
2
0
-2
-2
-2
-2
-2
0
-3
H
6
3
0
-2
-3
-2
-4
-4
2
R
塩基性
5
0 6
疎水性
-2 2 5
-3 4 2 6
-2 2 4 2 4
芳香族
-5 0 1 2 -1 9
-4 -2 -1 -1 -2 7 10
-3 -4 -5 -2 -6 0 0 17
K M I L V F Y W
ペアワイズアライメント(4)
配列1
G -7
-7
5
G
配列2
-7
-7
D
-2
-21
1
-7 -28
-16
-7
配列1
配列2
-21
-3
2
-5
-14
-7
GCRC
GWWD
-28
-16
(拡大図)
-7
G
ギャップの挿入
-7
-8
0
2
-10
C -7
-3
-9
-3
-8
-9
R -7
-2
-8
-7
W
-7
5
-14
-14
-3
-7 -7
W
C -7
-7
-7
G
-8
-1
-1
-8
-7
-7
-6
-7
5
ギャップの挿入
-5
-8
アミノ酸の類似度
-7
-7
配列1
配列2
ペアワイズアライメント
計算時間を要する。
GCR-C
G-WWD
ギャップ
遺伝子の機能予測
機能が似ている
塩基配列(遺伝子)が似ている
タンパク質の立体構造が似ている
アミノ酸の配列が似ている
配列が似ていれば機能も似ている
配列の類似度の計算
データベースに対するホモロジー検索
ペアワイズ
アライメント
データベース
問い合わせ配列
機能が未知の配列
BLAST, FASTA
SSEARCH
機能が既知な遺伝子や
タンパク質の配列
例)実験で得た配列
Genbank, SWISS-PROT, PIR等
類似した配列をデータベースから検索することにより,問い合わせ配列の
機能を予測する.
生物学的データベースの例
URL
種類
データベース名
塩基配列
Genbank
http://www.ncbi.nlm.nih.gov/
EMBL
http://www.ebi.ac.uk/
DDBJ
http://www.ddbj.nig.ac.jp/
SWISS-PROT
http://www.expasy.ch/sprot/
PIR
http://pir.georgetown.edu/pirwww/
dbinfo/pir_psd.shtml
PDB
http://www.rcsb.org/pdb/
アミノ酸配列
タンパク質立体構造
ホモロジー検索プログラム
FASTA
はじめに文字の良く一致する領域を高速に検索し,最終的には
ギャップを入れた完全なアライメントを行う.
(利点) BLASTよりも精度が高い.
(欠点) BLASTよりも検索速度が遅い.
BLAST
ギャップを入れない部分配列のアライメントを複数集めて評価する.
(利点) FASTAよりも検索速度が速い.
(欠点) FASTAよりも精度が若干低い(充分な精度).
満足できる結果が
得られない場合
BLASTでの検索
FASTAでの検索
統合化データベース(ゲノムネット)
http://www.genome.jp
ホモロジー検索(FASTA)
配列をファイルから入力
配列を直接的に入力
検索の対象となるデータベース
○ゲノム解析された生物(KEGG)
・KEGG GENES(遺伝子)
○重複を除いたデータベース
・nr-aa
(アミノ酸配列;Genbank, UniProt, Refseq, PRF,
PDBSTRから作成
・nr-nt
(塩基配列;GenBank, EMBL and RefSeq)
入力する配列
例えば,実験で,以下の配列が分かったとする.
この配列は何のタンパク質に似ているか?
MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR
データベースの中から,FASTAを使って,遺伝子を探す.
ホモロジー検索(FASTA)
配列を直接的に入力
MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR
nr-aaを選択
FASTAの結果
opt
E-value
配列の類似度が高いもの
から順に出力される
FASTAの結果
FASTAの結果
(アライメント)
問い合わせ配列とデータベースでヒット
した配列とを並べたもの
ヒットした配列名(アクセッション番号)
FASTAの結果(ヒットしたもののデータ)
Egg white lysozymeと同一の配列
Lysozymeと推測できる.
アライメント
initn
init1
opt
Z-score
E-value
問い合わせ配列
相同性(同一アミノ酸
残基の割合%)
類似性(類似アミノ酸
残基の割合%)
データベースでヒット
した配列
E-value; 8.6e-15 = 8.6×10-15
アライメント
問い合わせ配列
「:」は同一の配列
「.」はアミノ酸配列の性質が類似
「 」は類似していないもの
データベースでヒット
した配列
類似性の指標
1. 相同性(%) (Identity)
同一アミノ酸残基(塩基)数の割合。
2. 類似性(%) (Positive)
物理化学的性質が類似したアミノ酸残基数の割合。
3. E-value
統計的な指標。
同じ長さで同じスコアをもつ配列が偶然にデータベースから
見つかる期待値。
E-value
有意性
0.001未満
0.1~0.001
0.1以上
有意
微妙
有意でない
ホモロジー検索プログラム
FASTA
はじめに文字の良く一致する領域を高速に検索し,最終的には
ギャップを入れた完全なアライメントを行う.
(利点) BLASTよりも精度が高い.
(欠点) BLASTよりも検索速度が遅い.
BLAST
ギャップを入れない部分配列のアライメントを複数集めて評価する.
(利点) FASTAよりも検索速度が速い.
(欠点) FASTAよりも精度が若干低い(充分な精度).
満足できる結果が
得られない場合
BLASTでの検索
FASTAでの検索
ホモロジー検索(BLAST)
問い合わせ配列:
…EKAAFDMFDADGGGDISVKEL…
類似ワードのリスト
MFD,MFE,MFN,MYD,MYE,MYN,LFD,…
ワードの検索
問い合わせ配列:
データベース配列:
…EKAAFDMFDADGGGDISVKEL…
…EKEAFSLFDKDGDGDISTKEL…
両側に伸長していく
高い類似性を与える部分配列の対
(HSP)の抽出
ホモロジー検索(BLAST)
http://www.genome.jp
ホモロジー検索(BLAST)
配列をファイルから入力
配列を直接的に入力
入力する配列
例えば,実験で,以下の配列が分かったとする.
この配列は何のタンパク質に似ているか?
MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN
データベースの中から,BLASTを使って,遺伝子を探す.
ホモロジー検索(BLAST)
配列をファイルから入力
配列を直接的に入力
MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN
nr-aaを選択
BLASTの結果
bits
E-value
BLASTの結果
(アライメント)
問い合わせ配列とデータベースでヒット
した配列とを並べたもの
ヒットした配列名(アクセッション番号)
prion(プリオン)と推測される.
BLASTの結果
score
E-value
問い合わせ配列
データベースでヒット
した配列
相同性(同一アミノ酸
残基の割合%)
類似性(類似アミノ酸
残基の割合%)
BLASTの結果
「大文字」は同一の配列
「+」はアミノ酸配列の性質が類似
「 」は類似していないもの
BLAST(Basic Local Alignment Search Tool)
BLASTのプログラムの一覧
プログラム名
問い合わせ配列
(クエリー)
データベース
(サブジェクト)
BLASTN
塩基配列
塩基配列
BLASTP
アミノ酸配列
アミノ酸配列
TBLASTN
アミノ酸配列
塩基配列
BLASTX
塩基配列
アミノ酸配列
FASTA形式(ファイルから入力する場合)
ホモロジー検索で用いる配列の形式
>lysozyme1
KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS
RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV
QAWIRGCRL
>lysozyme2
RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLC
VEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTIL
INFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYY
KQHGY
一般に60文字で改行を入れる。
“>”の行はヘッダー。配列の区切りにもなっている。
サンプル配列1
BLASTN, BLASTX テスト用
>seq1
ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctcct
tgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctggg
cgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgaga
tgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggct
tcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccg
tgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgct
tgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacct
cctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgcc
attccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggc
tgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattt
tatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcct
cctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaa
gctattttggggcaggtgccattgtggggaggtaggac
塩基は小文字でも可。コード鎖でなく逆鎖でもよい。
サンプル配列2
BLASTP, TBLASTN テスト用
>seq2
MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQA
LFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPV
VGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVL
GNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQC
LP*
“*”は終止コドン(翻訳されない)。
似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって”X”や”n”で
マスクされる。
フィルターを解除して全長をアライメントすることもできる。
サンプル配列3
BLASTX テスト用
>seq3
ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGAC
CTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGC
CTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA
コドン表が standard のままでは正しく翻訳できない場合がある。
上の例では Vertebrate Mitochondrial (2) が適切。
genome.jp の BLASTX ではコドン表の変更に未対応なので、必要に応じて
NCBI (GenBank) 等のBLASTサービスを使う。
機能や生物種を推定する程度なら standard のままでもよい。
アミノ酸配列からの特徴抽出(1)
機能の発現に対して、重要なアミノ酸配列は何か?
幾つかの配列において保存されているアミノ酸残基は、構造の安定性
や機能の維持に関与する重要なものである
2つ以上の配列間の類似関係を明らかにする
マルチプルアライメント
アミノ酸配列からの特徴抽出(2)
例)マルチプルアライメント(セリンプロテアーゼ)
THRB_HUMAN
THRB_BOVIN
THRB_MOUSE
THRB_RAT
LFC_TACTR
FA9_RAT
FA9_RABIT
FA9_PIG
FA7_BOVIN
FA7_MOUSE
FA7_RABIT
PRTC_HUMAN
PRTC_RAT
PRTC_MOUSE
PSS8_HUMAN
LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP
FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP
LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP
LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP
SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYS
EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK-QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK-QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEPNGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFERNSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDNGASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDKQEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDEEELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLESDELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEGCGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS: *
***. :
*. ::
*:::****.
完全に保存されたアミノ酸残基 “*”
保存性が高い列 “:”
保存性が低い列 “.”
配列の保存性から共通構造や、
進化的な関係(系統関係)を推測
することができる
マルチプルアライメント(3)
: βストランド構造
SecStructure
THRB_HUMAN
THRB_BOVIN
THRB_MOUSE
THRB_RAT
LFC_TACTR
FA9_RAT
FA9_RABIT
FA9_PIG
FA7_BOVIN
FA7_MOUSE
FA7_RABIT
PRTC_HUMAN
PRTC_RAT
PRTC_MOUSE
PSS8_HUMAN
......................BBBBBB...----.BBBBBBB.....BBBB........
LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP
FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYP
LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP
LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYP
SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYS
EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK-QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK-QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEPNGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFERNSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDNGASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDKQEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDEEELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLESDELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEGCGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS: *
***. :
*. ::
*:::****.
a-thrombin
βストランド構造
保存性が高い部分
Autoprothrombin IIA
βストランド構造
保存性が高い部分
配列解析が基本となる研究
・ タンパク質の分類に関する研究
機能部位の配列の推定(モチーフ抽出)
タンパク質ファミリーと配列パターンとの関係(機能分類)
・ アミノ酸配列とタンパク質の構造との関係
アミノ酸配列からの二次構造予測
アミノ酸配列からの立体構造予測
ホモロジーモデリング法 (配列の相同性≧25%)
3D-1D法
ab initio法
・ 進化的系統関係の研究
ゲノムの多様性
集団内における遺伝子の多様性