Document

タンパク質機能解析のための
情報科学的手法とその適用例
第三回
生化学若い研究者の会・京都支部
基礎の基礎からのお勉強会?
Outline
• 第一部 タンパク質機能解析の基礎
• 第二部 機能部位予測の問題点
• 第三部 Interface Prediction for GPCRs
Oligomer
タンパク質の機能解析
知りたいのは機能
機能や構造の情報は配列にコードされている
配列決定は構造決定・機能決定より容易
構造
配列
機能
配列・構造情報の
有効利用
第一部 タンパク質機能解析の基礎
-配列からの機能予測1. 1本の配列を用いた予測
2. マルチプルアラインメントを用いた予測
3. 立体構造情報を取り入れた予測
+
第一部 タンパク質機能解析の基礎
-配列からの機能予測古典的
1. 1本の配列を用いた予測
2. マルチプルアラインメントを用いた予測
3. 立体構造情報を取り入れた予測
手間
第一部 タンパク質機能解析の基礎
-配列からの機能予測1. 1本の配列を用いた予測
1-1.相同性に頼った機能予測
1-2.モデル・プロファイルを利用した機能予測
2. マルチプルアラインメントを用いた予測
3. 立体構造情報を取り入れた予測
マルチプルアラインメントを必要としない、という意味
第一部 タンパク質機能解析の基礎
-配列からの機能予測1. 1本の配列を用いた予測
1-1.相同性に頼った機能予測
1-2.モデルを利用した機能予測
2. マルチプルアラインメントを用いた予測
3. 立体構造情報を取り入れた予測
1-1. 相同性に頼った機能予測
Query
(問い合わせ
機能未知配列)
DB
1対1の比較
Blast, Fasta etc.
機能類似
Queryと似た
機能既知配列
Queryと似ている
→ご先祖様が一緒(相同、homologous)である可能性が高い
→構造が似ている可能性が高い
→機能が似ている可能性が高い
1-1. 相同性に頼った機能予測
最大の欠点
解析対象と似た、機能既知配列がDB中に存在し
ていることが前提
1-1. 相同性に頼った機能予測
配列検索の問題点
• Identity or Similarity
• Score Matrix
「似ている」の定義
似ている度合いを計算する際の注意点
1-1. 相同性に頼った機能予測
配列検索の問題点
-「似ている」の定義-
Identity: 文字の完全一致
配列1 LIESTAQRECTVNM
配列2 ILDSTAQKDCTVQM
一致したら10点与える
8箇所
一致
LとIは似てる
DとEを区別て良いか?
(8×10)/(14×10)
→57.1%
アミノ酸側鎖の分類
性質の類似したアミノ酸どうしは、比較的置換されやすい
1-1. 相同性に頼った機能予測
配列検索の問題点
Identity: 文字の完全一致
配列1 LIESTAQRECTVNM
配列2 ILDSTAQKDCTVQM
8箇所
一致
80/140
→57.1%
Similarity: アミノ酸性質の類似性を考慮
配列1 LIESTAQRECTVNM
配列2 ILDSTAQKDCTVQM
8箇所一致
6箇所類似
57.1%
α%
1-1. 相同性に頼った機能予測
配列検索の問題点
配列1 LIESTAQRECTVNM
配列2 ILDSTAQKDCTVQM
異なる2つのアミノ酸を並置
する際、そのペアに何点与
えるか?
Score Matrix: PAM250, BLOSUM62 etc
1-1. 相同性に頼った機能予測
配列検索の問題点
• Identity or Similarity
• Score Matrix
1-1. 相同性に頼った機能予測
配列検索の問題点
Score Matrix
Score matrix
アラインメントにおいて
一緒に並びやすい
• アミノ酸の置換し易さを行列として表したもの。
アミノ酸置換行列とも言う。タンパク質の配列
類似性(similarity)を評価する場合に、アミノ
酸の性質の類似性を考慮するために用いる。
A-A: +4点
G-W: -2点
L-I : +2点
配列1
A G L
配列2
A W I
(+4)+(-2)+(+2) = +4
Score matrix
• アミノ酸の置換し易さを行列として表したもの。
アミノ酸置換行列とも言う。タンパク質の配列
類似性(similarity)を評価する場合に、アミノ
酸の性質の類似性を考慮するために用いる。
• PAM、BLOSUM、GONNET など
DB
i. 相同な配列を収集
ii. 対応するアラインメントサイトに出現
するアミノ酸ペアをカウント
iii. 難しい手順で、スコア化
Score matrix
1. どのアミノ酸ペアが置換さ
れやすい(されにくい)か
2. どのアミノ酸ペアが保存さ
れやすい(されにくい)か
Score matrix
タンパク質表面と内部に対して使われるスコアマトリクスは同じ?
水溶性タンパク質と膜タンパク質では?
酵素の活性部位とそれ以外では?
場合によっては、解析対象のタンパク質に最適なScore matrix
を自分で作るべきかもしれない、、、
でもその前に、解析対象のタンパク質に最適なScore matrixが
存在するかもしれない、、、
疎水性残基が出現しやすい環境にある
疎水性残基間での置換が起こりやすい
疎水性残基間でのスコアが小さく見積もられている
好熱性/中等温度好性酵素
↓
好冷性酵素
第一部 タンパク質機能解析の基礎
-配列からの機能予測1. 1本の配列を用いた予測
1-1.相同性に頼った機能予測
1-2. モデルを利用した機能予測
2.マルチプルアラインメントを用いた予測
3. 立体構造情報を取り入れた予測
1-2 モデルを利用した機能予測
これまでに蓄積している
機能既知配列群に関する情報
Query
(問い合わせ
機能未知配列)
評価関数
手元にある配列は
モデルっぽいか?
Model
機能既知配列群の仲間?
1-2 モデルを利用した機能予測
これまでに蓄積している
機能既知配列群に関する情報
機能既知配
列群の特徴を
上手に表現す
る指標
~~~らしさ
Query
(問い合わせ
機能未知配列)
評価関数
手元にある配列は
モデルっぽいか?
機能既知配列群の仲間?
1-2 モデルを利用した機能予測
• SOSUI (膜貫通領域予測)
http://sosui.proteome.bio.tuat.ac.jp/sosuimenu0.html
これまでに蓄積している情報
Query(配列)
評価関数
膜貫通領域っぽいか?
膜貫通領域らしさ
膜貫通領域
1-2 モデルを利用した機能予測
膜貫通領域らしさ
1. 疎水性の高い領域があ
り、その両端での両親
媒性が高い
2. 疎水性はそれほど高く
ないが、非荷電性の高
い領域があり、その両
端での両親媒性が高い
1-2 モデルを利用した機能予測
連続する奇数残基幅
(window)の移動平均を
取り、windowの中央残
基に割り当てる
1-2 モデルを利用した機能予測
第一部 タンパク質機能解析の基礎
-配列からの機能予測1. 1本の配列を用いた予測
2.マルチプルアラインメントを用いた予測
2-1. サイトごとの情報の得点化
2-2. サイト間相互作用情報抽出
2-3. 分子系統解析とその応用
3. 立体構造情報を取り入れた予測
手元に複数の配列があり、
マルチプルアラインメントを必要とする、という意味
2.マルチプルアラインメントを用いた予測
データベース検索による機能や構造既知の配列
との類似性の検出は、有用な情報を与えてくれる
しかし、機能や構造既知の配列との類似性が検出されな
くても、相同配列が検出されれば、そのマルチプルアライ
ンメントから機能や構造に関する情報を得ることができる。
また、機能や構造既知の配列との類似性が検出されてい
る場合には、マルチプル・アラインメントからさらに詳細な
情報を得る事ができる。
2.マルチプルアラインメントを用いた予測
マルチプルアラインメ
ント(3本以上の配列を
アラインメント)からの
情報抽出
マルチプルアラインメントを作成するために収集された配列
群が、全体として保持している情報を抽出
2.マルチプルアラインメントを用いた予測
2-1. サイトごとの情報の得点化
–
–
–
–
2-1-1. 保存度の計算
2-1-2. 変異度の計算
2-1-3. PSSM (position specific scoring matrix)
2-1-4. 二次構造予測
2-2. サイト間相互作用情報抽出
– 2-2-1. 接触部位予測
– 2-2-2. 機能的に関連する残基の予測
2-3. 分子系統解析とその応用
– 2-3-1. リガンド予測
– 2-3-2. 機能解析
2-1-1. 保存度の計算
各サイトがどの程度保
存的であるかを計算
不変残基を有するような明らかな保存サイトだけで
なく、類似した物理化学的性質を有する残基で占め
られているようなサイトの保存傾向を数値化できる。
分子内での微妙な保存傾向の違いが必要とされることがある
2-1-1. 保存度の計算
不変サイトの存在
不変サイトと
保存される傾向にある
サイトが集積
何らかの機能を担っている?
不変サイト以外の情報が有用
保存度の算出が有効
2-1-1. 保存度の計算
i.
ii.
iii.
iv.
v.
vi.
何種類の文字が登場?
一種類の文字の占有率
Aの不変とWの不変で
はどちらが高保存度?
物理化学的性質を考慮
ギャップの扱いは?
Taxonomic Bias
2-1-1. 保存度の計算
• Taxonomic bias
類似度の高い配列が
びっしり詰まっている
このアンバランスを
補正する必要がある
互いの距離が遠く、
低密度
2-1-1. 保存度の計算
i.
ii.
iii.
iv.
v.
vi.
何種類の文字が登場?
一種類の文字の占有率
Aの不変とWの不変で
はどちらが高保存度?
物理化学的性質を考慮
ギャップの扱いは?
Taxonomic Bias
N N
S S Wj Wk Mut(M(j, i), M(k, i))
j
Cons(i) =
k>j
N
N
S S Wj Wk
Score matrix
j
k>j
Score(a,b) - Min(Score)
Mut(a,b) =
Max(Score) - Min(Score)
0
値の大きさを
0~1にする処理
aもbも
Gapでない時
それ以外
2-1-1. 保存度の計算
i.
ii.
iii.
iv.
v.
vi.
何種類の文字が登場?
一種類の文字の占有率
Aの不変とWの不変でy
はどちらが高保存度?
物理化学的性質を考慮
ギャップの扱いは?
Taxonomic Bias
すべてのサイトが、
それぞれを
特徴付ける保存度を
持つことになる
2.マルチプルアラインメントを用いた予測
2-1. サイトごとの情報の得点化
–
–
–
–
2-1-1. 保存度の計算
2-1-2. 変異度の計算
2-1-3. PSSM (position specific scoring matrix)
2-1-4. 二次構造予測
2-2. サイト間相互作用情報抽出
– 2-2-1. 接触部位予測
– 2-2-2. 機能的に関連する残基の予測
2-3. 分子系統解析とその応用
– 2-3-1. リガンド予測
– 2-3-2. 機能解析
2.マルチプルアラインメントを用いた予測
2-1. サイトごとの情報の得点化
–
–
–
–
2-1-1. 保存度の計算
2-1-2. 変異度の計算
2-1-3. PSSM (position specific scoring matrix)
2-1-4. 二次構造予測
2-2. サイト間相互作用情報抽出
– 2-2-1. 接触部位予測
– 2-2-2. 機能的に関連する残基の予測
2-3. 分子系統解析とその応用
– 2-3-1. リガンド予測
– 2-3-2. 機能解析
2-2-1. 接触部位予測
-
+
+
-
-
+
+
-
+
-
-
+
二つのサイトにおける
共起傾向の相関
+
-
-
+
二つのサイトにおける
変異傾向の相関
物理的接触の根拠
サイトA
a
b
c
配列1
配列2
配列3
1
2
3
サイトB
d
e
f
1
2 s(d,e)
3 s((d,f)s(e,f)
s(a,b)
s(a,c) s(b,c)
1
2
3
1
相関係数
2
3
2.マルチプルアラインメントを用いた予測
2-1. サイトごとの情報の得点化
–
–
–
–
2-1-1. 保存度の計算
2-1-2. 変異度の計算
2-1-3. PSSM (position specific scoring matrix)
2-1-4. 二次構造予測
2-2. サイト間相互作用情報抽出
– 2-2-1. 接触部位予測
– 2-2-2. 機能的に関連する残基の予測
2-3. 分子系統解析とその応用
– 2-3-1. リガンド予測
– 2-3-2. 機能解析
2-2-2. 機能的に関連する残基の予測
キモトリプシン
ロドプシン
全サイトにおいて、何
らかのスコアを算出
し、サイト間で相関関
係を検出することで、
分子内部でのアロス
テリックパスウェイを
観ることが出来るか
もしれない
Suel GM et al. Nat Struct Biol. 2003;10:59-69
2.マルチプルアラインメントを用いた予測
• サイトごとの情報の得点化
–
–
–
–
保存度の計算
変異度の計算
PSSM
二次構造予測
• サイト間相互作用情報抽出
– 接触部位予測
– 機能的に関連する残基の予測
• 分子系統解析とその応用
– リガンド予測
– 機能解析
分子系統解析とその応用
分子系統樹
http://idsc.tokyo-eiken.go.jp/influenz/0203/fig4-5.html
分子系統解析とその応用
分子系統樹
イネ科の系統樹(舘岡1959から)
イチゴツナギ 亜科のコムギ族
(Triticeae) に は コ ム ギ 属
(Triticum) のほかにライムギ属、
オオムギ属などの作物を含む属
と野草のみからなる属、併せて1
0数属があります。カラスムギは
ヌカボ族に分類されています。コ
ムギとは少し縁遠いが、同じくイ
チゴツナギ亜科に含まれていま
す。キビ亜科のトウモロコシやファ
ルス亜科のイネとは、同じイネ科
でもかなり縁が遠いことが分かり
ます。
http://www.shigen.nig.ac.jp/wheat/komunet/index03/3a-1.html
分子系統解析とその応用
分子系統樹
• 良く似た二つの配列は、隣接した枝先に配置し、そ
の真下にある共通の枝につながる。
• 系統樹作成のこれまで目的は、木の中の枝分かれ
関係と枝長をすべて明らかにすること
Root
Node
有根系統樹 (Rooted Tree)
無根系統樹 (Unrooted Tree)
分子系統解析とその応用
分子系統樹作成法
• 最大節約法(maximum parsimony method)
• 最尤法(maximum likelihood approach)
• 距離法(distance method)
お手軽なのは距離法(neighbor joining method, UPGMA)。詳細
な系統解析が必要ならば、最尤法だが、計算量が膨大。
• PAUP(http://paup.csit.fsu.edu/index.html)
• PHYLIP(http://evolution.genetics.washington.edu/phylip.html)
• MEGA(http://www.megasoftware.net/)
MEGAシリーズが一番お手軽
分子系統樹から、生物進化の情報だけでなく、
機能予測やドラッグ・デザインなどの情報を引き
出すことができる
分子系統解析とその応用
Olfactory R
Prostaglandin R
Cannabinoid R
分子系統樹におけるクラス
ターとリガンドの種類が対応
Adenosine R
Opsin R
Amine R
機能予測への応用
Class A GPCRに属すオーファン受
容体のリガンド予測
Peptide R
分子系統解析とその応用
創薬ターゲット分子デザインへの分子系統解析の応用
サブスタンスP受容体
エンドセリン受容体
エンドセリン(リガン
ド側)内の結合に必
須な残基を模倣し
た低分子
系統解析による予
測をもとに提案され
た低分子
2.マルチプルアラインメントを用いた予測
• サイトごとの情報の得点化
–
–
–
–
保存度の計算
変異度の計算
PSSM
二次構造予測
• サイト間相互作用情報抽出
– 接触部位予測
– 機能的に関連する残基の予測
• 分子系統解析とその応用
– リガンド予測
– 機能解析
2.マルチプルアラインメントを用いた
予測
マルチプルアラインメ
ント(3本以上の配列を
アラインメント)からの
情報抽出
マルチプルアラインメントを作成するために収集された配列群が、全体
として保持している情報を抽出
*導き出された情報が、手元にある注目したい1本の配列だけには、当
てはまらない可能性がある
第一部 タンパク質機能解析の基礎
配列からの機能予測
1本の配列を用いた予測
2.マルチプルアラインメントを用いた予測
立体構造情報を取り入れた予測
相同タンパク質の立体構造情報を取
り入れた予測
一次構造上遠く隔たったサイトどうしが、立体構造上では近接
し、特定の機能を担っていることがある
モチーフ抽出の限界
例: インターフェース
活性部位(リパーゼのcatalic triad?)
3次構造の情報を積極的に取り入れることで、詳細な解析
系統樹
Evolutionary Trace (ET) - 1
N L W--------- S E S
機能
A
N L W ---------T E S
クラスタごとの
コンセンサス配列
N?W----? E S
クラスタ
特異的
保存サイト
N I W --------- GE S
機能
B
- G W--------- Q K P
??W----?K P
A S W--------- T K P
G T W--------- E K T
機能
C
A V W--------- G K T
- V W--------- G K T
全クラスタで
??W----?KT 保存される
サイト
系統樹
Evolutionary Trace (ET) - 2
機能
A
クラスタ内で
重要な残基
機能
B
クラスタ内で
重要な残基
機能
C
クラスタ内で
重要な残基
全体で
重要な残基
で、ここまでなら、
大した手法ではな
い、、、、、、、、。
が、、、、、、、、、、
系統樹
Evolutionary Trace (ET) - 3
機能
A
Class
クラスタ
Specific
特異的
Residue
保存サイト
..W ----E S
機能
B
..W ----K P
機能
C
全クラスタで
Conserved
保存される
Residue
サイト
..W ----K T
Trace
Residue
(TR)
Evolutionary Trace (ET) - 4
Trace
Residue
(TR)
Evolutionary Trace (ET) - 5
Trace
Residue
(TR)
Evolutionary Trace (ET) - 6
Trace
Residue
(TR)
Evolutionary Trace (ET) - 7
I
II III IV V
TR I
TR II
TR III
TR IV
TR V
Evolutionary Trace (ET) - 8
i. 系統樹を色々な階層で分割しファミリーをグルーピング
ii. 各グループ内でTR(conserved & class specific)を検出
iii. グループごとのTRを立体構造上にマッピング
iv. 分割のしかたによってはクラスタを形成することがある
v. ETにより検出されたクラスタの集積傾向は統計的に有意
Pyruvate
decarboxylase
90゜
クラスター数
クラスターのサイズ
クラスター数
クラスターサイズ
Evolutionary Trace (ET) - 8
i. 系統樹を色々な階層で分割しファミリーをグルーピング
ii. 各グループ内でTR(conserved & class specific)を検出
iii. グループごとのTRを立体構造上にマッピング
iv. 分割のしかたによってはクラスタを形成することがある
v. ETにより検出されたクラスタの集積傾向は統計的に有意
・酵素の活性中心
・リガンド結合部位
・タンパク質間相互作用のインターフェース
Class
Specific
Residue
・酵素:基質認識部位の違い
・リガンド結合様式の違い
・インターフェースの違い
Evolutionary Trace (ET) - 9
• 現在、様々なグループがET法の改良を試み
ている
• Evolutionary Trace Server (TraceSuite II)
http://www-cryst.bioc.cam.ac.uk/~jiye/evoltrace/evoltrace.html
• Consurf
http://bioinfo.tau.ac.il/ConSurf/
01←
PIC
→10
各PICでのTrace Residue(TR)をマル
チプルアラインメント上に表示
Evolutionary Trace (ET) - 10
• 仮に、保存残基(青と緑)のみの情報だったならば、
大した情報を引き出すことはできない
• 「Class specific residues(赤と黄) の情報を取り入
れ、さらに、それらの立体構造上での集積傾向を評
価する」という点が最大の強み
• 見た目で判断するのは難しいし、仮説構築の根拠と
しては弱いが、、、
• ウェブ上でサービスは行なわれていないが、理論的
には、Trace Residue(TR)の集積が統計的に有意
かどうかの判定が可能
Evolutionary Trace (ET) - 11
「Class specific residueの立体構造上での位置が
Class間で変わらない」ことが前提
Class
Specific
Residue
+
Conserved
Residue
II
TR