配列解析 4

生物科学特別講義III
生物学特別講義E
配列解析 4
藤 博幸
BIO
IT
最尤法による系統樹の構築と祖先配列の推定
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
OpenAFile/Sessionを選択
ファイル選択のウィンドウが表示される
スクロールバーで表示位置を変更しながら
ファイル(PGDS.aln)を探して選択
読み込まれたアラインメント
が新しいウィンドウ上で
Clustal形式で表示される
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
アラインメントウィンドウのメニューバーの
UClityをクリック
プルダウンメニューからConvertto
MEGAFormatを選択
新しいウィンドウが開いて
ファイルと形式を確認してくる
ので、OKをクリック
MEGA形式のデータを保存する
ファイル名を聞いてくるので
*の部分を PGDS として
PGDS.megという名前で保存
変換が正常に終了したことを
示すウィンドウが現れる。
OKをおしてとじる
それまでClustal形式だったアラインメントが
MEGA形式に変換されて表示されている
MEGA形式のデータが表示される
保存度を表す行が配列と間違えられて入っている
削除して、Fileメニューからsaveを選択
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
モデルをクリック
プルダウンメニューのFindBestDNA/ProteinModels(ML)を選択
新しく開いたウィンドウから、変換した
MEGA形式のファイルを選択し
Openをクリック
新しいウィンドウが開くので、
ProteinSequencesを選択して
OKをクリック
モデル選択の確認画面がでてくる
デフォルト設定のままでComputeをクリック
時間がかかるので、計算の途中経過を示すウィンドウが現れる
計算結果の画面が現れる
BIC,AIC,lnLがモデル選択の基準
BIC,AICcは小さい程よく、lnLは大きいほど良い。
MEGAではBICでソートされている
JTTモデルが、このモデルに最適であることが示されている
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
上部のPhylogenyをクリック
プルダウンメニューから
Construct/TestMaximumLikelihoodTree
を選択
現在、acCveになっているPGDS.megについて系統樹をつくるのかを
聞いてくるので、Yes をクリック
最尤法の計算設定
の画面が現れる
黄色の部分が変更
可能
変更の仕方
変更する項目をクリックすると
右端にボタンが出てくるのでそれを使って変更
Bootstrapの回数の変更
上向き矢印で増加、下向きで減少
今回は100になるようにしてください
① PhylogenyTest
Bootstrapを100回
② SubsCtuConModel
JTTであることを確認
(デフォルト)
③ RatesandPa]erns
UniformRatesであること
を確認(デフォルト)
設定が完了したら
Computeをクリック
SubsCtuionmodelを変更する必要がある場合は、
右端をクリックすると現れるプルダウンメニューの
中から使用するモデルを選択
RatesandPa]ernsも同様
時間がかかるので
途中経過を示すウィンドウ
が表示される
計算が終了すると
最尤系統樹にbootstrapsupport
がマッピングされた図が表示される。
90%以上を信頼できるとすることが多いが、場合に
よっては低い閾値にすることもある
無根系統樹であるが、外群
としてNGALを含めたので
PGDSのrootを決定できている
系統樹をNewickformatで保存
系統樹ウィンドウのメニューバーからFileをクリック
系統樹のウインドウのメニューバーの
Fileメニューから、ExportCurrentTree(Newick)
を選択
枝の長さとbootstraop確率をNewick形式に含める
Newick形式のデータをFileメニューのSaveでファイルに保存
デスクトップにPGDS.nwkというファイルが作成される
((PGDS_HUMAN:0.17655389,PGDS_MOUSE:0.18340854)1.0000:0.23283201,
(PGDS_XENOPUS:0.40059440,PGDS_CHICKEN:0.32639557)0.9900:0.21749840,
NGAL_HUMAN:0.91320070);
系統樹のメニューバーのImageをクリック
プルダウンメニューから SavePDFfileを選択
先ほど指定したファイル名が残されているので
必要に応じて書き換えて、Saveをクリック
今回は、ファイル名はPGDS_treeにしておく
PGDS_tree.PDFというファイル名で、系統樹の
画像ファイルが保存される
(1)  MEGAを起動してma-で作成したアラインメントの読み込み
(2)  MEGA形式へのデータの変換
(3)  モデル選択
(4)  最尤法による系統樹の構築
(5)  祖先配列の推定
AncestorのプルダウンメニューからInferAncestralSequenceを選択
acCvedata(PGDS.meg)を使用するので、yesを選択
設定確認にウィンドウが開く
最尤系統樹推定のモデルの設定が反映されている
ここで、PGDS.nwk(系統樹の情報)を読ませる
① UserTreeFileの項目をクリック
② 右端の…をクリックするとファイル選択のウィンドウ
が開く
③ 開いたウィンドウがPGDS.nwkを選択
④ Openをクリック
系統樹が表示され、terminalnodeには現在の配列のサイト1のアミノ酸、
Internalnodeには祖先のサイト1のアミノ酸が表示される。
ウィンドウ上部の上向き矢印をクリックすると、サイトを進めることができる
下向き矢印をクリックするとサイトをN末側に戻す事ができる。
出力形式の入力と、出力ファイル名を設定するウィンドウが開く
①出力形式のデフォルトはExcelなので、そのまま
出力ファイル名がResult.xlsになっているので、aaseq2.xlsに変更
②Drectoryの右端をクリックし、開いたウィンドウから、ファイルを保存する
フォルダを選択
③OKをクリック
PGDS_Result.xlsがDesktopに
できている。ダブルクリックして
エクセルで開く
各サイトの祖先アミノ酸(塩基)には、その確率が計算されている。
Mostprobablesequenesを選択したということは、その中で
最も高い確率のアミノ酸あるいは塩基を選択して出力すると
いうことである
祖先配列推定の利用の例
生物は出現した時点では熱水の中で生きていた
と考えられる。
祖先のタンパク質は耐熱性、あるいは好熱性を
有する。
祖先配列を推定して、それに従ってタンパク質の
アミノ酸配列を設計すれば耐熱(好熱)タンパク質を
作り出せる?