集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測 (1) バイオインフォマティクス概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター バイオインフォマティクス(1) 生物学+情報技術(IT) 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決 定) 情報解析の必要性 DNA配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど バイオインフォマティクス(2) 主要トピック データベース構築 遺伝子発見、遺伝子制御領域推定 配列検索、配列比較、進化系統樹 タンパク質構造予測、機能予測、相互作用予測 遺伝子発現データ解析 ネットワーク構造解析 化合物の性質推定 分野としての特徴 多くのデータベース・ソフトウェアがWEBなどから利用可能 研究成果が(生物学研究への)応用に直結 バイオインフォマティクスにおける データベース 多くの重要なデータベースが無償でWEBから アクセス可能 DNA配列: GenBank, EMBL, DDBJ タンパク質配列: Swissprot タンパク質立体構造: PDB モチーフ: Prosite, Pfam, … 代謝パスウェイ: KEGG バイオインフォマティクスセンター Bioinformatics Center 京都大学 化学研究所 附属 2001年4月設立 現在、4研究室 金久研: KEGG 馬見塚研: データマイニング 阿久津研: アルゴリズム 人材養成ユニット(藤研): 分子進化 KEGG: Kyoto Encyclopedia of Genes and Genomes 金久研が開発しているデータベース 様々な生物情報データを格納 代謝パスウェイ 化合物、代謝反応式 ゲノム配列 遺伝子発現データ DBGET (統合データベースシステム) GenBnak, PDB, SwissProt, … KEGG: Top page KEGG中の代謝パスウェイの例 KEGG/LIGAND中の代謝反応式の例 研究室の研究内容 研究方針 数理的原理に基づく生命情報解析手法の開発 生命システムの数理的理解 研究トピック 相互作用推定 タンパク質―タンパク質、遺伝子―遺伝子など スケールフリーネットワーク 配列解析(文字列解析)アルゴリズム タンパク質立体構造解析(比較・予測) 化学情報解析(ケモインフォマティクス) 生物データ解析のための統計的手法 HMM、サポートベクタマシン 遺伝子と蛋白質 遺伝情報の流れ 遺伝子 DNA配列中で直接的に 機能する部分 エキソン 転写制御領域 (プロモーターなど) スプライシング mRNA GGU アミノ酸(20種類)の鎖 GCA 翻訳 GGU → Gly GCA → Ala 染色体全体(半数体) 遺伝情報の総体 タンパク質 エキソン 転写 ・ ゲノム DNA⇒RNA⇒タンパク エキソン タンパク質 DNA DNAとアミノ酸 DNAはA,C,G,Tの4文 字の並び DNAは二重ラセン構 造⇒相補鎖 塩基:DNA1文字、 残基:アミノ酸1文字 DNA3文字がアミノ酸 1文字に対応 (アミノ酸は20種類) コード表 2文字目 T TTT TTC T 1 文 字 目 C A TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG 相補鎖 G A C G T C G T C T G C A G C A G GTT GTC GTA GTG C F L L I M V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG A S P T A TAT TAC TAA TAG G Y stop CAT CAC H CAA CAG TGT TGC TGA TGG C stop W Q CGT CGC CGA CGG R AAT AAC N AGT AGC S AAA AAG K AGA AGG R GAT GAC D GAA GAG E GGT GGC GGA GGG G アミノ酸と蛋白質 アミノ酸:20種類 蛋白質:アミノ酸の 鎖(短いものはペ プチドと呼ばれる) アミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニル アラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラ ギン酸 CH 2 O C - His ヒス チジン Cys シス テイン HN SH + NH CH 2 CH 2 CH 2 Gly グリシン H 計算量 情報科学では、入力データのサイズ(n)に対して、計算時間がど のように変化するかを理論的に解明することが重要 O(n): かなり速い(文字列検索など) O(n log n): 結構速い(ソートなど) 2 O(n ): まあまあ速い(アライメントなど) 3 O(n ): ちょっと遅い(RNA二次構造予測など) 4 O(n ): 結構遅い(Pseudo-knotつきRNA二次構造予測など) NP困難: すごく遅い (マルチプルアライメント、スレッディングなど) P=NP は理論計算機科学における最大の難問 P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム (多項式時間アルゴリズム)は存在しない しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリ ズムを開発できる可能性はある 講義内容 スケールフリーネットワーク 配列アライメント タンパク質立体構造予測 遺伝子発現データ解析 タンパク質-リガンド・ドッキング カーネル法を用いた化合物の性質予測 おわりに+21世紀COE「ゲノム科学の知 的情報基盤・研究拠点形成」
© Copyright 2024 ExpyDoc