分子生物情報学(0) バイオインフォマティクス阿久津達也京都大学化学研究所バイオインフォマティクスセンターバイオインフォマティクス（１）   生物学＋情報技術（IT）１９９０年代に大きく発展 ← ゲノム計画の急速な進展（既に１００種類程度以上の生物種のゲノムが決定）  情報解析の必要性    DNA配列⇔プログラムのオブジェクトコード意味の解析が必要配列以外のデータ解析も重要  立体構造、遺伝子発現データ、代謝パスウェイなどバイオインフォマティクス（２）  主要トピック       データベース構築遺伝子発見、遺伝子制御領域推定配列検索、配列比較、進化系統樹たんぱく質／RNA構造予測、機能予測、相互作用予測遺伝子発現データ解析分野としての特徴   多くのデータベース・ソフトウェアがWEBなどから利用可能研究成果が（生物学研究への）応用に直結バイオインフォマティクスにおけるデータベース  多くの重要なデータベースが無償でWEBからアクセス可能      DNA配列： GenBank, EMBL, DDBJ タンパク質配列： Swissprot タンパク質立体構造： PDB モチーフ： Prosite, Pfam, … 代謝パスウェイ： KEGG バイオインフォマティクスセンター Bioinformatics Center    京都大学化学研究所附属 2001年4月設立現在、４研究室    金久研: KEGG 藤研: 分子進化馬見塚研: データマイニング  阿久津研: アルゴリズム研究室の研究内容  研究方針    数理的原理に基づく生命情報解析手法の開発生命システムの数理的理解研究トピック  相互作用推定       タンパク質―タンパク質、遺伝子―遺伝子などスケールフリーネットワーク配列解析（文字列解析）アルゴリズムタンパク質立体構造解析（比較・予測）化学情報解析（ケモインフォマティクス）生物データ解析のための統計的手法  HMM、サポートベクタマシン遺伝子と蛋白質  遺伝情報の流れ   遺伝子   DNA配列中で直接的に機能する部分エキソン転写制御領域（プロモーターなど）  スプライシング mRNA GGU  アミノ酸（２０種類）の鎖 GCA 翻訳 GGU → Gly GCA → Ala 染色体全体（半数体）遺伝情報の総体タンパク質エキソン転写・ゲノム   DNA⇒RNA⇒タンパクエキソンタンパク質 DNA DNAとアミノ酸 DNAはA,C,G,Tの４文字の並び  DNAは二重ラセン構造⇒相補鎖  塩基：DNA１文字、残基：アミノ酸１文字  DNA３文字がアミノ酸１文字に対応（アミノ酸は２０種類）  コード表 2文字目 T TTT TTC T １文字目 C A TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG 相補鎖 G A C G T C G T C T G C A G C A G GTT GTC GTA GTG C F L L I M V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG A S P T A TAT TAC TAA TAG G Y stop CAT CAC H CAA CAG TGT TGC TGA TGG C stop W Q CGT CGC CGA CGG R AAT AAC N AGT AGC S AAA AAG K AGA AGG R GAT GAC D GAA GAG E GGT GGC GGA GGG G アミノ酸と蛋白質   アミノ酸：２０種類蛋白質：アミノ酸の鎖（短いものはペプチドと呼ばれる）アミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニルアラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラギン酸 CH ２ O C - His ヒスチジン Cys システイン HN SH + NH CH ２ CH 2 CH ２ Gly グリシン H 計算量  情報科学では、入力データのサイズ(n)に対して、計算時間がどのように変化するかを理論的に解明することが重要  O(n): かなり速い（文字列検索など）  O(n log n): 結構速い（ソートなど） 2  O(n ): まあまあ速い（アライメントなど） 3  O(n ): ちょっと遅い（RNA二次構造予測など） 4  O(n ): 結構遅い（Pseudo-knotつきRNA二次構造予測など）  NP困難：すごく遅い（マルチプルアライメント、スレッディングなど)    P=NP は理論計算機科学における最大の難問 P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム（多項式時間アルゴリズム）は存在しないしかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリズムを開発できる可能性はある講義内容        ペアワイズアライメント法（動的計画法）マルチプルアライメント法確率モデル(HMM)に基づく配列解析進化系統樹推定法 RNAおよびタンパク質の高次構造推定遺伝子発現データの情報解析法スケールフリーネットワーク