生体情報学I バイオインフォマティクス概論 関西学院大学理工学部生命医化学科 藤 博幸 1. PubMed, OMIM 2. タンパク質立体構造解析 3. protein-protein interaction, metabolic pathway 階層性 (hierarchy) 生体は、空間的、時間的な階層性を持つ システムである� システムと入出力� 生物のスケールと階層性 生体 器官 組織 細胞 分子 原子 スケール 階層性 http://www.garlandscience.com/textbooks/081533480X/pdf/ch01.pdf 5 空間的階層性 1 分子� DNA�����RNA タンパク質��脂質 糖������水� 細胞� 要素� 相互作用� 要素を寄せ集めただけでは、システムとしての特性は 得られない。要素間の相互作用により、集団としての 性質として、システムとして働く。� 空間的階層性2 細胞� 臓器� 肝臓� or 肺� 空間的階層性3� 臓器� 肝臓� or 肺� 個体� 空間的階層性 4 個体� 個体群� 分子生物学 生化学� 細胞生物学� 生態学 行動学� 生命科学の発展(主要な解析対象の推移) 要素 ゲノム解析 cDNA計画 構造ゲノム解析 1970年代~1980年代 個別の配列データ 構造データ 個別 網羅 トランスクリプトーム プロテオーム 1980年代 シグナル伝達 相互作用 ゲノム解読の歴史 シークエンサー 1978 1979 1980 1981 1982 1983 1984 SV40 HPV 5.2kbp 4.9kbp mtDNA 16.6kbp 48kbp λ EBI 初めての ゲノム解読 ウィルス粒子 の環状DNA 172kbp 生物 初 1992 酵母(S.cerevisie)第III染色体 315kbp 1993 真核生物 初 酵母(S.cerevisie)第XI染色体 666kbp 1994 1995 インフルエンザ菌(H.Influenza)ゲノム 1.83Mbp 1996 酵母(S.cerevisiae)ゲノム 13.5Mbp 1997 大腸菌(E.coli)ゲノム 4.6Mbp 1998 線虫(O.elegans)ゲノム 100Mbp 1999 2000 ショウジョウバエゲノム 180Mbp 2001 2002 2003 ヒトゲノム 3,000Mbp 1kbp 10kbp 100kbp 1Mbp 10Mbp 100Mbp 1,000Mbp バイオインフォマティクスは ゲノムインフォマティクスとしてはじまった ヒトゲノム解読宣言 ヒトゲノム解析の歴史 1953 1977 1983 1986 1990 1993 1998 1999 2001 2003 ワトソンとクリックがDNAの二重らせん構 造を発見 DNA配列を解読する方法(サンガー法)が 開発される PCR法が開発される ヒトゲノム解読計画が本格的に始まる 自動シークエンサーの開発 ヒトゲノム解読の国際計画正式発足 染色体の物理地図が予定より早く完成 米ベンチャー企業(セレラ社)がヒトゲノム 解読を表明 国際チームがゲノム概要版の解読を加速 日英を中心に22番染色体のシークエンス が完成 国際チームとセレラ社がヒトゲノム概要版 をそれぞれが発表 ヒトゲノム解読完了宣言 二重らせんが明らかになってから、わずか60年弱の出来事 Human Genome 半数体で約30億塩基対 二倍体で約60億塩基対 2万2千個のタンパク質 をコードする遺伝子 75% spacer 25% genes in which exons (=protein coding region)occupy about 1.5 % 98.5% of the genome do not code proteins. 98.5% Previously, the region is called junk DNA. cis regulatoru regions (= promotors & enhancers) are included in the region. About 50 % of the genome is occupied by repetitive sequences including LINE, SINE, and transposable genetic elements It was recently revealed that about 70% of the genome is transcribed into RNA. (RNA continent) RNAs which do not code proteins (ncRNA =non-coding RNA) ヒトゲノムとチンパンジーゲノム 97% 一致 ヒトは、タンパク質をコードする遺伝子ではなく、 その発現調節領域が変化している。 年次 2009 8 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 10 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 核酸配列数(千万) 12 5 核酸配列 アミノ酸配列 立体構造 4 3 6 4 2 2 1 アミノ配列、立体構造数(十万) データの蓄積 爆発的な増加 ギガ・シークエンサー (次世代シークエンサー) 17年かけて読んだヒトゲノム解読 現在は2~3日で(10台の装置) 2002~2009年で塩基解読速度が約1000倍向上 ゲノム解読 8ヵ月で 2 倍 計算機の性能 1.5 年で 2 倍 4 年で 10 倍の差 ゲノム解読の高速化 1.E+10 Illumina GA ABI SOLiD Roche 454 FLX 解読可能塩基数/日 1.E+09 10倍の差 • 1.E+08 454 GS20 1.E+07 ABI3730 1.E+06 ABI3700 ABI377 ムーアの法則 1.6倍/年 8か月で2倍 2年で2倍 1.E+05 1.E+04 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 年 • ムーアの法則 “CPUの性能(集積回路上のトラン ジスタ数)は 1.5年で2倍になる” 約10倍の個数のCPU並列化でしのぐ 生命科学の発展(主要な解析対象の推移) 要素 ゲノム解析 cDNA計画 構造ゲノム解析 1970年代~1980年代 個別の配列データ 構造データ 個別 網羅 トランスクリプトーム プロテオーム 1980年代 シグナル伝達 相互作用 網羅的解析 -遺伝子発現- マイクロアレイ (2色法) 細胞A 細胞B mRNAの調整 mRNAの調整 蛍光標識cDNAの調整 蛍光標識cDNAの調整 (例:Cy5標識 赤) マイクロアレイ (例:Cy3標識 緑) 混合してハイブリダイゼーションを行う 1つ1つのスポット スポットの色:赤 A細胞 B細胞 由来 > 由来 mRNA mRNA 基板上のDNA スポットの色:黄 A細胞 B細胞 由来 ≒ 由来 mRNA mRNA スポットの色:緑 A細胞 B細胞 由来 < 由来 mRNA mRNA 2点間の距離 x y Sample 1 38 72 Sample 2 0 34 Sample 3 6 39 Sample 4 141 136 Sample 5 8 49 Sample 6 16 65 Sample 7 2 38 Sample 8 132 186 • • • 200 180 160 140 120 100 80 60 40 20 0 x y ユークリッド距離 deuc (x, y) = 108 マンハッタン距離 dman (x, y) = 286 ピアソン相関距離 € dcor (x, y) = 0.05 € Single-linkage Complete-linkage > estrogen.hc <- hclust(estrogen.d, method="average") > plot(estrogen.hc) > estrogen.hc Call: hclust(d = estrogen.d, method = "average") Cluster method : average Distance : euclidean Number of objects: 8 Average-linkage クラスター分析後 … 同じクラスターに分類された遺伝子群は、 発現パターンが類似していることから、発現 制御機構が類似しているかもしれない Yan et al., Genome Biology, 2007, 8, R78 マイクロアレイから次世代シークエンサへ 発現アレイ RNA seq ChIP-chip ChIP-seq 網羅的解析 -タンパク質相互作用の解析- イースト・ツー・ハイブリッド法 a) タンパク質Xとタンパク質Yが ・ ・ 相互作用する場合 転写制御因子の 転写活性化ドメイン DNA結合ドメイン プロモータ タンパク質X を融合させた X 転写活性化ドメイン プロモータ Y 転写 ○ lacZ 遺伝子 プロモータ プロモータ 転写 ○ lacZ 遺伝子 b) タンパク質Xとタンパク質Zが ・ ・ ・ 相互作用しない場合 転写 X lacZ 遺伝子 Z Y プロモータ タンパク質Y Y を融合させた DNA結合ドメイン X 転写 X lacZ 遺伝子 転写 X lacZ 遺伝子 lacZ 遺伝子の発現をチェックすれば 相互作用の有無が分かる Reconstruction of protein networks � Prediction of Biological Function Characterization of Biological Network 生命科学の発展(主要な解析対象の推移) 要素 ゲノム解析 cDNA計画 構造ゲノム解析 1970年代~1980年代 個別の配列データ 構造データ 個別 網羅 トランスクリプトーム プロテオーム 1980年代 シグナル伝達 相互作用 構造ゲノミクスの進展 立体構造既知タンパク質との類似性検索結果を外挿 2018 2021 2031 Yura, K., Yamaguchi, A., Go, M. (2006) J. Str. Func. Genomics, 7, 65-76. 薬剤設計(ドッキング) • HIVプロテアーゼ + 化合物 – メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬 ? 薬剤設計(ドッキング) • HIVプロテアーゼ + 化合物 – メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬 薬剤設計(ドッキング) • HIVプロテアーゼ + 化合物 – メルク社が開発したHIVプロテアーゼ阻害剤→エイズ治療薬 断面図(化合物が穴にぴったり埋まっている様子) 生命現象と情報の流れ セントラルドグマ(遺伝情報の流れに関する基本的概念) 観察される現象 複製 情報の種類 DNA 塩基配列 転写, 逆転写 mRNA 塩基配列, 発現量(転写量) 翻訳 立体構造形成 タンパク質 アミノ酸配列, 三次元座標 翻訳後修飾 局在化 修飾, 局在, 結合情報 に関する情報 分子間の相互作用 生体分子として機能 セントラル・ドグマ� DNA (遺伝情報の実体)� 転写 (transcription) RNA 翻訳 (translation) タンパク質�(protein) 網羅的解析� ゲノム (genome) ある生物の有する 遺伝情報の総体� トランスクリプトーム (transcriptome) ある生物の時間的、空間的な 転写産物の総体� プロテオーム (proteome) ある生物の時間的、空間的な 翻訳産物の総体� 個別的���������������網羅的 (genomewide) セントラルドグマと網羅的解析の対応� オミクスデータの異質性 研究のレベル ゲノム 主な分析手法 DNA塩基配列決定 科学領域 ゲノミクス DNA (遺伝子全体) トランスクリプトーム mRNA (細胞・組織・器官の mRNA全体) プロテオーム proteins (細胞・組織・器官の タンパク質全体) メタボローム metabolities (細胞・組織・器官の 代謝中間体全体) マイクロアレイ iAFLP SAGE など 情報量 どの細胞でも 同量 トランスクリプト ミクス 質量分析 プロテオミクス イースト・ツー・ ハイブリッド 二次元電気泳動 など NMR分析 質量分析 メタボロミクス 増大 多様化 異質性の例と問題点 細胞 ゲノム ネットワーク 遺伝子情報 アミノ酸情報 立体構造情報 相互作用情報 タンパク質を中心にみた場合 DNAの構造 塩基 NH2 リン酸 N O N -O P O 5’ a アデニン t チミン グアニン g シトシン c N N O OH H H OH H H 3’ デオキシリボース 基本構造 核酸は”小文字” で表記する アルファベット表記は、分子構造を省略したものである アミノ酸 Asp (D) Glu (E) アスパラギン酸グルタミン酸 側鎖 R H N H Tyr (Y) チロシン Ser (S) セリン 主鎖 H C アミノ基 Cys (C) システイン OH C 解離性アミノ酸 Lys (K) リジン Arg (R) アルギニン His (H) ヒスチジン Thr (T) スレオニン O カルボキシル基 基本構造 Gly (G) グリシン Ala (A) アラニン Val (V) バリン Leu (L) イソロイシン Ile (I) ロイシン 親水性 アミノ酸 Asn (N) アスパラギン アミノ酸は ”大文字” で表記する 疎水性アミノ酸 Met (M) メチオニン Pro (P) プロリン Phe (F) Trp (W) フェニルアラニン トリプトファン Gln (Q) グルタミン タンパク質の立体構造 R E T V G R I L K E D Q N L I S A H G K T I V V 一次構造 ATOM 3058 N ARG A 180 52.474 50.771 -5.959 1.00 49.58 N ATOM 3059 CA ARG A 180 53.500 51.352 -5.084 1.00 49.65 C ATOM 3060 C ARG A 180 54.504 52.126 -5.899 1.00 50.19 C ATOM 3061 O ARG A 180 55.064 53.128 -5.470 1.00 50.39 O ATOM 3062 CB ARG A 180 54.318 50.339 -4.269 1.00 50.98 C ATOM 3063 CG ARG A 180 55.250 49.428 -5.060 1.00 53.19 C ATOM 3064 CD ARG A 180 56.537 48.892 -4.411 1.00 52.49 C ATOM 3065 NE ARG A 180 57.220 48.150 -5.464 1.00 52.23 N ATOM 3066 CZ ARG A 180 57.891 48.774 -6.443 1.00 52.46 C ATOM 3067 NH1 ARG A 180 58.088 50.090 -6.439 1.00 52.35 N ATOM 3068 NH2 ARG A 180 58.417 48.074 -7.439 1.00 52.66 N ATOM 3069 H ARG A 180 52.332 49.806 -5.992 1.00 0.00 H ATOM 3070 HE ARG A 180 57.158 47.174 -5.485 1.00 0.00 H ATOM 3071 HH11 ARG A 180 57.720 50.650 -5.698 1.00 0.00 H ATOM 3072 HH12 ARG A 180 58.597 50.524 -7.181 1.00 0.00 H ATOM 3073 HH21 ARG A 180 58.334 47.079 -7.457 1.00 0.00 H ATOM 3074 HH22 ARG A 180 58.934 48.538 -8.159 1.00 0.00 H カタボライト活性化タンパク質(CAP), 1CGP 立体構造 (1CGP) ネットワーク –パスウェイ- <entry id="1" name="ko:K00128" type="ortholog" reaction="rn:R00710“> </entry> <entry id="2" name="ko:K01895" type="ortholog" reaction="rn:R00235“> </entry> <entry id="3" name="ko:K00129" type="ortholog" reaction="rn:R00711“> </entry> <reaction name="rn:R00710" type="reversible"> <substrate name="cpd:C00084"/> <product name="cpd:C00033"/> </reaction> グルコース ヌクレオチド グルコース 6-リン酸 アミノ酸 糖脂質 糖タンパク質 フルクトース 6-リン酸 ジヒドロキシアセ トンリン酸 解糖系 セリン 細胞の代謝マップ 代謝マップ (解糖系とクエン酸回路) アラニン 脂質 3-ホスホグリセリン酸 アミノ酸 ピリミジン塩基 ホスホエノールピルビン酸 ピルビン酸 アスパラギン酸 その他のアミノ酸 クエン酸 オキサロ酢酸 プリン塩基 ピリミジン塩基 コレステロール 脂肪酸 クエン酸 回路 α-ケトグルタル酸 スクシニルCoA ヘム クロロフィル グルタミン酸 その他のアミノ酸 プリン塩基 生命現象と情報処理 細胞 ゲノム ネットワーク 遺伝子情報 アミノ酸情報 立体構造情報 相互作用情報 タンパク質を中心にみた場合 生命現象と情報処理 細胞 ゲノム tttatcactatattaatccacgtttttcaaacatatttgaaaaaaaaaatgttagtaagt ctatgcttttcataggtagccatcttgtcaatataaataatggtaatccgcatggttgtt caggcgttcgcaaaattgtaggaagaggagaacgtggaaatatggactttttgcaaattc agaattcattttactaggttcttgcaacatggataacatctcacgctgttatttttcatg cttctccatatcgtatatatgtaatgaagcattttcattgggtttcctgctcaaaggttg acatatattataagttatactggaacaagccacaatcctgtcaaagtctaaattccggtg tattggctatctgaagctctctcatatattaatacattgctttctagcacaacgctgccc tcggtcgccattaattatgaatcatcatcatatagggacatacctctcaagttattgtct <reaction name="rn:R00710" type="reversible"> <substrate name="cpd:C00084"/> <product name="cpd:C00033"/> </reaction> ネットワーク 遺伝子情報 ATOM 1 O5' G C 6 50.136 52.825 59.410 1.00115.37 O ATOM 2 C5' G C 6 50.321 52.610 60.822 1.00115.37 C ATOM 3 C4' G C 6 50.059 53.892 61.580 1.00115.37 C ATOM 4 O4' G C 6 51.213 54.152 62.427 1.00115.37 O ATOM 5 C3' G C 6 49.897 55.145 60.721 1.00115.37 C ATOM 6 O3' G C 6 48.540 55.437 60.449 1.00115.37 O アミノ酸情報 立体構造情報 MAPVKSQESINQKLALVIKSGKYTLGYKSTVKSLRQ GKSKLIIIAANTPVLRKSELEYYAMLSKTKVYYFQG GNNELGTAVGKLFRVGVVSILEAGDSDILTTLA データフォーマットが異なる DIP:40360E DIP:25445N DIP:40361E DIP:24681N DIP:40362E DIP:26515N DIP:40363E DIP:25384N DIP:40364E DIP:24569N 相互作用情報 大量データ 異質データ データの洪水 データの爆発 情報技術なしには処理しきれない 他分野でも同様の問題 第四パラダイム、データ集約型コンピューティング バイオインフォマティクスとは 大規模な実験 網羅的な実験 インフォマティクス 計算機 情報学的側面 データの整理 データの解析 新しいルールの発見 生物学的側面 生物学データの爆発 バイオロジー 情報処理 データベース バイオインフォマティクスにおけるデータベースとは [[特徴]] ① 実験データや、そのデータに付随する 情報が格納されている。 百科事典 ID seq1 DE seq1, 16 bases, 2688 CC chromosome 1 SQ 16 BP agctagctag ctagct // ID seq2 DE seq2, 16 bases, 25C8 CC expression: heart SQ 16BP aactaactaa ctaact // ② データは特定の形式で保存されている。 ただし、形式はデータベースごとに異 なる。 ③ 検索することができる。 例えば、キーワード検索などが可能。 ④ ウェブで利用できる。 世界中の全ての人が利用可能。 データベースの種類 相互作用 要素(部品) その他 医学・生物学文献 転写因子情報 機能 反応 ネットワーク タンパク質 アミノ酸配列 DNA RNA 低分子 DNA塩基配列 タンパク質 立体構造 遺伝子の配列 オントロジー 特許 疾病情報 タンパク質相互作用データ モチーフ情報 SNPs 遺伝子発現 基本データベース リガンド 一次情報 即活用のためのバイオインフォマティクス入門 p90参照を一部改編 高次情報 データベース例 -配列情報- • 配列情報に関連したデータベース – 塩基配列に関連するデータベース • GenBank, EMBL-Bank, DDBJ – アミノ酸配列に関連するデータベース • UniProt, IPI データベース例 -立体構造情報- • 立体構造に関連したデータベース – 核酸(DNA、RNA)の三次元構造のデータベース • NDB(Nucleic Acid Database) – タンパク質、核酸の立体構造データベース • PDB(Protein Data Bank) データベース例 -相互作用- • 相互作用に関連したデータベース – DNA-タンパク質相互作用 • DBTSS(Database of Transcriptional Start Sites) – タンパク質間相互作用 • String, MIPS, HPRD データベース例 -ネットワーク情報- • ネットワークに関連したデータベース – 分子間相互ネットワーク情報のデータベース • KEGG Pathway (代謝パスウェイが中心) 解糖系 データベース例 -遺伝子発現情報- • 遺伝子発現に関連したデータベース – 遺伝子発現情報のデータベース • GEO(Gene Expression Omnibus) • ヒト統合ボディーマップ データベースの分類 • データベースは、大まかに2種類に分類される – 生データを取り扱ったデータベース • 実験データ(配列、立体構造、遺伝子発現データ) • 文献データ • 一次データベースと呼ばれることが多い – 加工した情報を取り扱ったデータベース • 配列モチーフデータ • 立体構造分類データ • 二次(もしくは高次)データベースと呼ばれることが多い 最近、この区別は明確ではなくなってきている 一次/二次データベースの関係 配列データ 類似した配列 をグループ化 InterPro UniProt 立体構造データ 新しい知見 似た構造同士 を分類 PDB 一次データベース 整理/分類 SCOP 二次データベース 統合データベース データベースを関連付け、統合したもの http://www.genome.jp/dbget/dbget.links.html バイオインフォマティクスの研究 キーワード: ツール ツール/解析法 その他 統計解析 機械学習 データマイニング Evolutionary Trace 機能 タンパク質 分子動力学法 アラインメント パスウェイ解析 ホモロジーモデリング 構造認識法 シミュレーション ネットワーク推定 系統樹 DNA RNA 配列解析 低分子 可視化ツール 一次情報 基本的な解析ツール 高次情報 本日解析に利用したウェブリソース サービス名 内容 URL NCBI-BLAST 配列探索 http://blast.ncbi.nlm.nih.gov/Blast.cgi ClustalW マルチプルアラインメント 作成 http://www.ebi.ac.uk/Tools/clustalw2/ index.html Phylip 系統樹作成 http:// evolution.genetics.washington.edu/ phylip.html SWISS-MODEL 立体構造予測 http://swissmodel.expasy.org// SWISS-MODEL.html Consurf 機能部位の推定 http://consurf.tau.ac.il/ InterProScan 機能部位解析 http://www.ebi.ac.uk/Tools/ InterProScan/ KEGG パスウェイ解析 http://www.genome.ad.jp/kegg/ kegg2.html WolfPSORT 細胞内局在の予測 http://wolfpsort.org/ SignalP シグナルペプチドの予測 http://www.cbs.dtu.dk/services/ SignalP/ すべて無料で使うことができます 最新のデータベース&ツール • 有名どころ – Nucleic Acid Research (NAR) • Web server issue • Database issue – Bioinformatics • Applications Note • その他 – BioMed Central (Bioinformatics/Structural Biology/Genomesなど) • Software, Database – Bioinformation • software バイオインフォマティクスが目指すところ 生命現象の理解 データの整理 解析技術の開発 生命システム情報統合 生命機能の理解/予測 データベース 解析ツール システムの情報 相互作用という観点から体系化 部品の情報 配線(相互作用)の情報 ゲノムの全塩基配列情報 生命科学の広範な知識 新しい実験技術による相互作用情報 バイオインフォマティクスのユーザに必要なこと • コンピュータに関する基礎知識 • 様々なデータベースやツールに関する知識 • 理論や原理に関する知識 (深くなくて良い) 機械学習、統計、物理化学、進化 • プログラミング (高度なことはできなくても良い) バイオインフォマティクスの開発者に必要なこと • コンピュータに関する深い知識 • 様々なデータベースやツールに関する知識 • 理論や原理に関する深い知識 機械学習、統計、物理化学、進化の特定領域 に関する深い知識と、それ以外についての浅い 知識 • 高度なプログラミング技能 バイオインフォマティクスって何? 参考文献 • 『即活用のためのバイオインフォマティクス入門』 広川貴次、美成茂樹 中山書店 • 『できるバイオインフォマティクス』 美宅茂樹、広川貴次 中山書店 • 『バイオインフォマティクス(応用生命科学シリーズ) 』 美宅成樹 東京化学同人 • 『バイオインフォマティクス基礎講義 』 岡崎康司、坊農秀雄 メディカル・サイエンス・インターナショナル • 『ゲノムでわること できること』 水島-菅野純子 羊土社 • 『 Introduction to Bioinformatics 3rd Edition』 Arthur M.Lesk OXFORD UNIVERSITY PRESS
© Copyright 2024 ExpyDoc