奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 講義予定 • 9月5日 – – – – 分子生物学概観 分子生物学データベース 配列アラインメント 実習1(データベース検索と配列アラインメント) • 9月6日 – – – – モチーフ発見 隠れマルコフモデル カーネル法 進化系統樹推定 • 9月7日 – – – – タンパク質立体構造予測 相互作用推定 スケールフリーネットワーク 実習2(構造予測) 分子生物学概観 • • • • 生物の特徴 DNAとRNA セントラルドグマ タンパク質 生物の特徴 • 自己増殖 – 子孫を増やす • 恒常性維持 – 生体の内部や外部の変化にかかわらず、生体内 の状態を一定に保つ • エネルギー変換 – 食べ物、酸素などの物質を取り入れ、生体を構 成する物質やエネルギーに変える • 細胞をもつ DNA • • • • DNA (デオキシリボ核酸、 Deoxyribo Nucleic Acid) 鎖状の構造 糖(デオキシリボース)がリン酸によりつながれる 塩基(base)とよばれる部分構造の違いにより4種類 A (アデニン、Adenine) C (シトシン、Cytosine) G (グアニン、Guanine) T (チミン、Thymine) • 通常は、逆方向の関係にある2本の鎖がらせん状に 結合した二重らせん構造をとる 相補鎖・相補性 • 相補鎖 – 二重らせん構造の片方の鎖に対するもう1本の鎖 • 相補性 – A と T, C と G のみが結合(相補対のみが結合) • ハイブリダイゼーション – 相補的な1本鎖が結合して2本鎖ができること ⇒ DNAの複製が可能 ゲノム • ゲノム(genome) – ある生物のもつ全遺伝情報のことであり、もともとは抽象的な概念 – 実際には、遺伝情報を担う、ひと揃いのDNA配列を指すことが多い • DNA配列 – DNAをA, C, G, T の4種類の文字からなる文字列(配列)と解釈 • すでに数種類の真核生物、1000種類以上の原核生物のゲノ ム配列(DNA配列)が決定 大腸菌 分裂 酵母 線虫 ショウジョ ウバエ イネ マウス チンパン ジー ヒト ゲノム サイズ 500万 1400万 9600万 1億 1900万 3億 7100万 27億 3900万 28億 4300万 32億 5400万 遺伝子 数 4411 6224 23590 16867 6718 23459 21824 26808 2006年2月時点でのデータ RNA • RNA (リボ核酸、Ribo Nucleic Acid) • DNAとの違い – RNAの糖はデオキシリボースでなくリボース – T(チミン)のかわりにU(ウラシル, Uracil)を使用 – 通常は1本鎖の状態で(折り畳まって)存在 • RNAの種類(一部) – mRNA(メッセンジャーRNA):DNAに記されている配列情報が写し取 られた結果として合成される – rRNA(リボソームRNA):タンパク質合成が行われるリボソームの主 要構成因子 – tRNA(トランスファーRNA):タンパク質合成の際にアミノ酸をリボソー ムに輸送 • 非コードRNA(タンパク質に翻訳されないRNA) – 重要な機能を担っているものが数多く存在(との報告) • RNAゲノムを持つウィルスが存在 遺伝子とセントラルドグマ • 遺伝子 – DNA配列中でタンパク 質に翻訳される部分 – ただし、もともとは遺伝 情報の基本単位という 抽象的な概念 • セントラルドグマ エキソン エキソン 転写制御領域 (プロモーターなど) 転写 ・ スプライシング mRNA GGU – 例外:逆転写酵素ではRNAから DNAへ情報が伝わる GCA 翻訳 – 遺伝情報は、 DNA⇒RNA⇒タンパク質 と伝わり発現 – DNAに書かれた配列情報 が、メッセンジャーRNAに 転写され、さらに、その情報 がタンパク質に翻訳される ことにより発現 エキソン GGU → Gly GCA → Ala タンパク質 DNA 遺伝子の発現 • エキソン – 遺伝子中でタンパク 質に翻訳される部 分 • イントロン – 遺伝子中でタンパク 質に翻訳されない 部分 • 転写制御領域(プロ モータ、エンハン サー) – 遺伝子のオンオフ (mRNAの生成量) を制御する領域 エキソン エキソン 転写制御領域 (プロモーターなど) エキソン 転写 ・ スプライシング mRNA GGU GCA 翻訳 GGU → Gly GCA → Ala タンパク質 DNA タンパク質の種類と役割 • 酵素:代謝反応(生体内化学反応)の触媒 • 細胞、器官、筋肉などを形成する主要構成 要素 • 生体内の情報伝達物質 (e.g., シグナル伝達) • 遺伝子発現の制御 (転写因子) • 抗体:抗原に特異的に結合 し、免疫の一部を担う • 栄養の貯蔵や輸送に関与 タンパク質とアミノ酸 • 構造 – 数十から数百個のアミノ酸の鎖(1本鎖) – 20文字からなる文字列(アミノ酸配列、タンパク質配列)と解釈できる 1文字 記号 3文字 記号 名称 1文字 記号 3文字 記号 名称 A Ala アラニン M Met メチオニン C Cys システイン N Asn アスパラギン D Asp アスパラギン酸 P Pro プロリン E Glu グルタミン酸 Q Gln グルタミン F Phe フェニルアラニン R Arg アルギニン G Gly グリシン S Ser セリン H His ヒスチジン T Thr トレオニン I Ile イソロイシン V Val バリン K Lys リジン W Trp トリプトファン L Leu ロイシン Y Tyr チロシン アミノ酸 アミノ酸 • タンパク質の構成 単位 • タンパク質はアミ ノ酸がペプチド結 合でつながった鎖 • 側鎖の違いにより 20種類のアミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニル アラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラ ギン酸 CH 2 O C - His ヒス チジン Cys シス テイン HN SH + NH CH 2 CH 2 CH 2 Gly グリシン H 遺伝暗号表 • DNA3文字が アミノ酸1文字 に対応 • 同じアミノ酸に 複数のDNA3 文字が対応す るものが多い コード表 2文字目 T TTT TTC T 1 文 字 目 C A TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG G GTT GTC GTA GTG C F L L I M V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG A S P T A TAT TAC TAA TAG G Y stop CAT CAC H CAA CAG TGT TGC TGA TGG C stop W Q CGT CGC CGA CGG R AAT AAC N AGT AGC S AAA AAG K AGA AGG R GAT GAC D GAA GAG E GGT GGC GGA GGG G アミノ酸の性質 • 疎水性(極性(電荷の偏り)を持たない) – アラニン(A)、バリン(V)、フェニルアラニン(F)、プロリ ン(P)、メチオニン(M)、イソロイシン(I)、ロイシン(L)、 トリプトファン(W) • 親水性(極性を持つ) – 電荷を持たない – アスパラギン(N)、システイン(C)、グルタミン(Q)、セリ ン(S)、トレオニン(T)、チロシン(Y)、グリシン(G) – 電荷を持つ • 酸性 – アスパラギン酸(D)、グルタミン酸(E) • 塩基性 – アルギニン(R)、ヒスチジン(H)、リジン(K) • • グリシンは疎水性に分類されることもある トリプトファンは親水性(電荷を持たない)に分類されることもある タンパク質の種類と高次構造 • タンパク質の分類 – 球状タンパク質 – 繊維状タンパク質 – 膜タンパク質 • タンパク質の立体構造は機能と密接に関連 – 構造が類似ならば機能も類似 • 高次構造の分類 – 一次構造(アミノ酸配列) – 二次構造(α、β、それ以外(ループ、コイル)) – 三次構造(三次元構造、立体構造) – 四次構造(複数の鎖) タンパク質立体構造の特徴 • 基本的には鎖(ひも)状 • 二種類の特徴的な構造(二次構造)が頻繁に現れ、立体構 造の骨格(コア)を作る – αへリックス(らせん状の部分) – βシート(ひも状の部分が並んだ部分) 構造とアミノ酸の種類の関係 • (球状)タンパク質 – 内側:疎水性アミノ酸 外側:親水性アミノ酸 • αへリックス – 内側:疎水性 外側:親水性 • βストランド – 疎水性と親水性が交互に現れる • ループ領域 – 親水性が高い まとめ • DNAは A, C, G, T、 RNAは A, C, G, U、タンパク質 は20種類の文字からなる文字列と解釈できる • セントラルドグマ – DNAに書かれた遺伝情報は以下のようにして発現 DNA⇒転写⇒mRNA ⇒翻訳⇒タンパク質 • タンパク質: 様々な種類があり、細胞の構成要素、 代謝反応の触媒、情報伝達などの機能を持つ。また、 DNAの一部の領域と結合することにより、タンパク質 の生成量(遺伝子の発現量)を制御 • タンパク質立体構造: 機能と密接に関連し、αへリッ クス、βシートとよばれる特徴的な部分構造が立体構 造の骨格を形成 • 参考文献: 中村桂子、松原謙一監訳:細胞の分子生物学 第4版、Newton Press, 2004. 奈良女子大集中講義 バイオインフォマティクス (2) 分子生物学データベース 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 講義予定 • 9月5日 – – – – 分子生物学概観 分子生物学データベース 配列アラインメント 実習1(データベース検索と配列アラインメント) • 9月6日 – – – – モチーフ発見 隠れマルコフモデル カーネル法 進化系統樹推定 • 9月7日 – – – – タンパク質立体構造予測 相互作用推定 スケールフリーネットワーク 実習2(構造予測) 分子生物学データベース • DNA配列、タンパク質立体構造などの分子生物学 関連データは膨大 ⇒ データベースの作成の必要性 • データベースのほとんどは公開され、 インターネッ トを通じて(アカデミックであれば)無料で利用可能 • 基本的にはすべてのデータはフラットファイル形式で 記載(ただし、XMLなどに移行しつつある) • キーワードや類似配列などによる検索機能を提供 • 大きく2種類に分かれる(ただし、境界はあいまい) – 1次データ(生データ)を格納するDB – 2次データ(解析結果)を格納するDB 分子生物学データベースの例 主なデータ 名称 アドレス DNA配列 GenBank www.ncbi.nlm.nih.gov DNA配列 EMBL www.ebi.ac.jp DNA配列 DDBJ www.ddbj.nig.ac.jp タンパク質配列 UniProt www.ebi.ac.jp タンパク質立体構造 PDB www.rcsb.org 化合物 PubChem pubchem.ncbi.nlm.nih.gov 化合物 LIGAND www.genome.jp/ligand 文献 MEDILINE www.nlm.nih.gov モチーフ PROSITE www.expasy.org/prosite モチーフ Pfam pfam.wustl.edu タンパク質配列分類 COG www.ncbi.nlm.nih.gov/COG 立体構造分類 SCOP scop.mrc-lmb.cam.ac.uk/scop 代謝ネットワーク KEGG www.genome.jp/kegg タンパク質相互作用 DIP dip.doe-mbi.ucla.edu
© Copyright 2025 ExpyDoc