奈良女子大集中講義 - Kyoto University Bioinformatics

奈良女子大集中講義
バイオインフォマティクス (1)
分子生物学概観
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定
• 9月5日
–
–
–
–
分子生物学概観
分子生物学データベース
配列アラインメント
実習1(データベース検索と配列アラインメント)
• 9月6日
–
–
–
–
モチーフ発見
隠れマルコフモデル
カーネル法
進化系統樹推定
• 9月7日
–
–
–
–
タンパク質立体構造予測
相互作用推定
スケールフリーネットワーク
実習2(構造予測)
分子生物学概観
•
•
•
•
生物の特徴
DNAとRNA
セントラルドグマ
タンパク質
生物の特徴
• 自己増殖
– 子孫を増やす
• 恒常性維持
– 生体の内部や外部の変化にかかわらず、生体内
の状態を一定に保つ
• エネルギー変換
– 食べ物、酸素などの物質を取り入れ、生体を構
成する物質やエネルギーに変える
• 細胞をもつ
DNA
•
•
•
•
DNA (デオキシリボ核酸、 Deoxyribo Nucleic Acid)
鎖状の構造
糖(デオキシリボース)がリン酸によりつながれる
塩基(base)とよばれる部分構造の違いにより4種類
A (アデニン、Adenine)
C (シトシン、Cytosine)
G (グアニン、Guanine)
T (チミン、Thymine)
• 通常は、逆方向の関係にある2本の鎖がらせん状に
結合した二重らせん構造をとる
相補鎖・相補性
• 相補鎖
– 二重らせん構造の片方の鎖に対するもう1本の鎖
• 相補性
– A と T, C と G のみが結合(相補対のみが結合)
• ハイブリダイゼーション
– 相補的な1本鎖が結合して2本鎖ができること ⇒ DNAの複製が可能
ゲノム
• ゲノム(genome)
– ある生物のもつ全遺伝情報のことであり、もともとは抽象的な概念
– 実際には、遺伝情報を担う、ひと揃いのDNA配列を指すことが多い
• DNA配列
– DNAをA, C, G, T の4種類の文字からなる文字列(配列)と解釈
• すでに数種類の真核生物、1000種類以上の原核生物のゲノ
ム配列(DNA配列)が決定
大腸菌
分裂
酵母
線虫
ショウジョ
ウバエ
イネ
マウス
チンパン
ジー
ヒト
ゲノム
サイズ
500万
1400万
9600万
1億
1900万
3億
7100万
27億
3900万
28億
4300万
32億
5400万
遺伝子
数
4411
6224
23590
16867
6718
23459
21824
26808
2006年2月時点でのデータ
RNA
• RNA (リボ核酸、Ribo Nucleic Acid)
• DNAとの違い
– RNAの糖はデオキシリボースでなくリボース
– T(チミン)のかわりにU(ウラシル, Uracil)を使用
– 通常は1本鎖の状態で(折り畳まって)存在
• RNAの種類(一部)
– mRNA(メッセンジャーRNA):DNAに記されている配列情報が写し取
られた結果として合成される
– rRNA(リボソームRNA):タンパク質合成が行われるリボソームの主
要構成因子
– tRNA(トランスファーRNA):タンパク質合成の際にアミノ酸をリボソー
ムに輸送
• 非コードRNA(タンパク質に翻訳されないRNA)
– 重要な機能を担っているものが数多く存在(との報告)
• RNAゲノムを持つウィルスが存在
遺伝子とセントラルドグマ
• 遺伝子
– DNA配列中でタンパク
質に翻訳される部分
– ただし、もともとは遺伝
情報の基本単位という
抽象的な概念
• セントラルドグマ
エキソン
エキソン
転写制御領域
(プロモーターなど)
転写 ・
スプライシング
mRNA
GGU
–
例外:逆転写酵素ではRNAから
DNAへ情報が伝わる
GCA
翻訳
– 遺伝情報は、
DNA⇒RNA⇒タンパク質
と伝わり発現
– DNAに書かれた配列情報
が、メッセンジャーRNAに
転写され、さらに、その情報
がタンパク質に翻訳される
ことにより発現
エキソン
GGU → Gly
GCA → Ala
タンパク質
DNA
遺伝子の発現
• エキソン
– 遺伝子中でタンパク
質に翻訳される部
分
• イントロン
– 遺伝子中でタンパク
質に翻訳されない
部分
• 転写制御領域(プロ
モータ、エンハン
サー)
– 遺伝子のオンオフ
(mRNAの生成量)
を制御する領域
エキソン
エキソン
転写制御領域
(プロモーターなど)
エキソン
転写 ・
スプライシング
mRNA
GGU
GCA
翻訳
GGU → Gly
GCA → Ala
タンパク質
DNA
タンパク質の種類と役割
• 酵素:代謝反応(生体内化学反応)の触媒
• 細胞、器官、筋肉などを形成する主要構成
要素
• 生体内の情報伝達物質
(e.g., シグナル伝達)
• 遺伝子発現の制御
(転写因子)
• 抗体:抗原に特異的に結合
し、免疫の一部を担う
• 栄養の貯蔵や輸送に関与
タンパク質とアミノ酸
• 構造
– 数十から数百個のアミノ酸の鎖(1本鎖)
– 20文字からなる文字列(アミノ酸配列、タンパク質配列)と解釈できる
1文字
記号
3文字
記号
名称
1文字
記号
3文字
記号
名称
A
Ala
アラニン
M
Met
メチオニン
C
Cys
システイン
N
Asn
アスパラギン
D
Asp
アスパラギン酸
P
Pro
プロリン
E
Glu
グルタミン酸
Q
Gln
グルタミン
F
Phe
フェニルアラニン
R
Arg
アルギニン
G
Gly
グリシン
S
Ser
セリン
H
His
ヒスチジン
T
Thr
トレオニン
I
Ile
イソロイシン
V
Val
バリン
K
Lys
リジン
W
Trp
トリプトファン
L
Leu
ロイシン
Y
Tyr
チロシン
アミノ酸
アミノ酸
• タンパク質の構成
単位
• タンパク質はアミ
ノ酸がペプチド結
合でつながった鎖
• 側鎖の違いにより
20種類のアミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
遺伝暗号表
• DNA3文字が
アミノ酸1文字
に対応
• 同じアミノ酸に
複数のDNA3
文字が対応す
るものが多い
コード表
2文字目
T
TTT
TTC
T
1
文
字
目
C
A
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
G
GTT
GTC
GTA
GTG
C
F
L
L
I
M
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
A
S
P
T
A
TAT
TAC
TAA
TAG
G
Y
stop
CAT
CAC
H
CAA
CAG
TGT
TGC
TGA
TGG
C
stop
W
Q
CGT
CGC
CGA
CGG
R
AAT
AAC
N
AGT
AGC
S
AAA
AAG
K
AGA
AGG
R
GAT
GAC
D
GAA
GAG
E
GGT
GGC
GGA
GGG
G
アミノ酸の性質
• 疎水性(極性(電荷の偏り)を持たない)
– アラニン(A)、バリン(V)、フェニルアラニン(F)、プロリ
ン(P)、メチオニン(M)、イソロイシン(I)、ロイシン(L)、
トリプトファン(W)
• 親水性(極性を持つ)
– 電荷を持たない
– アスパラギン(N)、システイン(C)、グルタミン(Q)、セリ
ン(S)、トレオニン(T)、チロシン(Y)、グリシン(G)
– 電荷を持つ
• 酸性
– アスパラギン酸(D)、グルタミン酸(E)
• 塩基性
– アルギニン(R)、ヒスチジン(H)、リジン(K)
•
•
グリシンは疎水性に分類されることもある
トリプトファンは親水性(電荷を持たない)に分類されることもある
タンパク質の種類と高次構造
• タンパク質の分類
– 球状タンパク質
– 繊維状タンパク質
– 膜タンパク質
• タンパク質の立体構造は機能と密接に関連
– 構造が類似ならば機能も類似
• 高次構造の分類
– 一次構造(アミノ酸配列)
– 二次構造(α、β、それ以外(ループ、コイル))
– 三次構造(三次元構造、立体構造)
– 四次構造(複数の鎖)
タンパク質立体構造の特徴
• 基本的には鎖(ひも)状
• 二種類の特徴的な構造(二次構造)が頻繁に現れ、立体構
造の骨格(コア)を作る
– αへリックス(らせん状の部分)
– βシート(ひも状の部分が並んだ部分)
構造とアミノ酸の種類の関係
• (球状)タンパク質
– 内側:疎水性アミノ酸 外側:親水性アミノ酸
• αへリックス
– 内側:疎水性 外側:親水性
• βストランド
– 疎水性と親水性が交互に現れる
• ループ領域
– 親水性が高い
まとめ
• DNAは A, C, G, T、 RNAは A, C, G, U、タンパク質
は20種類の文字からなる文字列と解釈できる
• セントラルドグマ
– DNAに書かれた遺伝情報は以下のようにして発現
DNA⇒転写⇒mRNA ⇒翻訳⇒タンパク質
• タンパク質: 様々な種類があり、細胞の構成要素、
代謝反応の触媒、情報伝達などの機能を持つ。また、
DNAの一部の領域と結合することにより、タンパク質
の生成量(遺伝子の発現量)を制御
• タンパク質立体構造: 機能と密接に関連し、αへリッ
クス、βシートとよばれる特徴的な部分構造が立体構
造の骨格を形成
•
参考文献: 中村桂子、松原謙一監訳:細胞の分子生物学 第4版、Newton Press, 2004.
奈良女子大集中講義
バイオインフォマティクス (2)
分子生物学データベース
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定
• 9月5日
–
–
–
–
分子生物学概観
分子生物学データベース
配列アラインメント
実習1(データベース検索と配列アラインメント)
• 9月6日
–
–
–
–
モチーフ発見
隠れマルコフモデル
カーネル法
進化系統樹推定
• 9月7日
–
–
–
–
タンパク質立体構造予測
相互作用推定
スケールフリーネットワーク
実習2(構造予測)
分子生物学データベース
• DNA配列、タンパク質立体構造などの分子生物学
関連データは膨大
⇒ データベースの作成の必要性
• データベースのほとんどは公開され、 インターネッ
トを通じて(アカデミックであれば)無料で利用可能
• 基本的にはすべてのデータはフラットファイル形式で
記載(ただし、XMLなどに移行しつつある)
• キーワードや類似配列などによる検索機能を提供
• 大きく2種類に分かれる(ただし、境界はあいまい)
– 1次データ(生データ)を格納するDB
– 2次データ(解析結果)を格納するDB
分子生物学データベースの例
主なデータ
名称
アドレス
DNA配列
GenBank
www.ncbi.nlm.nih.gov
DNA配列
EMBL
www.ebi.ac.jp
DNA配列
DDBJ
www.ddbj.nig.ac.jp
タンパク質配列
UniProt
www.ebi.ac.jp
タンパク質立体構造
PDB
www.rcsb.org
化合物
PubChem
pubchem.ncbi.nlm.nih.gov
化合物
LIGAND
www.genome.jp/ligand
文献
MEDILINE
www.nlm.nih.gov
モチーフ
PROSITE
www.expasy.org/prosite
モチーフ
Pfam
pfam.wustl.edu
タンパク質配列分類
COG
www.ncbi.nlm.nih.gov/COG
立体構造分類
SCOP
scop.mrc-lmb.cam.ac.uk/scop
代謝ネットワーク
KEGG
www.genome.jp/kegg
タンパク質相互作用
DIP
dip.doe-mbi.ucla.edu