確率文脈自由文法と
RNA二次構造予測
確率文脈自由文法
HMM(正規文法に相
当)の文脈自由文法へ
の拡張
構文解析アルゴリズム
U A U G C U C C G C A C G A
V
CYKアルゴリズム
C
学習アルゴリズム
RNA Sequence
U
内側外側アルゴリズ
ム
RNA配列アラインメント、
RNA二次構造予測へ
の応用
U
A
C
C
G
G
C
U
A
Secondary
Structure of
RNA
C
G
A
RNA二次構造予測問題(基本
バージョン)の定義
ベースペア B={{a,u},{g,c}}
RNA二次構造
スコア関数
M={(i,j)|1≤i<j≤n,{ai,aj}∈B}、かつ
i ≤h ≤j ≤k となる (ai,aj) ,(ah,ak) ∈M
は無い
μ(ai,aj)=1 if {ai,aj} ∈B
μ(ai,aj)=0 otherwise
最適RNA二次構造
Σ(i,j)∈M μ(ai,aj) が最大となるM
ベースペア
a
u
g
c
二次構造
agag cu
agag cu
RNA二次構造の表現
RNA二次構造予測のための
動的計画法アルゴリズム
入力配列:a=a1…an
アルゴリズム
S (i, j )
S (i 1, j 1) (ai, aj )
max
max{ S (i, k 1) S (k , j ) }
ik j
j-1
j
i+1
i
時間計算量
テーブルのサイズO(n2)
1個のS(i,j)の計算O(n)
⇒ O(n3)時間
i
k-1 k
j
確率文脈自由文法とRNA二次
構造の対応関係
文法規則
X→ε
X→a
X→u
X→g
X→c
X→YZ
X→ a Y u
X→ u Y a
X→ g Y c
X→ c Y g
スコア
Xのスコア
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
score(X)+score(Y)
score(Y)+1
score(Y)+1
score(Y)+1
score(Y)+1
文法における生成規則と
二次構造の対応
X→ a
X→ YZ
X→ a Y u
Y
a
Z
i
k-1 k
Y
j
a
u
進化系統樹構成法
OHP参照
タンパク質立体構造予測
神奈川科学技術アカデミー(KAST)講義資
料参照
遺伝子ネットワーク推定
発
現
量
ネットワーク
遺伝子発現量の時間変化
ACETYL-CoA
OXALOACETATE
推定
CIT2
MDH2
ACO1
MLS1
ISOCITRATE
時間
GLYOXYLATE
ICL1
発現データからの遺伝子ネットワークの推定
環境変化(熱ショック、
栄養状態)や発生、細
胞分裂時の遺伝子の
時系列データを観測
時系列データから遺
伝子の制御関係(ネッ
トワーク)を推定
解析にはクラスタリン
グが有効
ネットワークモデル・推定手法
ブーリアンネットワーク
微分方程式系(線形・非線形)
ニューロ型モデル
時系列解析
ベイジアンネットワーク
グラフィカルモデリング
ブーリアンネットワーク同定
ブーリアンネットワーク
遺伝子制御ネットワークのモデル
頂点⇔遺伝子、ブール関数⇔制御規則
ブーリアンネットワーク同定
入出力パターンから一意に同定
入次数が限定されていれば、O(log n)パター
ンから同定可能
ブーリアンネットワークの例
状態遷移表
A
B
時刻 t
C
A’ = B
B’ = A and C
C’ = not A
A B C
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1
時刻 t+1
A’
0
0
1
1
0
0
1
1
B’
0
0
0
0
0
1
0
1
C’
1
1
1
1
0
0
0
0
ブーリアンネットワークの同定
時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例
例に無矛盾なネットーワークが一意かを判定
例は発現パターンの変化に相当
時刻 t
A B C
1 0 0
0 1 0
0 1 1
時刻 t+1
A’
0
0
1
B’
0
1
0
C’
1
1
0
A’ = C
B’ = B and (not C)
C’ = not C
A’ = C
B’ = B xor C
C’ = not C
入次数
ネットワーク形状に制約が無い場合
⇒状態遷移表の全部の行( 2n )行が必要
入次数が定数 K 以下
⇒O(log n)行で十分
入次数=2
A
入次数=3
A
理論的結果
状態遷移表の中からランダムに選んだ
O(22 K (2K ) logn) 個の行が与え
1
られれば、確率 1 以上で
n
与えられた例に無矛盾な入次数限定の
ブーリアンネットワークが一意に定まる。
ブーリアンネットワーク同定に関する結果
少数の遺伝子の発現パターンのみが変化
⇒多くの発現パターンが必要 ( (n K ) )
多数の遺伝子の発現パターンが変化
⇒少ない発現パターンで十分 ( (log n) )
具体例
パターン数: 100億個 vs 数百個
バイオインフォマティクスの今後
の課題
細胞や生物のシミュレーション
タンパク質間相互作用、遺伝子間相互作
用の推定
個人差、種間の差の解析(配列の違いと
形質の違いの関係の解明)
医療、薬学への応用
レポート課題
以下のいずれかを選択し、A4用紙で3ページ以
上のレポートにして提出。なお、講義の感想や改
善すべき点などもあれば書いて欲しい。
講義で述べたアルゴリズムのいずれかを実装し、実
データに対して適用し、結果について考察せよ(プロ
グラムのソースコードを添付すること)。
5個以上の異なる種からの同じ種類のタンパク質デー
タ(アミノ酸配列)のマルチプルアラインメントおよび進
化系統樹を求め、さらに、結果について考察せよ。
提出先:数理科学研究院事務室
提出期限:12月10日
© Copyright 2026 ExpyDoc