形式言語とオートマトン 講義資料 ver.1.8 b(2013/4/24) 教科書 オートマトン 言語理論 計算論 Ⅰ (第2版) J.ホップクロフト・R.モトワニ・J.ウルマン 授業資料 http://thales.philos.k.hosei.ac.jp/automaton/ 何をする学問分野か? 次の1~3のための統一的な枠組み 1. 言語理論として: プログラミング言語、通信プロトコル、知識表現 2. 計算論として: 計算の限界、計算の量 3. オートマトンとして: アルゴリズムとその表現 他の科目との関係 • 計算量の理論(2年後期) • コンパイラ(3年前期) – 形式言語の応用分野 • コンパイラ演習(3年前期) – コンパイラ作成 • プログラミング言語理論・設計(3年後期) – プログラミング言語の基礎理論 学習の目標 • • • • オートマトンの概念を理解する(今日) 簡単なオートマトンが設計できる 正則表現が書ける 文法が表す言語が判る 以上に加えて、 • コンピュータに関する理論のトレーニング • 情報・計算システムについて語るためのリテ ラシー 例題 狼と山羊とキャベツをもった男が川の左岸から 右岸に舟で渡ろうとしている。 • 舟は小さいので3つのうち1つしか積めない。 • 男が見張っていないと… – 狼は山羊を食べる – 山羊はキャベツを食べる 3つの品物を右岸に運べるか? YESならどうやって?NOならなぜ? システムの記述 男M,狼W,山羊G,キャベツCを川の左右の岸に 応じてハイフン ー の左右に書く。 はじめ: MWGC ー 男が山羊を右岸に運ぶと、 WC ー MG と変わる。この状態が変化する様子を次のよう に表す g WC ー MG MWGC ー 可能な遷移すべてを図示 =状態遷移図 g MWGCー m WCーMG g MWCーG m w CーMWG w c c WーMGC 状態遷移図の性質 • 状態の数は有限 • 矢印(のラベル)の種類は有限 – (例の場合、g, m, w, c) • したがって図全体として有限 (有限状態系) • ゴールに至るラベルの列が答え (一通りとは限らない!) 例からわかったこと • 問題の答えは状態遷移図を描けば経路(の 存在)としてわかる。 • 与えられた手順(行為の列)が答えか否かは そのとおり状態遷移図をたどっていけるか否 かでわかる。(解か否かを認識できる) – 例: gmwwcgwmgは解か? 上のように状態遷移図を認識装置とみなしたも のを(有限)オートマトンという。 レポート問題1 白石○3つと黒石●2つを横一直線にならべる。 真ん中の石を左、右の端に移動させる操作l , r によって並べ替えることを考える。 ○○○●●から始めて、白黒の色の並びが左 右対称になるように並べ替えたい。 1. 操作回数が最小の手順は何か? 2. rlllrrlrrlは解か? 言語との関係 • 解となる記号列全体はどのような集合か? • 逆に、与えられた(有限とは限らない)集合の 要素だけを認識する方法は何か? – C言語の正しいプログラムかどうかは有限オート マトンで判定できるか否か? 記号列の集合=(形式)言語 言語とオートマトン 言語を認識するオートマトンは? オートマトンで 認識できる 言語の集合 有限オートマトン の集合 オートマトンが認識する言語は? 通信プロトコルへの応用 “RFC793” TCP接続状態遷移図 これからの内容 • 有限オートマトンと言語を取り扱うための数学 の準備 – 論理、集合、関係、グラフ、帰納法 • オートマトンと正則言語の等価性と変換方法 • オートマトンで認識できない言語 • もっと表現力豊かな言語~文法で表される言 語 数学的準備 • • • • • • • 記号列 集合 グラフ 帰納的定義 構造帰納法 論理 関係と関数 記号列 • 記号(symbol) ― 定義なしで用いる対象 • 記号列(string) ― 記号の有限個の並び. 語(word)ともいう。 例 a, b, cが記号のとき abbacは記号列 • 記号列w を構成する記号の数をw の長さといい |w|であらわす。 例 記号列w がabbacであるとき|w|=5 • 長さが0である(記号がひとつもない)記号列のこ とを e と書き、空語(empty word)と呼ぶ。 | e |=0 接頭語と接尾語 • 記号列w の先頭のいくつかの記号の並びからなる 語をw の接頭語(prefix)という。 w そのものと空語e もまた w の接頭語である。 例 abbはabbacの接頭語。 abcはabbacの接頭語ではない • 同様に、記号列w の末尾のいくつかの記号の並び からなる語をw の接尾語(postfix)という。 w そのも のと空語e もまた w の接尾語である。 • wの接頭語でwとは異なるものをw の真の(proper) 接尾語という 問 記号列abbacの接頭語をすべて挙げよ。 連接 • 2つの記号列u,v をこの順に繋げてできる新しい 記号列w をuとv の連接(concatenation)といいuv であらわす。 例 hot とdogの連接はhotdog (空白をあけてはいけない) 注:記号列wと空語の連接はw(eは連接の単位元) we = e w = w • 記号列wのn個の連接 ww … w をwnとかく w0 = e と定義する n個 言語 • 記号の有限集合をアルファベット(alphabet)と いう。 例 {a,b,…z}, {0,1}はそれぞれアルファベット • あるアルファベットに属する記号の列の集合 を言語(language)と呼ぶ。 注:空集合φもまたひとつの言語である。 {e }(空語1つだけからなる言語)と区別せよ • アルファベットSに属する記号のすべての列 の集合をS *とかく。 言語の例 - 回文 • 前から読んでも後ろから読んでも同じになる 言葉を回文(palindrome)という。 例 たけやぶやけた わたしまけましたわ • 語wの記号の順序を逆にしたwRであらわす。 • アルファベットS 上の回文とは、 S *の要素wでwR = wとなるもの。 S = {0,1}上の回文全体は言語である。 集合 • 集合(set) 特定の性質をもつものの集まり • x が集合A の要素(element)であることをx∈A 、そうでな いないことは x∈Aとかく / • 集合Bの要素がすべて集合Aに含まれるとき、 BはA の部分集合(subset)であるといい、B ⊆Aとかく。 • 「xについて命題Pが成り立つ」ことをP(x)とかく • P(x)となるx全体の集合を{x|P(x)} また集合Aの要素xでP(x)となるもの全体の集合を {x∈A |P(x)}のように書く。 例 {w∈S *| wR = w} S上の回文全体 • {f(x1,…, xn)|P(x1,…, xn)} P(x1,…, xn)となるx1,…, xn から つくられるf(x1,…, xn)全体の集合 集合に対する演算 AとBを集合とする A∪B={x | x∈A またはx∈B} (AとBの和, union) A-B={x | x∈A かつx∈B} / (AとBの差, difference) A∩B={x | x∈A かつx∈B} (AとBの共通部分, intersection) A×B ={(x, y)| x∈A, y∈B} (AとBの直積, Cartesian product) 2A ={X|X⊆A} ( Aのべき集合, power set ) 問 A ={1, 2}, B={2, 3}として上の集合を求めよ。 言語に対する演算 A,B,Cを言語とする AB={xy | x∈A, y∈B} (AとBの連接) ABC= A(BC) = (AB)C An = AA…A (n個, n>0) A0 ={e} A*= A0 ∪ A1 ∪…= ∞ ∪i=0 A i (Aの閉包) 問 A ={0, 1}, B={2}, C={2}として上の言語を求めよ。 グラフ • グラフGは頂点(vertexまたはnode)の有限集 合Vと頂点の対で表される辺(edge)の有限集 合Eの組であってG=(V,E)で表される。 例 V={1,2,3,4,5}, E={(1,3), (3,4), (2,5), (2,2)} のときグラフ(V,E)は 1 5 3 2 4 • グラフの頂点の列v1,v2,…vkが道(path)である とは(v1,v2),(v2,v3),…(vk-1,vk)が辺であること。 有向グラフ • 有向グラフはグラフの辺の向きを考慮したもので やはりG=(V,E)で表す。辺の代わりに有向辺(arc) といい、u→vのように書く。 • 有向グラフの頂点の列v1,v2,…,vkが道であるとは v1→v2, v2→v3,…vk-1→vkが有向辺であること。 問 有向グラフ({x∈N|0<x<5},{i→j | i<j}) を図示せ よ。 (Nは自然数の集合) • v1,v2,…,vkが(有向)グラフGの道であってv1=vkであ るとき、道v1,v2,…,vkは閉路(cycle)であるという。 レポート問題3 1. a,b,cを記号とする。記号列x,y,zをそれぞれabc, bb, abcab と す る と き 、 |xyz|,|xxx|,|xeyeze|,|xjykzl|はいくらか? 2. a,b,c,d を記号とし、A={a,b}, B={b,c,d}とする とき、 次の言語の要素を書き下せ。 ① AAB ② {w∈A* | |w| < 5} 3. V={0,1,2,3,4,5,6,7}, E={i→j | i, j ∈ V, j = i2%8 }と するとき、 G=〈 V, E 〉を図示せよ。 (m%nはmをnで割った余りを表す。) 帰納的定義(inductive definition) 例 自然数の定義 • 0は自然数 [基礎(base)] • 自然数nに1を加えたものn+1は自然数 [帰納ステップ(inductive step)] • 上のようにして得られたものだけが自然数 木の帰納的定義 • 基礎: 頂点1個だけで有向辺を持たない有向 グラフは木であり、その根はその唯一の頂点。 • 帰納ステップ:1個の頂点rと、( rを頂点とせ ず、また互いに頂点を共有しない)有限個の 木T1,…,Tkの根はr1,rkをk本の有向辺r→r1, …,r →rkで繋いで合成した有向グラフ Tree(T1,…,Tk)は木で根はr • 上のようにして構成した有向グラフだけが木 T0 Tree(T1,…,Tk) r r1 T1 r … ならば … rk Tk r1 … rk 帰納法 数学的帰納法: すべての自然数nに対して命題P(n)がなりたつことを 証明する方法 1. P(0)がなりたつ。 2. P(k)がなりたつと仮定すれば(帰納法の仮定)、 P(k+1)がなりたつ。 1,2から「すべての自然数nに対してP(n)がなりたつ」 ことが推論できる。 構造帰納法 • すべての木で「頂点の数は有向辺の数より1つ多い」こと を証明する。 木Tについて上の「…」が成り立つことをP(T)と書く。 木Tの頂点の数をn(T)、有向辺の数をe(T)と書く。 帰納法による証明 基礎: P(T0) (∵ n(T0)=1, e(T0)=0) 帰納ステップ: P(T1), P(T2), …, P(Tk) ならばP(Tree(T1,…,Tk)) (∵ e(Tree(T1,…,Tk))= e(T1) +…+ e(Tk) + k n(Tree(T1,…,Tk))= n(T1) +…+ n(Tk) + 1 = (e(T1) + 1) +…+ (e(Tk) + 1) + 1 (帰納法の仮定) = e(T1) +…+ e(Tk) + k+ 1 これらからすべての木Tに対してP(T)と推論してよい。 レポート問題4 S ={0,1}のとき、 言語Lを次のように帰納的に定義する 1. e, 01, 10 はLの要素 2. x, yがLの要素のとき、 xyはLの要素 Lの要素はすべて0と1の数が同じであることを 構造帰納法で示せ。 レポート問題5 Sをアルファベットとする言語Lを 次のように帰納的に定義する 1. e∈L 2. a∈S、x∈Lのとき、 axはLの要素 このとき、 L = S*であることを示せ。 (ヒント) L ⊆ S*は自明。逆を長さに関する帰 納法で示せ。 論理 ∀x.P(x) 「すべてのxについてP(x) 」 ∃x.P(x) 「あるxについてP(x) 」 あるいは、 ∀x∈A.P(x) 「Aのすべての要素xについてP(x)」 などと書く。 ∀を全称限量子(universal quantifier) ∃を存在限量子(existential quantifier)という。 関係 • 集合AとBの間の(2項)関係とは AとBの直積 A×Bの部分集合のこと。 • A上の関係、というときはAとAの間の関係 R⊆A2のことを指す。 • Rが集合AとBの間の関係であるとき、 (a, b)∈Rであることを、(記号Rを演算子のよう に用いて)aRbのように書く。 関数 集合AとBの間の関係 f は次の2条件を満たすとき AからBへの関数(写像)であるといい、f : A → Bと書く。 (存在) ∀x∈A.∃y∈B. xfy (唯一) ∀x∈A.∀y1∈B .∀ y2∈B . xfy1∧ xfy2 ⇒y1=y2 f : A → Bであるとき、 afbのかわりにf: a |→ bと書く。 afbとなるただ一つのb∈B をf (b)で表す。 集合Aをfの定義域、 Bをfの値域と呼ぶ。 関数f : A→Bは値域Bが明らかであるか、もしくは度外視する場合は 単にA上の関数という。 すすんだ用語: 関数f : A → Bにおいて、 集合X⊆Aに対して、{f (x)| x∈X} ⊆B をXのfによる像(image)といいf [X]で表す。 とくに定義域Aの像f [A]のことをIm(f)と書く。 (上の定義と異なり、Im(f)のことを値域と呼び、Bを終域と呼んで区別する立場もある。) 関数の定義から(存在)の条件を除いたものを部分関数(写像)と呼ぶ。 部分関数では{ x∈A | ∃y∈B. xfy }を定義域, Aを始域と呼んで区別する。 関数の帰納的定義 関数f :A → Bを集合(⊆A×B)として帰納的に定義するこ とをいう。 大抵の場合、Aの帰納的定義におけるAの要素の定義と同時にf によって対応づけられる値を定義するように変更すればよい。 例: 記号列に対してその長さを対応づける関数 f :S* → Nは次のように帰納的に定義される。 [基礎] (e∈S*であって、) f(e) = 0 [帰納ステップ] a∈S, x∈S* のとき、 (ax∈S*であって、) f(ax) = f(x)+1 レポート問題6 S ={0,1}のとき、 Sの語wを引数とし、2進数と 解釈したときの値を返す関数 j :S*→N を 帰納的に定義せよ。( 0以外で先頭の0は無 視し、 eに対する値は0とする。) (0以外に0から始まる語はない)正しい2進数お よびその値を定義するように上を修正せよ。 eも除外のこと。 有限オートマトン 決定性有限オートマトン(DFA)Mは次の5つ組 で定義される。 M=<Q, S, q0, d, F> Q : 状態(state)の有限集合 S : 入力アルファベット q0 : 開始状態(初期状態とも) (∈ Q ) d : Q×S → Q 遷移関数 d (q, a) =p は状態qのときaを読んだとき 次の状態がpであることを表す F : 最終状態(受理状態とも)の集合 (⊆ Q ) 遷移表 遷移関数を表で表したものを遷移表という。 0 1 → q0 q2 q0 * q1 q1 q1 q2 q2 q1 →は開始状態、*は最終状態を表す 上の遷移表が表す遷移関数を図で表せ。 遷移関数 d (q, a) =pを図で表す。 p a q 状態遷移図 0 q2 0 1 開始 q0 1 q1 0,1 オートマトンが受理する言語 DFAが受理する言語の直観的な説明 入力記号列を w=001001 とする 0 0 1 0 0 q2 1 0 q0 q2 q 2 q1 q1 q1 q1 0 開始 q0 1 q1 1 受理状態に導く語全体の集合を DFA Mの受理する言語と定義する。 0,1 遷移関数の拡張 入力記号列(の接頭語)を読んだときの状態を返 す関数dˆ: Q×S* → Qを次のように帰納的に定 義する。(☞入力記号列の長さに関する帰納法) (基礎) dˆ(q, e) =q (帰納ステップ) dˆ(q, xa) = d (dˆ(q, x), a) ただしa∈S, x∈S*とする。 拡張された遷移関数の計算 dˆ(q0, 001001) = d (dˆ(q0, 00100), 1) = d (d (dˆ(q0, 0010), 0), 1) = d (d (d (dˆ(q0, 001), 0), 0), 1) … = d (d (d (d (d (dˆ(q0, 0), 0), 1), 0), 0), 1) = d (d (d (d (d (d (dˆ(q0, e), 0), 0), 1), 0), 0), 1) = d (d (d (d (d (d (q0, 0), 0), 1), 0), 0), 1) = d (d (d (d (d (q2, 0), 1), 0), 0), 1) … = q1 受理言語の定義 DFA A=<Q, S, d, q0, F> が受理する言語L(A)は次で定義される。 L(A) ={w∈S*|dˆ(q0, w)∈F} (受理状態に導く入力記号列全体の集合) また言語Lは、あるDFA Aを用いてL = L(A) とかけるとき正則(regular)であるという。 正則な言語を正則言語(regular language)と呼ぶ 正則言語の例 接頭語01を持つ語(∈{0,1}*)全体の集合は正則 か? ヒント:定義より当該言語を受理する DFAが存在すれば正則。 q2 1 0 開始 0 q0 q1 0,1 1 q3 0,1 レポート問題7 次の言語を受理するDFAを設計せよ。 1. 0と1が交互に並ぶ語全体。ただし、e, 0,1も この言語の語であるものとする。 2. 1がちょうど3回現れる語全体 3. 2進数とみなせる列全体 4. (やや難)3で割り切れる2進数全体 正則言語の例その2 接尾語01を持つ語全体の集合は正則か? q2 0 1 開始 q0 q1 0,1 これはDFAではない! 非決定性 DFAを変更して同じ入力記号に対して(0個を含 む)複数の状態のいずれかに遷移可能にな るようにする。 このように変更された有限オートマトンを 非決定性有限オートマトン p (Nondeterministic FA, NFA)と呼ぶ。 a NFAの状態遷移図では 同一ラベルの辺が q a 複数出てよい。 r NFAの定義 DFAからの変更点は遷移関数dのみ d : Q×S → 2Q d(q, a) =P(⊆Q)は状態qでaを読んだとき 次の状態がPの任意の要素pになり得ること を表す。 言い換えれば、 d(q, a) は状態qでa読んだとき に遷移できる行き先全体の集合 NFAの例 M=<{q0, q1, q2}, {0, 1}, d, q0, {q2}> d q1 φ {q2} * q2 φ φ 1 開始 q0 1 {q0} → q0 q1 0 0 {q0 , q1} q2 0,1 NFAが受理する言語 直観的な説明 NFAは入力記号を読むたびに可能な遷移のう ちどれか1つを選んで遷移する。 うまく選んで、入力記号列を読み終わった直後 に受理状態に居るようにできればその入力は 受理される。 受理される記号列全体の集合をそのNFAの 受理する言語という。 NFAが受理する言語の例 末尾が01であるような語全体を受理するNFA q2 0 1 開始 q0 q1 0,1 このNFAがw=1001を受理することを確かめよ。 遷移関数の拡張(NFA版) 入力記号列(の接頭語)を読んだときの状態を返 す関数dˆ: Q×S* → 2Qを次のように帰納的に定 義する。(☞入力記号列の長さに関する帰納法) (基礎) dˆ(q, e) ={q} (帰納ステップ) dˆ(q, xa) = ただしa∈S, x∈S*とする。 ∪ d (p, a) p∈dˆ(q, x) 拡張された遷移関数の意味 # # Q Q d : 2 ×S → 2 を d (P, a) =∪ d (p, a) p∈P で定義すると、(帰納ステップ)の右辺は ∪ d (p, a) = d#(dˆ(q, x), a) p∈dˆ(q, x) のように書ける。 問1 DFA版のものと比較せよ。 問2 dˆ(q, x)={p1, …, pn}のとき上の式をp1, …, pnを用いて表せ。 NFAが受理する言語 厳密な定義 NFA A=<Q, S, d, q0, F> が受理する言語L(A)は次で定義される。 L(A) ={w∈S*|dˆ(q0, w)∩F≠φ} 平たく言えば… dˆ(q0, w)は、 wを読んで行ける状態全ての集合。 L(A)は「各ステップで遷移先をうまく選べば受理状 態に行ける入力記号列全体の集合」 問 例のNFAについてdˆ(q0, 1001)∩F≠φを確か めよ NFAとDFAの等価性 • オートマトンの2つのクラスは片方のクラスに 属すオートマトンの受理言語が他方に属す オートマトンでも受理できるとき、等価である、 という。 以下でNFAとDFAが等価であること を示す。 DFA NFA MD L(MN)=L(MD ) MN サブセット構成 サブセット構成(subset construction): NFA N=<QN, S, dN, q0, FN>が与えられたとき L(N) を受理するDFA D=<QD, S, dD, {q0}, FD> を次のようにして構成する。 QDはQNの部分集合全体( QNのべき集合) FDはQNの部分集合SでS∩FN≠φを満たすもの 全体の集合 S (⊆QN)とa∈Sに対して、 dD(S, a)=∪ dN (p, a) p∈S サブセット構成の例題 次を繰り返す。 1. 左欄が空でない行について表を埋める 2. 左欄にない集合が出たら左欄に追加 →{q0} 0 {q0, q1} 1 開始 0 q0 q1 1 q2 0,1 サブセット構成で得られる遷移図 • ノードのラベル(名前)として集合を使うと構成 過程がわかりやすいが最終的には必要ない。 • ラベルを通常の記号に付け替えて遷移図を 完成せよ。 サブセット構成の正当性 サブセット構成によってNFA N=<QN, S, dN, q0, FN>から DFA D=<QD, S, dD, {q0}, FD>を構成したとき L(D) =L(N)が成り立つ。 [証明] dˆD ({q0},w) = dˆN (q0, w) を示す |w|に関する帰納法: (基礎) dˆD({q0},e) = dˆN(q0, e) = {q0} (帰納) dˆD({q0},xa) = dD (dˆD({q0}, x), a) ( dˆDの定義) = dD (dˆN(q0, x), a) (帰納法の仮定) =∪ dN(p, a) p∈dˆN(q0, x) = dˆN (q0, w) (dDのサブセット構成) ˆNの定義) (d 等価性 • 言語LがあるDFAで受理されるための必要十 分条件はLがあるNFAで受理されること。 [証明]あるDFAで受理⇒あるNFAで受理 だけ言えばよい。次のようにd Dからd Nを構成 dD (q,a) =p のときd N (q,a) = {p} 問い 受理状態について確認せよ。 NFAの拡張:e 動作 +-符号つき10進数(整数)を受理するNFA 開始 1, …, 9 +,- 0, 1, …, 9 0 符号がない場合もあるとすると 1, …, 9 開始 +,- 1, …, 9 0 これをもっと簡単に書きたい。 0 0, 1, …, 9 e 動作を含むNFA e 動作を含むNFA(e -NFA) A=<Q, S, q0, d, F> はNFAの遷移関数を次のように変更して定義 される。 変更前 d : Q×S → 2Q 変更後 d : Q×(S∪{e }) → 2Q 遷移図では が許される。 e この図が表す遷移をe -遷移という。 e -NFAの例 符号がない場合もありうる+-符号つき10進 数(整数)を受理するe -NFA 開始 +, -, e 1, …, 9 0 0, 1, …, 9 遷移関数を拡張するための準備 q∈Qのe-閉包(e -closure) ECLOSE(q)⊆Qを 次のように帰納的に定義する。 基礎: q∈ECLOSE(q) 帰納: p∈ECLOSE(q)かつr∈d (p, e)ならば r∈ECLOSE(q) ECLOSE(q)はqからe -遷移だけをたどって到達でき る状態すべての集合である。 e-閉包の例 e e 2 e 3 6 1 e b 4 5 a ECLOSE(1)={1,2,3,4,6} ECLOSE(2)={2,3,6} ECLOSE(4)={4} e 7 遷移関数の拡張(e -NFA版) dˆ: Q×S* → 2Qを次のように帰納的に定義する (基礎) dˆ(q, e) = ECLOSE(q) (帰納ステップ) dˆ(q, xa) = ∪ ECLOSE(r) r∈∪d (p, a) ˆ p∈d (q, x) ただしa∈S, x∈S*とする。 上の定義でたとえば dˆ(q, x)={p1, …, pk},∪ki=1d(pi,a)={r1,…,rm} とすると、帰納ステップの右辺は∪mj=1ECLOSE(rj) (参考) 見通しをよくする記法 # NFAのときと同様にd : 2Q×(S∪{e}) → 2Q を # d (P, a) =∪ d (p, a) p∈P と定義し、さらに、 # ECLOSE (R)=∪ECLOSE(r) r∈R のように書くことにすると、帰納ステップの右辺は ECLOSE#(d#(d(q, x), a)) e -NFAの受理する言語 e -NFA A=<Q, S, d, q0, F>が受理する言語は L(A) ={w∈S*|dˆ(q0, w)∩F≠φ} で定義される。 (e無しの)NFAとの相違点はdˆがe -NFA版の 拡張された遷移関数dˆ: Q×(S∪{e })*→ 2Q である点のみ。 e -NFAとDFAの等価性 e -NFA E=<QE, S, dE, q0, FE>が与えられたとき, Eが受理する言語L(E) と同じ言語を受理するDFA D=<QD, S, dD, qD, FD>を次のようにして構成する。 QDはQEの部分集合SのうちS=∪ECLOSE(p)なるもの全体 p∈S qD=ECLOSE(q0) FDはQEの部分集合SでS∩FE≠φを満たすもの全体の集合 S (⊆QE)とa∈Sに対して、 ∪ dD(S, a)= ECLOSE(r) r∈∪ dE(p, a) p∈S (Sの要素から出発してaで遷移した後,e-遷移だ けで到達できる状態全体の集合) (参考)問 前ページの記法で右辺を書き直せ。 e -NFAとDFAの等価性 (1/2) e -NFA E=<QE, S, dE, q0, FE>から前頁にしたがって DFA D=<QD, S, dD, ECLOSE(q0), FD>を構成したとき L(D) =L(E)が成り立つ。 [証明] dˆD (ECLOSE(q0),w) = dˆE (q0, w) を示す |w|に関する帰納法: (基礎) dˆD(ECLOSE(q0),e) = dˆE(q0, e) = ECLOSE(q0) (帰納) dˆD(ECLOSE(q0),xa) = dD (dˆD(ECLOSE(q0), x), a) = dD (dˆE(q0, x), a) (帰納法の仮定) ∪ECLOSE( ) = r r∈∪ dE(p, a) (dDの構成) p∈dˆE(q0, x) = dˆE (q0, xa) ˆEの定義) (d e -NFAとDFAの等価性 (2/2) DFA D=<Q, S, dD, q0, F>に対して同じ言語を受 理するe -NFA Eが存在する。 [証明] E=<Q, S, dE, q0, F>ただし dE(q, a) = {dD(q, a)} (a∈S) dE(q, e) = φ とすればよい。 e -NFAからDFAを構成する方法 NFAから構成する方法(サブセット構成)で得ら れる遷移先集合の各要素のe -閉包の和集合 を遷移表エントリとして表を埋めていく。 a d(p1, a)∪…∪d(pk, a) ECLOSE(q0) … … … … … {p1, …, pk} {s1, …, sn} ={r1, …, rm} ECLOSE(r1)∪… ∪ECLOSE(rm) ={s1, …, sn} e -NFA→DFA構成の例 下のe -NFAと等価なDFAを求めよ。 1 1, e 0 1 開始 0 0 1 1, e 2 1 オートマトンの利用法:字句認識 符号つきの整数および小数を認識するe -NFA (0から始まる整数は0だけ。符号なしも可) 問 入力ファイルが上記の数を含むか否かを調 べるCプログラムを作成せよ。 正則表現 正則表現(または正規表現ともいう。regular expression, RegExp)はオートマトンが受理す る言語を簡便に表す方法(一種の言語)であ り、以下の性質をもつ。(証明はあとで。) 1. オートマトンが受理する言語はすべて正則表 現で表すことができる。 2. 逆に、正則表現で表した言語はオートマトン で受理することができる。 以下で正則表現Eの表す言語をL(E)と書く。 正則表現の定義 正則表現とその表す言語は次のように帰納的に定義される。 基礎: 1. 定数e, φは正則表現で、L(e)={e}, L(φ)=φ 2. aが記号のとき、aは正則表現でL(a)={a} 帰納: 1. E, Fが正則表現のとき、E+Fは正則表現で L(E+F)=L(E)∪L(F) 2. E, Fが正則表現のとき、EFは正則表現で L(EF)=L(E)L(F) 3. Eが正則表現のとき、E*は正則表現でL(E*)=L(E)* 4. Eが正則表現のとき、(E)は正則表現でL((E))=L(E) 演算子の結合順位 帰納的定義に現れる演算子の結合は *, 連接, + の順に強い。例えば、 L(E+FG*) = L(E+(F(G*))) = L(E)∪L(F)L(G)* 注:集合および言語の演算子の結合順位は上から強い順に、 1. *, べき 2. 連接 3. ∪, ∩, - 正則表現定義の早見表 正則表現 E e φ a E+F EF E* (E) L(E) {e} φ {a} L(E)∪L(F) L(E)L(F) L(E)* L(E) 演算子の結合は上から弱い順 (+が最も弱く、 * が最も強い。) 正則表現が表す言語の例 01*+1が表す言語 L(01*+1)=L(01*)∪L(1) =L(0)L(1*)∪L(1) =L(0)L(1)*∪L(1) ={0}{1}*∪{1} ={0}{e,1,11,111,…}∪{1} ={0,01,011,0111,…}∪{1} 「1個の0の後に1だけが0個以上続く語および1」 レポート問題8 次の条件を満たす語全体からなる言語をそれぞ れ正則表現で表せ。(S={0,1}) • • • • 0がちょうど3回現れる。 条件なし。(すべての語) 0が3回以上現れる。 同じ記号が3つ以上連続しない。 正則表現の略記法 E? = e + E (0回か1回) 問 前頁の正則表現を略記法で書け。 有限オートマトンと正則表現の等価性 有限オートマトンが受理する言語のクラスと正 則表現で表わされる言語のクラスは等しい。 クラスAの任意の言語がクラスBに属すことを A B のように記すと、 e-NFA NFA RegExp DFA DFAが受理する言語は正則表現で表される (証明)DFA Aの状態を{1, 2, …, n}とする。 kより大きい状態を経由せずに状態iから状態jに至る経路 に沿ってラベルをつなげたもの全体を表す正規表現 Rij(k)は次のように帰納的に定義できる。(経路の両端 ijはkを越えてもよい。) [基礎] (i≠jの場合) 1. 2. 3. Rij(0)=f (辺i→jがないとき) Rij(0)=a (辺i→jはaをラベルとするものだけ) Rij(0)=a1+a2+…+am(辺i→jのラベルはa1, …, am) (i=jの場合) 1. 2. 3. Rij(0)=e (辺i→iがないとき) Rij(0)=e+a (辺i→iはaをラベルとするものだけ) Rij(0)=e+a1+a2+…+am(辺i→jのラベルはa1, …, am) (証明つづき) [帰納] Rij(k)=Rij(k-1)+Rik(k-1)(Rkk(k-1))*Rkj(k-1) Rik(k-1) i Rkk(k-1) k Rkj(k-1) … k j Rij(k-1) これをもちいて、受理言語を表す正則表現は R1f1(n)+…+R1fp(n) と書ける。ただし{ f1, …, fp}は受理状態の集合 状態消去法(1/3) R11 q1 Q1 ..... ..... S p1 R1m P1 s Pm Qk qk Rkm pm Rk1 状態消去法(2/3) q1 R11+Q1S*P1 ..... ..... Rk1+QkS*P1 qk p1 R1m+Q1S*Pm Rkm+QkS*Pm pm 状態消去法(3/3) すべての受理状態qについてqと開始状態以外 を消去する。 R S U 開始 (R+SU*T)*SU* T 開始 R R* 得られた正規表現をすべて+でつなぐ。 状態消去法の適用例 次のDFAが受理する言語を正則表現で表せ。 3 0 開始 1 1 1 0 1 4 1 2 0 0 3 0 1 1 1 0 0 1 1 1 4 1 1 1 2 2 3 0 1 0 10*1 1 3 0 10*1 10*1 0 0 1 1 4 1 10*1 3 z=10*1 z 3 0 0 z 1 1 0 4 1 4 0 3 z 3 0 1 z+01 0 3 01 00 3 (z+0(00)*(z+01))*0(00)* 1 00 1 3 z 3 0 1 z 1 0 0 1 0 3 1 4 4 z+0z 1 00 00 1+0z 4 1 0 4 1 0z 00 0z 4 (z+0z+00(00)*(1+0z))*00(00)* 0 z 00 4 z=10*1, y=0(00)*として以上をまとめると、 (z+y(z+01))*y+(z+0z+0y(1+0z))*0y McNaughton-Yamadaの構成法(1/2) 正則表現からe-NFAを構成する方法 N(R) – 正則表現Rがあらわす言語を受理し、 – 受理状態が一つだけで、開始状態へ入る辺、最 終状態から出る辺がないもの。 N(R) McNaughton-Yamadaの構成法(2/2) N(R)の帰納的定義 4. N(R+S) 1. N(f) e e 2. N(e) e N(S) e N(R) e 5. N(RS) N(R) 3. N(a) e N(R) e N(S) e a 6. N(R*) e e 山田先生の業績 • McNaughton-Yamada construction(1960) – オートマトン理論の基礎理論 • Real-Time computation(1962) – 計算量理論を創始 • Tessellation automata(1971) – セル構造オートマトン初期の研究 • T-code (1980’s) – 無連想打鍵方式による日本語入力の発明 山田 尚勇 (1930-2008) 適用例 (10+01)* であらわされる言語を受理するe-NFA を構成せよ。 正則表現の応用1:字句解析生成系 lex, flex delim ws letter digit id number %% {ws} if then else {id} {number} [ \t] {delim}+ [A-Za-z] [0-9] {letter}({letter}|{digit})* {digit}+(\.{digit}+)?(E[+|-]?{digit}+)? {} {return(IF);} {return(THEN);} {return(ELSE);} {yylval=install_id();return(ID);} { sscanf(yytext,"%d",&yylval);retur n(NUM);} "<" {yylval=LT;return(RELOP);} "<=" {yylval=LE;return(RELOP);} "=" {yylval=EQ;return(RELOP);} "<>" {yylval=NE;return(RELOP);} ">" {yylval=GT;return(RELOP);} ">=" {yylval=GE;return(RELOP);} %% int install_id(){ /* 変数名を記号表に登録して表のエントリへの ポインタを返す */ /* ここにコードを書け */ /* 注)この関数が呼び出されたとき、 字句の先頭はyytext、字句の長さは yyleng に入っている。 (ここではこの変数で参照できる。) number {digit}+(\.{digit}+)?(E[+|-]?{digit}+)? number {digit}+ */ return 0; } int install_num(){ sscanf(yytext,"%d",&yylval); } 正則表現の応用2:検索コマンド egrep ‘正則表現’ ファイル名 % egrep ‘yy+|return’ foo.l 正則言語の性質 1. 言語が正則でないことの証明方法:反復補題 2. 最小のオートマトン:Myhill-Nerodeの定理 正則言語でないこと L01={0n1n| n≧1} L01が状態数kのDFA Aで受理されると仮定する。 入力が0n1n (n>k) のとき、n個の0を読むうちに2 度訪れる状態が少なくとも1つある。(i個目とj 個目とする。i≠j) 0i1iと0j1iを考える。0iを読み終えた状態と0jを読 み終えた状態は同じなのでその後の入力1i が同じなら到達する状態も同じ。これは矛盾。 反復補題 反復補題(ポンプの補題、pumping lemma) Lを正則言語とする。このとき、Lに依存する 定数nで次の条件を満たすものが存在する。 条件: |w|≧nを満たす任意の記号列w∈Lは次の (1)~(3)を満たす3個の部分列の連接w=xyz に分解できる。 (1) y≠e (2) |xy|≦n (3) ∀k ≧0 に対して、xykz∈L 反復補題の証明 Lが状態数nのDFA Aで受理されると仮定する。 wを長さn以上の任意の文字列∈Lとする。w=a1a2…am (m≧n)とする。 i=0,…,mに対して記号をi個読み終 えた時の状態をpiと書くことにする。すなわち、 pi=dˆ(q0, a1a2…ai) (i=1,…,m). p0=dˆ(q0, e) (i=0). 状態は全部でn個だったからp0,…,pmのうちには同じも のが少なくとも2つある。これらをpi,pjとする。(pi=pj)。 x=a1a2…ai y=ai+1…aj z=aj+1…am とせよ。これらは条件(1)~(3)を満たす。(示せ。) 条件を満たすこと(ヒント) y=ai+1…aj a1 p0=q0 p1 x=a1a2…ai pi=pj pm z=aj+1…am 反復補題の応用 L01={0m1m| m≧1}は正則でない [反復補題を用いた別証] L01が正則言語であると仮定する。反復補題中 の条件を満たす数をnとする。 w=0n1nとすると |w|=2n≧nであり、かつL01の要 素であるから |xy|≦n, y≠eとなるx,yによって w=xyzと分解できて、∀k ≧0 に対してxykz∈L01と なるはず。 ところが、|xy|≦n, y≠eであるならばy=0l (l>0)。 このときxy2zは0の方個数がl個多くなり矛盾。 同値関係 集合A上の関係~⊆A×Aは次を満たすとき、同 値関係であるという。 (a~b ⇔ (a,b)∈~) 1. (反射律)a~a 2. (対称律)a~bならばb~a 3. (推移律)a~bかつb~cならばa~c 同値関係~によってa~bであるとき、aとbは同 値である、あるいは、aはbと同値であるとい う。 同値類と同値類集合 ~が集合A上の同値関係であるときa∈Aに対して、aと同 値であるもの全体の集合をaの属する同値類といい、 [a]と書く。すなわち、 [a]={b∈A|a~b} Aのすべての要素aにわたって[a]を集めてできる集合をA の~による同値類集合あるいはAの~による商(集 合)いい、A/~と書く。すなわち、 A/~={[b]|b∈A} 同値類の個数すなわち同値類集合の要素数を同値関係 ~の指数(index)という。 集合A上の同値関係R,QについてRの各同値類がQの同 値類に含まれるとき(部分集合であるとき)RはQの細 分である、という。 同値類の性質 ~が集合A上の同値関係であるとき, a,b∈Aに 対して次が成り立つ。(示せ。) • a~b ならば[a]=[b] • a~b でないならば[a]∩[b]=f 状態集合上の同値関係 1つのDFAの状態集合上の同値関係≡を次で定義す る。 p≡q ⇔ すべての入力列wに対してdˆ(p, w)とdˆ(q, w)はどち らも受理状態であるかどちらも受理状態でない。 (関係≡が実際に同値関係であることを確かめよ。) 同値でない状態の対は区別可能であるという。 wが(p, q)が区別可能であることの証拠であるとき、す なわち、dˆ(p, w)、dˆ(q, w)の片方だけが受理状態で あるとき、wは(p, q)を区別するという。 同値な状態の例 0 1 開始 A 0 B 1 E 1 1 0 C D 0 1 0 1 1 F 1 G 0 0 H 0 対(C,G), (A,G),(A,E)について区別可能性を調べよ。 区別可能性の特徴づけ DFA A=<Q, S, d, q0, F> における区別可能な対 をすべて見つける再帰アルゴリズムの基礎 基礎:状態pが受理状態で状態qが受理状態でな いならば対(p, q)は区別可能 再帰:ある入力文字a対してr=d(p, a)とs=d(q, a) が区別可能ならば対(p, q)は区別可能 問 上の基礎、再帰について対(p, q)を区別する 記号列は何か? 穴埋めアルゴリズム 状態の対の表について、区別可能な対に×印 をつけるアルゴリズム 1. 片方だけが受理状態の欄に×印をつける。 2. ×印がついた対の状態の各々に同じ記号 で入る矢印を逆にたどってそれぞれp, qに 行けば(p, q)に×印をつける。 穴埋めアルゴリズムの実行 ×: 第0ステップ ×: 第1ステップ ×: 第2ステップ B C D E F G H × × × × × × × × × × × × × × × × × × × × × × × × × A B C D E F G 穴埋めアルゴリズムの正当性 定理: 穴埋めアルゴリズムで×印がつかない状態の対 は同値。(区別可能なものはすべて×印がつく。) [証明]区別可能であるにもかかわらず×印がつかない対 が存在すると仮定する。列w=a1a2…anをそのような対の どれかを区別する列で長さ最小のものとし、wが区別す る対を(p, q)とする。 wはeではあり得ない。dˆ(p, e)=p, dˆ(q, e)=qのどちらかだ けが受理状態なら基礎で×印がつけられたはず。)ゆえ n≧1 a2…anは(r, s)=(dˆ(p, a1), dˆ(q, a1))を区別する。(示せ。) a2…anはwよりも短いので(r, s)は×印されている。 (r, s)が×印されていればアルゴリズムの次の再帰ステッ プで(p, q)が×印されていなければならない。これは矛 盾。 穴埋めアルゴリズムの改良 d(p,a)=r, d(q,a)=s,r≠sのとき (r,s) (p,q) のように矢印を書いておく。 × × × O(n2)で穴埋めできる。 B C D E F G H A B C D E F G DFAの等価性 二つのDFA A,Bの状態遷移図を合成したものにつ いて、A,Bそれぞれの開始状態p,qの区別可能性 を調べる。 区別可能でない(同値)ならばA,Bは等価。すなわち、 L(A)=L(B) 開始 開始 p A q B 等価性決定手順の実行例 0 開始 開始 0 A 1 1 B 0 C 0 1 1 0 B C D E E 1 A B C D D DFAの最小化 DFA A=<Q, S, d, q0, F> の最小化は B=<Q/≡, S, g, [q0], {[s]| s∈F}> で与えられる。ここで g :Q/≡×S → Q/≡ g ([q], a)=[d(q, a)] gが定義可能であること: p≡qであるとき[d(p, a)]=[d(q, a)]を背理法で示す。 wがd(p, a),d(q, a)を区別すると仮定すると、 awはp,qを区別するのでp≡qに反する。(矛盾) 最小化の例 開始 1 A,E 1 0 0 B,H 0 0 1 G 1 0 C 1 D,F 最小化の正当性 Mを最小化で得られたDFAとする。 Nを, Mと等価で状態数がMより少ないDFAとする。 開始 開始 a1a2…ak a1a2…ak p M q N MとNの合成で状態の区別可能性を調べると、 Mの任意の状態pはNのある状態qと区別不能。 Mの状態のほうが多いから、Nの状態のうち少なくとも1つ q1はMの2状態p1,p2と区別不能。最小化ではすべての 状態は互いに区別可能のはずであり、矛盾。 語の同値関係と右不変性 言語Lに対してS*上の同値関係RLを次で定義する。 xRLy ⇔ どんなz∈S*に対してもxzとyzはどちらもLに 属すかどちらも属さない。 また、DFA M=<Q, S, d, q0, F> に対してS*上の同値関係 RMを次で定義する。(「同じ状態に導く」という関係。) xRMy ⇔ dˆ(q0, x) = dˆ(q0, y) S*上の同値関係Rは xRy ⇒ xzRyz を満たすとき、(連接に関して)右不変であるという。 RM, RLは右不変(示せ)。 同値類と細分 集合A上の同値関係R,Qについて Rのどの同値類も、Qの同値類のいずれかに含 まれるとき、RはQの細分であるという。 主張: 集合A上の同値関係R,Qについて RがQの細分すなわち、∀a∃b. [a]R ⊆ [b]Q ⇔ R⊆Q 証明: (⇒)左 ⇒∀a∃b.( [a]R ⊆ [b]Q ∧ a∈[b]Q ) ⇒∀a∃b. ( [a]R ⊆ [b]Q ∧ aQb ) ⇒∀a∃b. ( [a]R ⊆ [b]Q ∧ [a] Q= [b] Q ) (同値類の性質) ⇒∀a . [a]R ⊆ [a]Q このとき、 xRy ⇒y ∈[x]R ⇒y ∈ [x]Q⇒ xQy (⇐)任意のaに対して x∈[a]R ⇒xRa⇒(x,a) ∈R ⇒ (x,a) ∈ Q ⇒ xQa ⇒x ∈[a]Q ゆ え、[a]R ⊆ [a]Q したがって、bとしてa自体を選べばよい。 Myhill-Nerodeの定理 [定理](Myhill-Nerode)つぎの1~3は同値。 1. L∈S*は有限オートマトンの受理集合である。 2. Lは右不変で有限の指数を持つ同値関係の いくつかの同値類の和に等しい。 3. RLの指数は有限。 Myhill-Nerodeの定理の証明(1⇒2) DFA M=<Q, S, d, q0, F>がLを受理するとする。 2つの語について「同じ状態に導く」という関係 RM は右不変な同値関係である。 LはF属する状態fに導く同値類の和である。 Myhill-Nerodeの定理の証明(2⇒3) Eを右不変で指数有限の同値関係とし、LがEの 同値類の和であるとする。EがRLの細分であ ることを示す。すなわち、xEy⇒xRLyをいう。 (細分の指数の方が大きいからこれがいえれ ばRLの指数有限がいえたことになる。) xEyと仮定する。Eは右不変であるから任意の z∈S*についてxzEyzとなる。 ところでLがEの同値類の和であるからxzEyzな らばxz,yzはいずれもLに属す([w]∈Lのとき) かいずれも属さない(それ以外)。 以上により、xRLy Myhill-Nerodeの定理の証明(3⇒1) M=<Q’, S, d’, q0’, F’>を次のように定める。 Q’はLのRLによる同値類集合L/RLとする。すなわち、 Q’=L/RL d’: Q’×S* → Q’は次で定義する。(定義が矛盾な いことはRLの右不変性から。) d’([x], a)=[xa] q0’=[e],F’={[x]|x∈L}とする。このとき d’([e], w)∈F’ ⇔ w∈L (確かめよ) すなわちL=L(M) Myhill-Nerodeの定理の応用: 正則でないこと L={w∈{0,1}*|wは同数の0,1からなる} [証明] zを固定したとき、wzがLに属すか否かはw中の 0,1の個数の差だけで決まる。したがってRLによ る同値類は0,1の個数の差が同じものである。 RLによる同値類集合はつぎのものからなる。 …,[1i],…,[11],[1],[e],[0],[00],[000],…,[0i],… これらは互いに異なる類であってRLの指数は有 限ではない。よってMyhill-Nerodeの定理によ りLは正則でない。 文脈自由文法 文脈自由文法(context free grammar, CFG)Gは 4つ組 < V,T,P,S>で規定されるここで、 1. Vは変数(あるいは非終端記号)の集合: 変数は記号列の集合に対応する。(後述) 2. Tは終端記号の集合 定義される言語に現れる記号の集合 3. S∈Vは開始記号 4. Pは生成規則の集合 生成規則は変数A∈Vと記号(∈V∪T)の列X1X1…Xnの組で A→X1X1…Xn のように書く。 通例文法といえば文脈自由文法を指す。 文法の例 G=<{P}, {0,1}, A, P> Aの要素は次の5つ P → e P P P P → → → → 0 1 0P0 1P1 文法が生成する言語 文法G=< V,T,P,S>において 記号列aに現れる非終端記号A(∈V)1つをある規則 A→X1X2…Xnを用いてX1X2…Xnに置き換えてbを得る操 作を導出とよびa ⇒bと書く。 aから始めて、導出を繰り返してbが得られるとき a ⇒*bと書く。(0回含む) Sから始めて導出を繰り返して得られる終端記号の列w全 体の集合を文法Gが生成する言語といい、L(G)で表す。 すなわち L(G)={w∈T*|S ⇒*w} 文脈自由文法が生成する言語は文脈自由言語とよばれる。 必ずしも終端記号だけではない記号の列aについてS⇒*a のとき、aを文形式という。 文法が生成する言語の例 前述の文法G=<{P}, {0,1}, A, P>で P⇒0P0⇒01P10⇒010P010⇒0100010 により 0100010∈L(G) L(G)は{0,1}上の回文全体 文法の略記法 規則の左辺(→記号の左側)が同じ規則が複数 ある場合、たとえば、giを記号列として A → g1 A → g2 … A → gn がある場合これらをまとめて A → g1 | g 2 | … | gn のように書く。 問 回文の文法を上の略記法で書け。 最左(右)導出 • 導出の各書き換えステップで一番左(右) の非終端記号の書き換えのみをおこなう 導出を最左(右)導出という。 • 最左導出でa1からのa2の導出ができると き a1 ⇒*lm a2 などとかく。 • S ⇒* lm aなるaを左文形式という。aは非終 端記号を含んでもよい。 最左導出の例 1桁の数 0, 1と2種類の変数x, yのみの和および 積でつくる式全体は次の文法で生成される。 E → I | E+E| E*E | (E) I→x|y|0|1 E ⇒lm E+E⇒lm E*E+E ⇒lm I*E+E ⇒lm x*E+E ⇒lm x*I+E ⇒lm x*y+E ⇒lm x*y+I ⇒lm x*y+1 構文木 • 導出を、どの非終端記号を書き換えるかの順序 を捨象して木であらわしたものを構文木という。 • 構文木の各節点は非終端記号、葉は終端記号、 根は開始記号。 • 各節点の子の並びはその節の非終端記号の書 き換えにもちいた生成規則の右辺。 構文木の例 E E E E E * I I x y I + 1 曖昧さ 2つ以上の構文木をもつ文を生成する文法は 曖昧であるという。 注 文が構文木を2つ持つことは最左(右)導 出が2つあることと同じ。 問 前述の式の文法でx*y+1の構文木をもう1 つ作れ。 応用1:括弧のバランス 開いた括弧が必ず閉じるとき、また閉じる括弧 には必ず開く括弧が対応するとき、括弧のバ ランスが取れているという。 括弧だけからなる文で括弧のバランスが取れ たものは次の文法Gbalで表される。 Gbal : B→BB | (B) | e 問い ()((())()) の導出を求めよ。 応用2:パーサー生成器 プログラム言語などの言語の構文を解析して構文木 に翻訳することを構文解析という。 構文解析器(parser)を1から作成することは労力を要 するが文法から自動的にparserを生成する技術が ある。 YACCプログラムは文法を入力としコンパイラの一部 であるparserのCコードを出力する。 YACCのように言語仕様(文法など)を入力としコンパ イラ(の一部)を得るプログラムはコンパイラ・コンパ イラと呼ばれる。 主要なプログラミング言語で使えるコンパイラ・コンパ イラが開発されている。(ml-yacc, javaccなど) YACC yaccの構文 • →のかわりに : を使う。 • 左辺は必ずまとめて右辺を | でつなぐ。 • 各変数ごとの規則は ; で区切る。 • 終端記号は ’ で囲む。 • そのほか詳細は例を参考にせよ。 yacc&lex(flex)の使い方 lex、yaccのソースを格納したファイルをそれぞれcalc.l, calc.yとする。 シェルから C:\> flex calc.l C:\> yacc calc.l C:\> cc y.tab.c –lfl 宿題 http://thales.philos.k.hosei.ac.jp/automaton/calcから上 のファイルをダウンロードして上の作業を行い、生成されたプ ログラムの動作を確かめよ。 応用3:XML/DTD XML(Extensible Markup Language)は意味 内容を記述する。 XMLの一部であるDTD(Document-Type Definition,文書型定義)は意味が了解された 語をもとに表現形式(CFL)を定義する。 DTDの形式 • DTDは次の形式である。 <!DOCTYPE DTDの名前 [ 要素の定義のリスト(並び) ]> • 要素の定義は次の形式である。 <!ELEMENT 要素の名前 (要素の記述)> • 要素の記述は要素の名前と特別の項 \#PCDATAを記号とする正則表現で和(|)、 連接(,)、および繰り返し(*,+,?)が使える。 DTDの例 <!DOCTYPE PcSpec [ <!ELEMENT PCS (PC*)> <!ELEMENT PC (MODEL,PRICE,CPU,RAM,DISK+)> <!ELEMENT MODEL (\#PCDATA)> <!ELEMENT PRICE (\#PCDATA)> <!ELEMENT CPU (MANF,MODEL,SPEED)> <!ELEMENT MANF (\#PCDATA)> <!ELEMENT SPEED (\#PCDATA)> <!ELEMENT RAM (\#PCDATA)> <!ELEMENT DISK (HARDDSK | CD | DVD)> <!ELEMENT HARDDISK ()> <!ELEMENT SIZE (\#PCDATA)> <!ELEMENT CD (SPEED)> <!ELEMENT DVD (SPEED)> ]> PcSpecに従うXML文書 <PCS> <PC> <MODEL>4560</MODEL> <PRICE>$2295</PRICE> <CPU> <MANF>Intel</MANF> <MODEL>Pentium</MODEL> <SPEED>800MHz</SPEED> </CPU> <RAM>256</RAM> <DISK><HARDDISK> <MANF>Maxtor</MANF> <MODEL>Diamond</MODEL> <SIZE>30.5Gb</SIZE> </HARDDISK></DISK> <DISK><CD> <SPEED>32x</SPEED> </CD></DISK> </PC> <PC> … </PC> </PCS> 言語と機械 言語 表現 受理機械 正則言語 正則表現 (RegExp) 有限オートマトン (FA) 文脈自由言語 (CFL) 文脈自由文法 (CFG) プッシュダウン オートマトン (PDA) プッシュダウンオートマトン プッシュダウンオートマトン(Pushdown Automaton, PDA)は次で定義される。 P=<Q,S,G,d,q0,Z0,F>: Q: 状態の集合 S: 入力記号の集合G: スタック記号の集合 d : Q×(S∪{e})×G→2Q×G* 遷移関数 (p, g)∈d(q, a, X)の意味 状態はpに遷移し、スタックの上端の記号Xをgに置 き換えてよい。g=YZならZがYの下。 q0: 開始状態∈Q Z0: 開始記号(底記号) F: 受理状態の集合⊆Q 遷移にともなうスタック操作の図 (p, YZ)∈d(q, a, X)による遷移: (q, aw, Xb) |- (p, w, YZb) … … a X q Y Z Z0 Z0 a p PDAの受理言語 P=<Q,S,G,d,q0,Z0,F> をPDAとする。 {w|∃q∈F (q0,w,Z0) |-* (q,e,a) } をPが最終状態で受理する言語と呼び、L(P)と 書く。 {w| (q0,w,Z0) |-* (q,e,e) } をPが空スタックで受理する言語と呼び、N(P)と 書く 受理言語の等価性 定理 L=L(P)ならば L=N(P1)となるPDA P1が存在する。 逆に L=N(P)ならば L=L(P2)となるPDA P2が存在する。 PDAとCFGの等価性 定理 任意のPDA P に対してL(P)=L(G)となるCFG G が存在する。 定理 任意のCFG Gに対してL(G)を受理するPDAが 存在する。 発展科目 • 計算量の理論(2年後期) – 一般の計算モデル • コンパイラ(3年前期) – 言語の字句を正則表現、構文を文法で記述 • コンパイラ演習(3年前期) – コンパイラ作成:オートマトン設計、構文解析 • プログラミング言語理論・設計(3年後期) – 論理と計算の基礎的素養をもっていることが望ま しい。
© Copyright 2025 ExpyDoc