Document

本項のメニュー(6/23)
• 「言語」について考える。言語は人間の認知活動
の中核であり、あらゆる認知活動は何らかの意
味で言語とつながりを持つ。
• したがって言語についての研究も様々な観点、
様々なアプローチのものがある(論理学、心理
学、人工知能、脳科学、等々)。
• 以下ではまず、「言語学(Linguistics)」、とりわけ、
Chomsky を中心とした 1950 年代以降の言語学
について触れる。
• またそれが自然言語処理の研究にどうつながっ
ているかも簡単に紹介する。
1
本日のキーワード
• 言語学
• チョムスキー(言語学)
– 形式言語・形式文法
言語への数理的・形式
的アプローチ
– 構文論
– 生成文法理論
– 変形(理論)
– 言語の生得性
– 普遍文法
• 言語学の諸部門
– 構文論
各種の文法理論
– 意味論・語用論
• 自然言語処理
– 象徴的事例
• ELIZA
• SHRDLU
– 機械翻訳、他
– 最近の動向
2
はじめに:言語と語順
–
–
–
–
–
【日】
【英】
【中】
【独】
【仏】
私は君を愛す
I love you
我愛你
(Ich liebe dich)
(Je t’aime)
• 古典的な S(主語)、O(目的語)、V(動詞)の区分で言う
と(S: 私、O:君、V: 愛する)
– SOV 型(日本語、(ドイツ語)...)
– SVO 型(英語、中国語、(フランス語)...)
– 組合せ的には、VSO, VOS, OSV, OVS を加えた 3! = 6 通り。
• どれが優勢か、優れているか?
3
参考: 言語の話者数(2005)
北京語(いわゆる中国語) (8億7300万人) SVO
スペイン語 (3億2200万人) SVO
英語 (3億0900万人) SVO
ヒンドゥスターニー語(ヒンディー語・ウルドゥー語ほか)
(2億4200万人) SOV
5. 標準アラビア語 (2億0600万人) SVO
6. ポルトガル語 (1億7500万人) SVO
7. ベンガル語 (1億7100万人) SOV
8. ロシア語 (1億4500万人) SVO
9. 日本語 (1億2200万人) SOV
10. 標準ドイツ語 (9600万人) SOV
1.
2.
3.
4.
4
言語類型論による分類
•
•
•
•
•
•
SOV 型
SVO 型
VSO 型
VOS 型
OSV 型
OVS 型
45~55%
35~40%
10~18% (ヘブライ、タガログ、イロカノ)
稀 (フィジー語など)
稀 (シャバンテ語など)
稀 (ヒシカリヤナ語など)
5
余談:形式言語理論との関係
• 語順は数式の表記方法に対応
– SVO: 中置記法 (infix notation)
a+b, a×b など
– VSO: 前置記法 (prefix notation) 関数記法: f (x,y)
– SOV: 後置記法 (postfix notation) 階乗 n! など
• 前置記法、後置記法はカッコがいらず、コンピュー
タ処理に適している。(日本語は計算機向き?)
中置記法
1×2 + 3 + 4
1 + 2×3 + 4
前置記法
+ +×1, 2, 3, 4
+ + 1 ×2, 3, 4
後置記法
1, 2× 3 + 4 +
1, 2, 3×+ 4 +
(1 + 2)×(3 + 4)
×+1, 2 + 3, 4
1, 2 + 3, 4 +×
6
言語の多様性
– 様々な言語があるのはなぜか。
– それらの間に共通性はあるか。
– それらの間に優劣はあるか。
– 参考:(聖書による言語の多様性の起源)
創世記11章「バベルの塔」
人間が天を目指した塔の建築
を始めたので、神が別々の
言葉を話させるようにし、人は
混乱し、世界に散っていった。
7
言語と認知(1)
• 個別言語の研究だけとっても様々な課題が
あるが、より一般的な見地から考えると。
• なぜ様々な言語があるのか?
• それらに共通性があるのか、どのように生
まれてきたのか?
– 参考:インド・ヨーロッパ語族の発見
W. Jones (1786) 古典ギリシャ語、ラテン語と古代サンス
クリット語との関係
⇒ 共通の「祖語」の存在
8
言語と認知(2)
• 言語と思考との関係
– 人間は言葉で思考しているのか?
– 「思考の言語(mentalese)」のようなものはある
のか?
– 思考と言語とが別物なら、思考から言語はど
のように生成される(認識される)のか?
様々な思考の部門は互いにどのように情報交
換しているのか?
• 参考: A. Arnauld (1660):「言語は思考を忠実に反
映するものであり、そのもっとも自然な語順は ...
フランス語のそれと一致する」
9
言語と認知(3)
• 言語は閉じた体系か?
– 自然科学のように、形式的・数理的な文法規則などに
よって規定できるか?
– 人間は十分それを正確に使いこなせるか、使っているか
– 言語は他の認知部門と独立性がある(モジュール的)か
言語の中の諸部門(とくに構文論)はどうか?
• 言語学が学問として自立しうるためには、
言語の独立性が前提となる。
10
言語と認知(4)
• 人間の生物的・生得的能力とどのように関係す
るのか?
– 言語を扱えるためにはどのような心的なメカニズム・
情報処理能力が必要か
– 人間と動物の言語能力はどう違うか
それを分かつものは何か
– 幼児はなぜ急速に言語(母国語)を学習できるのか
⇒ 「プラトン問題(メノンの問題)」
• 言語学は心理学・認知科学・生物学等の一部門
に位置づけられるか?
11
理論言語学の諸部門
• 音声学(Phonetics)
• 音韻論(Phonology)
• 形態(素)論(Morphology)
– 語彙論(Lexicology)
• 構文論(統語論: Syntax)
• 意味論(Semantics)
• 語用論(Pragmatics)
12
チョムスキー以前の言語学(1)
• (ギリシャ以来の文法・修辞学・弁証法、論理学
の伝統)
• 規範的な文法理論(~18 C.)
– 「ポール・ロワイヤル(Port Royal)文法・論理」
(A. Arnauld ら)
• 比較言語学と「言語学の誕生」(18~19 C.)
–
–
–
–
Jones(印欧語族)、Grimm 兄弟
「通時的(diatonic)言語学」
(古代文字の解読:ヒエログリフ、楔形文字)
「青年文法学派(新文法学派)」(独)
13
チョムスキー以前の言語学(2)
• ソシュール(F. de Saussure)
(1857~1913)
– 言語学の現代化:
• 共時的(synchronic)な体系を
中核に据える
– 「言語の恣意性」:
シニフィアン(signifiant)とシニフィエ(signifié)
– 記号論への発展
14
チョムスキー以前の言語学(3)
• ヤコブソン(R. Jacobson)と「プラハ学派」
– 音韻論の体系化
– レヴィ・ストロースらとの交流
• ウィトゲンシュタインと「言語ゲーム」
• 論理実証主義と形式(的)体系
– 数学基礎論・記号論理との関係
– 言語の「意味(論)」、推論の表現
– Carnap, Kleene, Tarski, (Turing)
• ブルームフィールドと行動主義的言語学
15
チョムスキー革命(1)
• Noam Chomsky (1928.12.7~)
– (Wikipedia 英語 日本語)
• アメリカ出身
マサチューセッツ工科大学(MIT)名誉教授
• 言語学者、哲学者、左翼運動家、...
• 1950 年代以降、言語学で主導的役割を果たし、
カリスマ的存在である。
• 理論自体が(傍から見れば)どんどん変わってい
くので、追随する側は大変。
16
チョムスキー革命(2)
• 初期の主要な著作(以下でも言及)
– Chomsky, N. (1956). “Three Models for the
Description of Language”.
IRE Transactions on Information Theory
2 (2): 113–123. doi:10.1109/TIT.1956.1056813
– Chomsky, N. (1957). Syntactic Structures. The Hague:
Mouton.
(勇康雄訳:「文法の構造」、研究社出版、 1963)
– Chomsky, N. (1965). Aspects of the Theory of Syntax.
Cambridge: The MIT Press.
(安井稔訳:「文法理論の諸相」、研究社出版、 1970)
– Review of Verbal Behavior, by B.F. Skinner. Language
35, no. 1 (January-March 1959): 26-57.
17
チョムスキー革命(3)
• 文法理論の厳密な形式的・数学的扱い
⇒ 形式文法、形式言語
→ 情報科学とのつながり
• 研究計画、研究方法、判断基準など、研究その
ものについての指針を打ちたてた
(言語研究の「メタ理論」) ⇒「妥当性のレベル」
• 言語のうち、特に構文論(統語論)を重視し、
言語研究の中心に位置付けた。
• そのための文法的枠組みとして、「生成文法理
論」を示し、特に(初期においては)変形を重視し
た。
18
チョムスキー革命(4)
• 言語が生物的・生得的要因に基づいていること
を前提とし、特にすべての言語に共通の「普遍文
法」の研究を中心目標に据えた。
• 「デカルト主義」:人間の心的過程としての言語の
独立性を唱え、そのメカニズムを仮構し、解明し
ていくという方法論をとった。
• そのため、旧来の言語学、特に Bloomfield (や
背景にある Skinner らの)行動主義的アプローチ
と真っ向から対立し、これを否定した。
19
妥当性のレベル(Levels of adequacy)
• 観察的妥当性(observational adequacy)
– 理論は観察されたデータをくまなく列挙・分類する
• 記述的妥当性(descriptive adequacy)
– 理論はデータを記述する形式的規則体系を与え、
規則は「正しい例」のみ生成する
• 説明的妥当性(explanatory adequacy)
– 理論は競合する記述同士の優劣を決定し、
根底にある構造を指し示すとともに、
予測的に用いることができる
20
言語能力と言語運用
• 言語能力(linguistic competence)
– 理想的な意味で言語話者が有する言語・文法
の知識・能力。
– 文法性(文か非文かの判断)など
• 言語運用(linguistic performance)
– 実際の言語使用の側面。
– 注意力や記憶力の限界、発話の物理的制約
などによって、competence が制約される。
• cf. “langue” と “parole” (de Saussure)
21
形式文法と形式言語
(本格的には「オートマトンと形式言語」などの授業で扱う)
• 形式言語(formal language)
– 何らかの記号列の集合。
各記号列を便宜的に「文」と呼ぶ。
– 記号は文字、数字、単語など、はっきり定義されてい
れば何でもよい。
– 記号や文は何か意味を表していてもいなくてもよい。
(形式理論の範囲では意味は考えない)
– 言語(文の集合)は無限集合であるのが普通。
• 形式文法(formal grammar)
– 言語が有限個の規則により定義される場合、
その規則集を言語の「文法」と呼ぶ。
22
例:文脈自由言語と構文木
• “The dog ate the bone” という文は、
次の規則で表わせる。
–
–
–
–
–
S→ NP VP
VP → V NP
NP → D N
単語へ対応づける規則)
ただし: S: 文、V: 動詞、N: 名詞、D: 冠詞、
NP: 名詞句、VP: 動詞句
• 得られる構造は図のような構文木で表わせる。
• 他の例については:二宮崇・宮尾佑介
「自然言語処理における文法開発の軌跡と展望」等参照
http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/
23
形式文法と形式言語(2)
• 形式言語の典型的な例
–
–
–
–
数学の数式
記号論理の論理式
プログラミング言語
(簡単な図形、音楽など)
• 形式的・機械的に定義されるため、コンピ
ュータによる処理が可能になる。
24
形式文法と形式言語(3)
• 形式文法
G = { N, T, P, S }
– N: 非終端記号の有限集合
普通は大文字(で始まる文字列))で表わす。
– T: 終端記号の有限集合
文字、数字、単語など。
– P: 文法規則(書換規則)の集合: α→β
α、βはしかるべき記号列
αは必ず非終端記号を含む
– S: 開始記号
特別な非終端記号: S ∈ N
• 形式言語
L ⊂ T*
– T* は終端記号集合 T の有限列全体の集合
25
形式文法と形式言語(4)
• 文法規則 α→βは、左辺のαが右辺のβに書き換
えられることを表す。
• 作成された記号列に非終端記号がなければ(=
終端記号だけなら)「文」が完成する。そうでなけ
ればまだ未完成で、書き換えを続ける。
• 文法 G が生成する言語(=文の集合)を
L = L(G) とするとき、「G は L を受理する(生成
する)」と言う。
26
形式文法と形式言語(5)
• 例:文法規則が次の2つとする。
(1) S → b
(2) S → aS
– 規則 (1) は右辺に終端記号 b∈T しかないから、これを
適用すると書換えは終了する。
– 規則 (2) は右辺に非終端記号 S∈N を含むから、これ
を適用しても文は未完成で、書換えが続く。
– この結果、文 b, ab, aab, aaab, ... が生成される。
• この文法が受理する言語は、L={ anb } である。
– (n は 0 以上の整数で、anは a が n個続くことを表す)
27
チョムスキー階層
• 文法 G が受理する言語は、文法規則
α→β
で許される形式に応じて区別・分類できる。
• 形式文法のチョムスキー階層(1956)
–
–
–
–
3型文法(正規文法・言語)
2型文法(文脈自由文法・言語) BNF記法
1型文法(文脈依存文法・言語)
0型文法(帰納可算言語)
28
チョムスキー階層(2)
– 以下で α、β、γは任意の記号列(空列でもよい)を表す。
• 3型文法規則
– A→a, A→bB の形の規則だけ。
(実際には、左辺は非終端記号1個だけ、右辺の非終
端記号はたかだか1個であればよい)
• 2型文法規則
– A→α の形のもの(左辺は非終端記号1個だけ)
29
チョムスキー階層(3)
• 1型文法規則
– αAβ→αγβ の形のもの
(左辺の A がα、βの「文脈」の中でγに書換わる)
– 「α→β」(|α|≦|β|)という制約に置き換えても、実質的には
同じ(|α| はαの長さ)。
• 0型文法規則
– 制約は一切なく、任意の「α→β」でよい。
• (0, 1 型とも、左辺のαは必ず非終端記号を含み、
また非終端記号だけからなるとしてかまわない)
30
チョムスキー階層(4)
• 例
– { an } は3型文法(で受理できる)
– { anbn } は2型文法で受理できるが、3型では
できない。
(1) S→ab (2) S→aSb とすればよい。
– { anbncn }、 { anbncndn }、... は1型文法で受理
できるが、2型ではできない。
– { ap }(p は素数)は1型で受理できる。
31
自然言語の文法形式(1)
• 3型文法(正規文法)はマルコフ過程と関係する。
– マルコフ過程: 系列データで、データ an はその前の k
個のデータによって決定される(k は正の定数)。
ただし、一般のマルコフ過程では決定が確率的である
ことが前提となる。
• 正規文法は自然言語の記述文法としては不適切・
不十分
⇒ 再帰的構造(埋込構造、入れ子構造)が扱え
ない。
32
自然言語の文法形式(2)
• 再帰的構造を持つ文
– The cheese the rat the cat the dog the boy held bit
chased ate was rotten.
(男の子が押さえていた犬が噛みついた猫が追いか
けたネズミが食べたチーズは腐っていた)
– Dorothy, who met the wicked Witch of the West in
Munchkin Land where her wicked Witch sister was
killed, liquidated her with a pail of water.
– 逆茂木文
– 「我々は、腐った政府が昨年のテロ事件で被害にあっ
た人たちの家族が歎願したにも関わらず、なかなか着
手しない救済法案の制定を推進する。」
33
自然言語の文法形式(3)
• 再帰的構造は、2型文法(文脈自由文法:
context-free grammar)でなら扱える。
– いわゆる「句構造文法(phrase-structure grammar)」と
同義と考えてよい。
• 経験的に言って、文脈自由文法は自然言語を近
似的に表わすには十分である。
• しかしチョムスキー(初期)によれば、これも自然
言語記述には不十分
– 平叙文と疑問文、能動態と受動態といった相互に関
連する文のつながりが表せず、文法が無意味に複雑
になる。
34
“colorless green ideas sleep furiously”
• (直訳(?):「無色の緑の考えは猛々しく眠る」)
• チョムスキー(1957)が示した有名な例文で、言語
における構文論の自立性、重要性を端的に示すこ
とが意図されている。
35
(Jabberwocky)
'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.
"Beware the Jabberwock, my son!
The jaws that bite, the claws that catch!
Beware the Jubjub bird, and shun
The frumious Bandersnatch!“
He took his vorpal sword in hand:
Long time the manxome foe he sought—
So rested he by the Tumtum tree,
And stood awhile in thought.
And as in uffish thought he stood,
The Jabberwock, with eyes of flame,
Came whiffling through the tulgey wood,
And burbled as it came!
One, two! One, two!
and through and through
The vorpal blade went
snicker-snack!
He left it dead,
and with its head
He went galumphing back.
"And hast thou slain the Jabberwock?
Come to my arms, my beamish boy!
O frabjous day! Callooh! Callay!“
He chortled in his joy.
'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.
36
構文による曖昧性の解消
• 曖昧文(複数の意味を持つ文)は、異なる構文構
造を持つことで差別化される。
–
–
–
–
Flying planes can be dangerous.
Time flies like an arrow.
I eat the apples in the garden.
赤い屋根の大きな家
• 逆に表面上似てはいるが、意味・構造が違う文
の差別化にも関係する。
– John is easy to please.
– John is eager to please.
– ここではきものをぬいでください
37
自然言語の文法形式(4):変形
• 句構造文法では平叙文と疑問文、能動態と受動
態といった相互に関連する文のつながりが表せな
い。
• そのために「変形(transformation)」を導入する。
• 関連のある文同士は、共通の「基本形」(いわゆる
「深層構造(deep structure)」を持ち、それに変形を
加えることによって「表層構造(surface structure)」
である実際の文(単語列)になる。
• 一挙に文脈依存文法まで行かなくても、句構造文
法+変形で対応できる。
38
自然言語の文法形式(5)
• 変形の例:受動態を作る。
“John loves Mary”(ジョンはメリーを愛する)
に対し、
– 動詞を “is loved” の分詞形に変形
– 主語(John)と目的語(Mary)を交換
により、“Mary is loved by John” を得る。
• (日本語)
– 「愛する」→「愛される」(受動の助動詞)
– 主語・目的語の交換
⇒「メリーはジョンに愛される」
39
生成文法(Generative Grammar)
• だいたい、「標準理論」(~1965)ぐらいのうちは、
この「句構造文法+変形規則」による構文論構
築が行われ、様々な変形規則が導入・吟味され
た。
• これを「生成文法(理論)」と呼ぶ。
「生成(generative)」の意味はわかりにくいが、
「文を生成するための文法」といった意味ではな
く、可能な文すべてを生成するための理論、とい
った意味合いを持つ。
40
普遍文法(Universal Grammar)
• 「プラトン問題」
– 「知識は生得的なものか」(『メノン』)
– ⇒「言語は(どこまで)生得的か」
– 子供(幼児)が、自分が接する言語環境から極めて短
期間に(2~3年)、しかもほぼ完全な言語(母国語)の
知識の獲得ができるのはなぜか?
– 完全な「白紙状態(tabula rasa)」から学習するのは極
めて非効率的かつ不完全
– 知識の少なくともある部分は生得的(生まれついての
もの)でなければならない。
cf. 「本能」
41
普遍文法(2)
• プラトン問題解決のためには、人間(子供)は生
得的に言語を処理するための知識やメカニズム
を備えていなければならない。
• そのような言語知識を総称して、
「普遍文法(Universal Grammar)」と呼ぶ。
• では普遍文法はどのような内容か?
–
–
–
–
特定の言語やその文法ではないのは明らか。
特定の文法類型というわけでもない。
構文解析器の基本メカニズム?
普遍文法の追究は、どんどん抽象化していき、「構文
論」からは離れていくことになる。
42
チョムスキー理論の変遷(1)
• 「標準理論(Standard theory)」(1957~1965)
• 「拡大標準理論(Extended standard theory)」
(1965~1973)とその改訂(1973~1976)
• 「(関係文法)(Relational grammar)」
(1975 頃~1990)
• 「統率・束縛理論(Government & binding)」、
「原理とパラメタ理論(Principles & parameters)」
(1981~1990)
• 「ミニマリストプログラム(Minimalist program)」
(1990~現在)
43
チョムスキー理論の変遷(2)
• 全体として、初期の「構文論至上主義」は
影を潜めた結果となっている。
• 初期の頃に重要視された「変形」概念は、
事実上、放逐されたに等しい。
• 構文よりは語彙論重視(単語の持つ意味
や構文的役割に大きなウェイトがかけられ
る)に転じている。
– ここらは句構造文法主体の、他の文法研究と
同じ方向になっている。
44
チョムスキー理論の変遷(3)
• 一方、普遍文法探究に向けての理論化は、どん
どん抽象的・一般論的になっていき、そもそもの
構文論からも離れるものになっている。
• 「ミニマリストプログラム」は非本質的な部分を徹
底的に切り捨て(「オッカムの剃刀」)、中核となる
部分を抽出しようというアプローチである。
• 初期の熱狂的な反響に比べ、現在ではそのまま
の形での支持者は大幅に少なくなっているが、ま
だ隠然たる影響力は有している。
45
認知科学における言語研究(一般)
• チョムスキーを中心とする言語学研究は、
Competence(言語能力)に立脚し、構文論に偏し
た感がある。
⇒言語学の自立性を目指したもの
• これに対し、言語の認知科学的研究一般では、
言語を閉じた対象として扱うのではなく、思考・行
動・知識表現(表象)などと連動して考える。
– Competence より performance の側面に目を向ける。
– 構文論至上ではなく、意味論・語用論を対象とする。
– 特にコンピュータによる自然言語処理では、理論的な
完備性よりは、実用的な意義が重視される。
46
その他の文法理論(1)
• 主としてコンピュータによる言語処理を意識した
観点から、文脈自由文法(句構造文法)をベース
にした様々な文法理論が提案されている。
– チョムスキー階層において、3型から0型に進むにつ
れ、コンピュータによる解析処理は(飛躍的に)難しく
なる。
– 3型・2型文法では効率的な解析が可能
– 1型になると、解析効率は大幅にダウンする
– 0型(チューリングマシンと等価)では(一般には)処理
が停止する保証さえない。
47
その他の文法理論(2)
• 句構造文法(Phrase structure grammar)
ベースの文法の例
– LFG(Lexical Functional Grammar:語彙機能
文法) 1970 年代、Bresnan & Kaplan
– GPSG(Generalized Phrase Structure Grammar:
一般化句構造文法) 1970年代後半、Gazdar
– HPSG(Head-driven Phrase Structure Grammar:
主辞駆動句構造文法) 1985~、Pollard & Sag
48
その他の文法理論(3)
• 生成文法理論とは別系統の、最初から意味
論を意識した文法理論としては次のものが
ある。
– 格文法(case grammar) 1968, Fillmore
(形式文法の属性文法とも関連する)
– システミック文法(systemic functional grammar)
1960 年代~、M. Halliday
49
参考: 言語の「格(case)」
• 動詞(用言)を中心において文を考えると、各名
詞(句)は、動詞に対してどのような役割を持つ
かで区別される。それをその名詞の「格」と呼ぶ。
– 例: 主格、目的格、与格、所有格、...
• 格は、フランス語、ドイツ語などでは語尾の格変
化で表わされ、日本語では助詞がその役割を果
たす。(格の標識)
• 英語(や中国語)は特定の格標識があまりなく、
語順で表わす。
50
参考:日本語の文法(1)
• 日本語は、英語など印欧系言語と比べて
著しい相違点がいろいろある。
– 膠着語である(分かち書きをしない場合)。した
がって単語の境界を決める「形態素解析」が
大きなウェイトを占める。
• 「ここではきものをぬいでください」
• 「ウラニワニワニワニワニワニワニワトリガイル」
– 上は、同音異義語が多いことを示してもいる。
51
参考:日本語の文法(2)
– 語順が比較的自由である
• 「太郎は花子に本を贈った」
• 「太郎は本を花子に贈った」
– 主語を含め、省略が多い。
• 「花子に本を贈った」
• 「私はウナギだ」
• こういった特徴のため、句構造文法による
解析は必ずしも有効ではなく、係り受け解
析その他の手法が用いられる。
52
意味論(Semantics)
• 文・文章の意味内容を扱う言語学の部門。
構文論・語用論とまたがる部分もある。
• そもそも「意味」をどう定義・記述するか。
– 言葉で記す(辞書の語釈など)
• 堂々巡りになりそう。
• 記された文章自体を解釈する必要がある。
– 言語で示された内容(特に命令)を実際に実行する(操
作的意味論)
– 何らかの形式的な知識表現の枠組で意味を表す(記号
論理、Montague grammar など)
53
意味論(2)
• “Every man loves a woman.”
この文は、構文的な曖昧性はないが、意味的に
は曖昧性(2通りの解釈)がある。
– その違いを日本語に訳すのは難しい。
• 述語論理で表わすと、次の違いになる。
– ∀x ∃y love(x,y)
「どんな男性 x でも、愛する女性 y が1人は存在する」
– ∃y ∀x love(x,y)
「どんな男性 x もが愛する特別な女性 y が存在する」
54
意味論(3)
• 真理値的な意味論
– Tarski 等の論理学のモデル論から発し、
Montague Grammarなど
• 生成意味論(Ross, Postal, McCawley, Lakoff)
– Chomsky の deep structure を意味表現の根幹におく。
– 意味構造を言語外に持ち出すといった点で Chomsky
学派と対立。
• 認知的意味論
– 生成意味論の発展形
– Jackendoff の生成理論的な意味論の扱い
• 状況意味論(Barwise, Perry)
55
語用論(Pragmatics)
• 実際の言語使用は、表わされる意味内容そのも
のを伝達することそのものというよりは、様々な
効果・影響・要求などを示すことが目的。
⇒ 語用論:言語のそういった側面に着目する
• 比喩・暗喩(metaphor) ⇒類推
– 「立てば芍薬座れば牡丹、...」、「男はみな狼よ」
– 標語、ことわざなど
• 「言語ゲーム」(Wittgenstein)
• 言語行為
• 談話構造の分析(会話者同士の発話をゲームに
おける「着手」とみなす)
56
言語行為論(Speech Act Theory)
• J.L. Austin により創始され、J.R.Searle により発
展・拡張された言語の「語用論」に属する理論。
• 言語そのものによってどのような事実や主張が
述べられているかではなく、それがどういう効果
をもたらすかという観点に立った言語使用の理
論。
• 談話分析、コンピュータによる会話構造の構成・
分析などに応用される。
• 参考: L. Wittgenstein 「言語ゲーム」
57
言語行為論(2)
• 「発話内行為」(illocutionary act)
「何かを言うことで何かを行うこと 」
• 発話内行為の分類(Searle)
– assertives
• 話者が命題が真であることを主張する言語行為
– directives
• 相手に何らかの行動をとらせる言語行為(要求、命令、助言など)
– commissives
• 話者が将来の行動を約束する言語行為(約束、誓いなど)
– expressives
• ある提案・命題に対する話者の態度や感情を表現する言語行為(
祝辞、謝罪、感謝など)
– declaratives
• 何らかの宣言を現実化する言語行為(洗礼、判決、結婚式での聖
職者など)
58
日常会話の例
• 「冷蔵庫に水はあるかい?」
–
–
–
–
「ないから水道水を使ってくれ」
「水はないけど冷えた麦茶なら入っている」
「霜取りの受け皿に溜まっているはず」
「食品にも水蒸気としても水分子は存在する」
• 「部屋が暗いね」
–
–
–
–
「明るさは XX ルクスだ」
「もう日が暮れたから」
「暗い電球しかつけてないんだ」
「電気つけようか?」
59
認知的言語研究の現状
(特に自然言語処理の観点から)
• HPSG など、辞書項目と文法規則を融合する構文
理論とそのコンピュータ上での実現
• 大規模コーパスの利用
• それに基づく、統計的・確率モデル的な言語分析
⇒ 理論よりは実践、事例ベース
• 参考:二宮崇・宮尾佑介
「自然言語処理における文法開発の軌跡と展望」
http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/
60
自然言語処理
• 自然言語(英語、日本語、...)に関わる研究は人
工知能の当初から最重要課題の1つ。
• 内容的には非常に多岐にわたり、また他の人工知
能研究とも様々な形で密接に結びつくほか、関連
研究・スピンオフも多い。
– 例: 数学の文章題を解くには書かれている文章をま
ず理解しなければならない。
⇒ 「ロボットは東大に入れるか」(東ロボくん) NII
他
– 現在の web 上の様々な機能(検索等)も広い意味で
は自然言語処理研究の一環
– 人間とのコミュニケーションの最も重要な方法(?)
61
自然言語処理(2)
• 知覚レベル
– 文字認識(印刷、手書き、...) ex) 郵便番号
– 音声認識
– 音声合成(歌声合成)
• 記号レベル
– 構文解析(文法、解析システム) ex) juman、茶筅
– 意味論、意味理解。
– 談話理解、談話モデル・支援
• 応用例
–
–
–
–
–
機械翻訳(machine translation)
質問応答システム
人間との対話システム
各種のテキスト処理
......
62
機械翻訳
• 機械翻訳
– 1960 年代後半の ALPAC レポート(それまでの
研究成果への批判的報告)で一時頓挫する。
– 現在最近では Systran ベースの Yahoo! /
Babelfish、Google 翻訳など、実用(に供される)
レベルの翻訳サービスも存在する。が、
現在(2014)では統計的手法を用いたものが主
流
• 内容を理解していなくても、かなりの部分は
機械的な言語置換え作業で間に合う。
⇒ デモ
63
機械翻訳(続き)
• 前述のように、現在では統計的手法に基づく
確率モデル、機械学習を用いる手法が主流と
なっている。
• ある意味では60年代の手法に逆戻り。
しかし...... 違うのは:
– 大規模なコーパス
– マシン性能の飛躍的向上
– モデル化手法・理論の進歩
• 「理解」はしているか? cf. 「中国語の部屋」
64
自然言語「理解」
• ALPAC 報告等による機械翻訳研究の頓挫により
、70年代には高度の構文解析、意味内容や場面
理解を取り入れた自然言語理解システムの転向
が始まる。
• SHRDLU
– Winograd による自然言語理解システム(1970)
– 対象領域についての知識の重要性を強調し、質問応答
を行う。
• 以後、自然言語理解研究は着実に進められるが、
90 年代以降は事例ベース、確率モデルを用いる
手法などが(実用的目的から)中心となる。
65
特異な事例: ELIZA
• (Weizenbaum 1966) [ELIZA 1, 2]
パターン照合ベースの自然言語「応答」システム
– Weizenbaum: Computer Power & Human Reason
– Winograd & Flores: Understanding Computers and
Cognition
– ⇔Winograd, Terry: Understanding Natural Language
(1972): SHRDLU
• まともな構文解析はしない
• 文中からキーワードを拾ってきて、それに対して
定型的パターンの中から応答を組み立てる。
66
ELIZA (続き)
• 例: 文中に mother があれば「家族の話」と解して
、”tell me more about your family” のような応答文
を組み立てる。
• プログラムと本気で応答を始める人が出てきてしま
った(!?)
• (Rogers 学派精神分析の応用)
– DOCTOR: 精神分析医のような応答を行なうプログラム
– PARRY: 精神分裂症的症状の応答を行なうプログラム
– DOCTOR vs. PARRY
67
一般知識の利用とのつながり
• 常識推論、一般的な質疑応答システム
– Cyc, OpenCyc (1984~)
– Open Mind Common Sense, ConceptNet
– ….
• WATSON
(1999~)
http://www-03.ibm.com/innovation/us/watson/
– 2011年、クイズ番組 Jeopardy! で人間のクイズ王
と対戦し、総合優勝した。
– 現在では IBM の汎用サービスとして実用化され
ている。
• Wolfram Alpha 等、多くの検索・応答システム
も自然言語インタフェースを備えている。
68
期末試験について(6/30)
• 森田分、平賀分(別々の試験)を一緒に実施
する
• どちらも持ち込み不可
• 平賀分については、授業で取り上げた内容に
ついて、事項知識、発展的な内容(自由記述
:研究の動向や展望等について)を取り上げ
るので、項目の復習とともに関連事項につい
て調べておくこと。
• また項目の英語名などを問う英語問題も出題
予定なので、重要項目については英語名も学
習しておくこと。
69
付録: 追加資料
• いずれも田中克彦「チョムスキー」(岩波書
店、1983)より。
現在は新装丁のものがある。
• 次のトゥウォデルは構造主義言語学・音韻
学者で、反チョムスキー的な立場からの記
述。続く2スライドはチョムスキー革命に対
する田中の立場からの述懐。
W. F. トゥウォデル「音素の定義について」(1939)
• [音素についての]こうした定義は失格である。なぜなら、
第一に、手にとってみることのできない「ココロ」(mind) の
言語的はたらきについて、当て推量する権利は私たちに
はないし、第二に、このような当て推量から何か利益を得
ることはできないからである。「ココロ」の言語的過程の内
省などというものは、ひどいたとえで言うと、木造りのスト
ーヴの中で火を燃やすようなものだ。我々にとって、「ココ
ロ」に関する唯一の情報は、そのココロが住まっている当
人の行動からのみ引き出せるのだ。その行動を「ココロ」
に拠りかかって説明することは、未知の原因に名を与え
ておいた上で、ある事実の原因として、その x という名を
掲げるという、あの、なにかわからぬ不明の原因によいっ
てあることを「説明」しようという、論理の誤りを犯すことに
なる。「ココロ」とは、じつに、そのような x、つまり、人間行
動の未知の原因を引っくるめた呼び名である。
71
田中克彦「チョムスキー」(岩波)
• もしチョムスキー理論が、苦悩の変革の過程を通って、
近代言語学を内部から食い破り、必然の結果としてあら
われたのであったら、数多くの構造主義者や記述主義者
が、すすんでチョムスキーにならって自己変革をとげ、革
命家としてめざめることになったであろう。かれの教条も
、より説得的に、多方面から根拠づけられることができた
であろう。しかし事実はそうではなかった。確信に満ちた
構造主義者が、激しい抵抗を示したのは、かれらが、た
だ頑迷であったからというのではなく、むしろ、かれらを内
部からゆり動かして変革に参加させる力を欠いていたか
らと見るべきである。だからチョムスキー理論は構造主義
者の転向によってではなく、まったく新しいマーケットに信
奉者を見出すことによって普及の圏を広げていったので
ある。
72
田中克彦「チョムスキー」(岩波)続
• チョムスキーとその信奉者の関心をとらえたのは、
何よりも一般的な類としての言語の性質であったか
ら、多様という仮象を一般に還元することに異様な
執念を示したのである。このような執念は、言語そ
のものからではなく、むしろ、言語以外の何かに動
機づけられて現れたように思われる。伝統的に言
語学者は、もちろんこのような一般性、普遍性への
関心を忘れてはいないが、エキゾチックで、名もな
い小さなことばのすみずみにいたるまで探索の情
熱を燃やし、そのような点にこそ、人間性や文化と
の接点を見出すことに喜びを感じる習性をもってい
るものなのである。かれらは普通、ことばをことば以
外の何かにしようとは企てない。
73
(曖昧文について)
“Flying planes can be dangerous”
• “flying” を形容詞として解釈するか、動名
詞として解釈するか。単数化すると:
– (形容詞) A flying plane can be dangerous.
– (動名詞) Flying a plane can be dangerous.
• “The shooting of the hunters disturbed me.”
も同様
• “I saw a man with a telescope”
“I ate the apples in the garden” は?
• 英語の特徴: 語形変化が少ない(孤立語
に近い)ため、単語が多品詞的にな
• “Time flies like an arrow”
– “time” 名詞、“flies” 動詞、“like” 前置詞
「時は矢のように飛ぶ」(光陰矢のごとし)
(通常の解釈)
– “time” 形容詞、“flies” 名詞(ハエ)、
“like” 動詞(好む)
「時ハエは矢を好む」
– “time” 動詞(命令形:「計時する」)、
“flies” 名詞(ハエ)、“like” 前置詞
「ハエを矢のように計時しろ」
(以下3枚は望月先生(東京外大)の資料より)
http://www.tufs.ac.jp/ts/personal/motizuki/
文法(4)
lecture/ls2k62/lsandc06.ppt
• 文脈自由文法の例
– PP :句構造規則の集合
(1)S→NP VP (4)NP→DET N (7)VP→VP NP
(2)NP→N
(5)VP→V
(8)VP→VP PP
(3)NP→NP PP (6)VP→V NP
(9)PP→Prep NP
– PD :辞書規則の集合
N→ I, apples, garden
V→ ate
Det → the
Prep→ in
76
文の構造の曖昧性2(5)
S
NP
VP
VP
PP
NP
N
I
V
ate
NP
Det N
the apples
Prep Det N
in the garden .
私は庭でりんごを食べた
77
文の構造の曖昧性2(8)
S
NP
VP
NP
VP
PP
NP
N
I
V
ate
NP
Det N
the apples
Prep Det
in the
N
garden .
私は庭のりんごを食べた
78
「赤い屋根の大きな家」
• 修飾語(用言:赤い、大きな)が被修飾語(体言:
屋根、家)のどちらを修飾するか。
• 単純な組み合わせでは 2×2 = 4 通りある。
–
–
–
–
○
○
○
×
赤い→屋根、大きな→屋根
赤い→屋根、大きな→家
赤い→家、大きな→屋根
赤い→家、大きな→家
• しかし「屋根の家」という言い方は、普通の日本
語ではできないから、最後のものは除外される。
• 1番目も若干不自然ではある。
• ×「屋根の家」
• 「『赤い屋根の大きな』家」
• 「赤い屋根の家」
• 「赤い、『屋根の大きな』家」
• 「屋根の大きな家」
• 「『赤い屋根』の『大きな家』」
「黒い瞳の大きな女の子」
• 前例の「赤い屋根の大きな家」と同じ構造に見えるが、実
際にはもう少し複雑。
– 「女の子」 (girl → female child)
– 「『女の』子」 (woman’s child)
• 「黒い瞳の大きな『女の子』」とすれば、
「赤い屋根...」同様、3通り
• 「 『黒い瞳の大きな女』の子」も同様に3通り
• あと、交差的なケース(「子」が修飾されるケース)がある。
ただし、「屋根の家」と同様、「女」が単独で「子」を修飾する
のは少し不自然。
「黒い瞳の大きな『女の子』」
(図は望月先生(東京外大)のものを改変)
http://www.tufs.ac.jp/ts/personal/motizuki/lecture/ls2k62/lsandc06.ppt
「 『黒い瞳の大きな女』の子」
「黒い『瞳の大きな女』の子」
「 『黒い瞳』の『大きな女』の子」
×「 『黒い瞳の大きな』、『女』の子」
×「 『瞳の大きな』、『黒い女』の子」
×「 『黒い瞳の女』の『大きな子』 」
(あとの2つは係り受けが交差している)