メンタルレキシコン4: ことばの意味を言語データから探る

メンタルレキシコン4:
ことばの意味を言語データから探る
コーパス言語学とは?
• コーパス言語学とは、コーパス(テキストの総
体)をつかった、言語の科学的研究のことで
す。
コーパスとは何か?
• コーパス(corpus, pl. corpora; 「身体」を意
味するラテン語に由来)とは 、ある言語研究
の目的のために大量に収集されたテキストの
総体です。
• 近年ではコーパスは大抵コンピュータによっ
て収集、処理、アクセスされます。
コンピュータ登場以前のコーパス
• シェイクスピアの著作
• 聖書やそれに関したテキスト
• オックスフォード辞典を作成するための参考
資料集め。
コンピュータによる大規模化
• 初期のコーパスは必然的に量に限界があり
ました。しかし、コンピュータの発達により、言
語学者や他の研究者はより大きなコーパスを
作り始めました。
The Brown Corpus
• 最初のコンピュータをつかったコーパス。
• 1961年にBrown Universityで作成された。
• 新聞記事、教会の説教、小説など、幅広い
ジャンルのアメリカ英語から100万語を収集し
た。
• ブラウン・コーパスで扱われるテキストは、慎
重に抽出され、広範囲にわたるため信頼性
が比較的高い。
• さらに、無償で提供されているため、現在でも
多くの研究者が利用してる。
なぜコーパスをつくるのか?
• ブラウン・コーパスや他のコーパスの目標:
– 英語の多様性を捉えること
– そして、それを言語学的に説明すること
• 1960sのノーム・チョムスキーから始まり、
1980sごろまで、多くの言語学者は「ネイティ
ブの直感」に頼った方法で言語を研究してい
ました。
• たとえば、言語学者は次のような形でネイティ
ブに質問していました。
– “How do you say X in your native language?”
– “Is this sentence grammatical in your
language?”
• 話者は創造的で、新しい文章をどんどん作る
ことができるのだから、なにが言語にとって可
能であるかは、ただ発せられた文を見るだけ
では分からない、と主張されてきました。
• しかし、コンピュータ化した大規模なコーパス
により、すべての可能な文を収集することは
不可能だが、一人の人間が一生のうちに発
する文よりもっと沢山の文を集めることができ
るようになりました。
• さらに、大規模なコーパスの中には、
ネイティブが「非文法的」と見なすような文も、
ある特定のコンテキスト(文脈)に置かれると
「自然」と感じられる
といった文があることが分かってきました。
• 例) the verb bark
“The dog barked loudly”
おそらく、barkは上の例のように、自動詞とし
てしか使わない、とネイティブは考えるでしょ
う。
“The dog barked”
“The dog barked at me”
は自然で文法的ですが、
“The dog barked me awake”
は不自然に聞こえます。
従来のようにネイティブの直感に頼ってきた言
語学者は、これを非文法的とみなすでしょう。
• しかし、コーパスの中を探してみると、次のよ
うな例を見つけることができます:
• She'd been alerted by our dog Brian who
had barked her awake under the firm
impression that his master was having a
nervous breakdown.
• コーパスのデータが示す、「典型的」または一
般的なことばの使用方法は、ネイティブが想
定するものとは違うことがあります。
• 動詞のrunを例に考えてみます。
• もしrun の意味を定義し、それをつかった文
をつくるとすると、どうしますか?
• おそらく、最初に思い浮かぶ定義は次のよう
なものではないでしょうか。
run: to move very quickly, by moving your
legs more quickly than when you walk
(Longman Dictionary)
• このようなrun の意味を用いた文は次のよう
なものがあります:
“The girl ran all the way to school.”
• おそらく、このような文が「基本的」もしくは「典
型的」なrunの使い方だと感じるでしょう。
• しかし、それは必ずしも実際に一番よく使わ
れる「一般的」な用法ではありません。
• 試しに、run をBritish National Corpus
(BNC) のオンライン版(フリー)を使って、表
示される50の例文を見てみましょう。
What runs?
• people and animals
BUT ALSO,
•
•
•
•
computers, machines
trains, buses,
roads, streets
businesses, organizations
• これを聞くと、ネイティブは当たり前のことだと
思うかもしれませんが、しかし、このことなか
なか気がつきません。
• これが、辞書を作成する出版社などが大規模
なコーパスを作り始めた理由のひとつ。
• 辞書を作成するには、言語使用の説明はで
きるだけ完全で正確であることが必要。