メンタルレキシコン4: ことばの意味を言語データから探る コーパス言語学とは? • コーパス言語学とは、コーパス(テキストの総 体)をつかった、言語の科学的研究のことで す。 コーパスとは何か? • コーパス(corpus, pl. corpora; 「身体」を意 味するラテン語に由来)とは 、ある言語研究 の目的のために大量に収集されたテキストの 総体です。 • 近年ではコーパスは大抵コンピュータによっ て収集、処理、アクセスされます。 コンピュータ登場以前のコーパス • シェイクスピアの著作 • 聖書やそれに関したテキスト • オックスフォード辞典を作成するための参考 資料集め。 コンピュータによる大規模化 • 初期のコーパスは必然的に量に限界があり ました。しかし、コンピュータの発達により、言 語学者や他の研究者はより大きなコーパスを 作り始めました。 The Brown Corpus • 最初のコンピュータをつかったコーパス。 • 1961年にBrown Universityで作成された。 • 新聞記事、教会の説教、小説など、幅広い ジャンルのアメリカ英語から100万語を収集し た。 • ブラウン・コーパスで扱われるテキストは、慎 重に抽出され、広範囲にわたるため信頼性 が比較的高い。 • さらに、無償で提供されているため、現在でも 多くの研究者が利用してる。 なぜコーパスをつくるのか? • ブラウン・コーパスや他のコーパスの目標: – 英語の多様性を捉えること – そして、それを言語学的に説明すること • 1960sのノーム・チョムスキーから始まり、 1980sごろまで、多くの言語学者は「ネイティ ブの直感」に頼った方法で言語を研究してい ました。 • たとえば、言語学者は次のような形でネイティ ブに質問していました。 – “How do you say X in your native language?” – “Is this sentence grammatical in your language?” • 話者は創造的で、新しい文章をどんどん作る ことができるのだから、なにが言語にとって可 能であるかは、ただ発せられた文を見るだけ では分からない、と主張されてきました。 • しかし、コンピュータ化した大規模なコーパス により、すべての可能な文を収集することは 不可能だが、一人の人間が一生のうちに発 する文よりもっと沢山の文を集めることができ るようになりました。 • さらに、大規模なコーパスの中には、 ネイティブが「非文法的」と見なすような文も、 ある特定のコンテキスト(文脈)に置かれると 「自然」と感じられる といった文があることが分かってきました。 • 例) the verb bark “The dog barked loudly” おそらく、barkは上の例のように、自動詞とし てしか使わない、とネイティブは考えるでしょ う。 “The dog barked” “The dog barked at me” は自然で文法的ですが、 “The dog barked me awake” は不自然に聞こえます。 従来のようにネイティブの直感に頼ってきた言 語学者は、これを非文法的とみなすでしょう。 • しかし、コーパスの中を探してみると、次のよ うな例を見つけることができます: • She'd been alerted by our dog Brian who had barked her awake under the firm impression that his master was having a nervous breakdown. • コーパスのデータが示す、「典型的」または一 般的なことばの使用方法は、ネイティブが想 定するものとは違うことがあります。 • 動詞のrunを例に考えてみます。 • もしrun の意味を定義し、それをつかった文 をつくるとすると、どうしますか? • おそらく、最初に思い浮かぶ定義は次のよう なものではないでしょうか。 run: to move very quickly, by moving your legs more quickly than when you walk (Longman Dictionary) • このようなrun の意味を用いた文は次のよう なものがあります: “The girl ran all the way to school.” • おそらく、このような文が「基本的」もしくは「典 型的」なrunの使い方だと感じるでしょう。 • しかし、それは必ずしも実際に一番よく使わ れる「一般的」な用法ではありません。 • 試しに、run をBritish National Corpus (BNC) のオンライン版(フリー)を使って、表 示される50の例文を見てみましょう。 What runs? • people and animals BUT ALSO, • • • • computers, machines trains, buses, roads, streets businesses, organizations • これを聞くと、ネイティブは当たり前のことだと 思うかもしれませんが、しかし、このことなか なか気がつきません。 • これが、辞書を作成する出版社などが大規模 なコーパスを作り始めた理由のひとつ。 • 辞書を作成するには、言語使用の説明はで きるだけ完全で正確であることが必要。
© Copyright 2024 ExpyDoc