平成22年度 言語情報学演習 コーパス言語学入門 第1回 授業概要 授業名:情報システムコース実験演習 後期 火曜第2 フレーム 担当部分:言語情報学演習(コーパス言語学入門) 担当教員:藤 正明 日時:10月5日・10月26日・11月2日の3時30分から5時50 分(10月12日・10月19日は休講) 教室:1号館教育用計算機室 授業の予定 10月5日: コーパス言語学入門 ネイティブの直観を解き明かす(1) ―関係代名詞の省略― 11月2日:コーパスによる言語分析演習 コーパスを使った言語分析(2) 評価の方法(1) 1.課題レポート 3回の授業で、それぞれ、課題が出される。 毎回、原則として、授業のあった週の金曜日午後5時までに その授業で出された課題をワードファイルで以下のアドレス まで送付すること。(送付時間が〆切をすぎているレポートは 受け取らないので、時間に十分な余裕を持って送付するこ と。) [email protected] ただし、初回の授業の課題に関しては、〆切を10月22日(金) の午後5時とする。 メールの件名は、それぞれ、言語情報学1、言語情報学2、 言語情報学3とすること 評価の方法(2) 1.課題レポート(Cont’d) レポート作成にあたって、他人のレポートを見て書いたと判 断される場合は、見た方も、見せた方も、不正行為を行った ものとして処理するので、そのようなことは絶対に行わないこ と。 コーパス言語学概論 目次 1. 2. コーパスとは何か? コーパスを使って、ネイティヴスピーカー の直感 に迫る 1.コーパスとは何か? 英英辞典(Cambridge Advanced Learner’s Dictionary) の定義: a large amount of written and sometimes spoken material collected to show the state of a language (大量 の書かれた、時として話された文章で、ある言語の状況を 示すため集められたもの) 1.コーパスとは何か? 実用的な定義: 大量に集められた、機械可読(machine-readable)、すなわ ち、コンピューターで扱えるテキストの総体 コーパスの分類 サンプルコーパスとモニターコーパス 汎用コーパスと特殊目的コーパス 共時コーパスと通時コーパス 書き言葉コーパスと話し言葉コーパス サンプルコーパスと モニターコーパス(1) サンプルコーパス:コーパスを構築する際に、大量のテキ ストを収集して作られたもので、一旦構築されれば、それ 以後テキストの追加は行わない静的コーパス。 Brown Corpus (100万語) Lancaster-Oslo/Bergen Corpus of British English (LOB, 100 万語) London-Lund Corpus (LLC, 50万語) British National Corpus (BNC, 1億語) サンプルコーパスと モニターコーパス(2) モニターコーパス:古いコーパスを削除したり、新し いコーパスを追加したりして、コーパスを常に新しい 状態にしておこうとする動的コーパス。 Bank of English(BoE) 1995年11月=>総語数2億語 2004年10月=>総語数5億語 The Collins WordbanksOnline English Corpus (CWEC)=> 総語数5千6百万語 CWEC ⊂BoE British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ 問:日本語の「ハンサムな」という表現は男性に限られる。 例えば、「ハンサムなお兄さん/*ハンサムなお姉さん」。 しかし英語のhandsomeの使い方はどうだろう。a handsomeと入力することにより、後に来る名詞の種類が 調べられる BNC: Top Page BNC: About the BNC BNC: Search the Corpus CWEC ⊂BoE Corpus Concordance Sampler http://www.collins.co.uk/Corpus/CorpusSearch.as px 問:日本語の「登る」は「上方向に」限られる。例えば、「上 に登る/*下に登る」。英語のclimbはどうだろうか? CWEC ⊂BoE CWEC ⊂BoE 一般コーパスと 特殊コーパス(1) 一般コーパス:一般的な英語研究に使用する目的で、広範囲 の英語テキストを収集したコーパス。 Bank of English Brown Corpus British National Corpus 一般コーパスと 特殊コーパス(2) 特殊コーパス:特定分野の英語研究に使用する目的で、当該 分野の英語テキストを収集したコーパス。 CHILDES (Child Language Data Exchange Systems): 英語を母 語とする子供の発話データーを収集 JEFLL Corpus (Japanese EFL Learner Corpus):日本の中学・高 校生英語学習者による自由英作文コーパス CHILDES http://childes.psy.cmu.edu/ CHILDES JEFLL Corpus http://jefll.corpuscobo.net/ 問1:日本語では、「~について議論する」と言えるが、英 語では、discuss aboutとは言えない。この間違いをするケ ースは何パーセントか? 問2:「~は興奮している」をbe+excitingなどとする間違い は何パーセントあるのか? JEFLL Corpus JEFLL Corpus JEFLL Corpus 共時コーパスと通時コーパス(1) 共時コーパス:同時代のテキストのみを収集したコーパス。 Brown Corpus(1961年の書き言葉) British National Corpus(1975年以降のテキスト) 共時コーパスと通時コーパス(2) 通時コーパス:複数の時代のテキストを集めたコーパス。 Helsinki Corpus(750年から1710年) A Representative Corpus of Historical English Registers (ARCHER)(1650年から1990年) 書き言葉コーパスと話し言葉コーパス (1) 書き言葉コーパス:書かれたテキストを集めたコーパス。 Brown Corpus LOB Corpus Etc. 書き言葉コーパスと話し言葉コーパス (2) 話し言葉コーパス:会話を文字化したコーパス。 Santa Barbara Corpus of Spoken American English (CSAE) Michigan Corpus of Academic Spoken English (MICASE) 2.コーパスを使って、ネイティヴスピーカ ーの直感に迫る 譲歩を表すno matter構文: no matter + 疑問詞(who, how, where, etc.) That would be a lie no matter who said it. (誰が言ったとしても、それはうそだろう。) No matter how tough the situation looks, it‘s always possible to succeed, as long as you give it an effort. (状況がいかに厳しく見えたとしても、努力す る限り、常に成功の可能性はある。) 課題1: no matter構文について: 問1. 後に続くwh語としてはどのようなものが可能なの か?(what, how, where, when, who, whose, which, if, how come, why) 問2. それらの間には頻度に関して差があるのか? 問3. wh語以外にどんな品詞・句が後続できるのか? (名詞句、前置詞句、that節、etc.) 問4. それらの品詞・句の中でも、可能なものとそうで ないものがあるのか?
© Copyright 2024 ExpyDoc