H22 後期(火曜)海事システム工学実験演習II 資料1

平成22年度
言語情報学演習
コーパス言語学入門
第1回
授業概要
 授業名:情報システムコース実験演習 後期 火曜第2
フレーム
 担当部分:言語情報学演習(コーパス言語学入門)
 担当教員:藤 正明
 日時:10月5日・10月26日・11月2日の3時30分から5時50
分(10月12日・10月19日は休講)
 教室:1号館教育用計算機室
授業の予定
 10月5日:
 コーパス言語学入門
 ネイティブの直観を解き明かす(1)
―関係代名詞の省略―
 11月2日:コーパスによる言語分析演習

コーパスを使った言語分析(2)
評価の方法(1)
1.課題レポート
 3回の授業で、それぞれ、課題が出される。
 毎回、原則として、授業のあった週の金曜日午後5時までに
その授業で出された課題をワードファイルで以下のアドレス
まで送付すること。(送付時間が〆切をすぎているレポートは
受け取らないので、時間に十分な余裕を持って送付するこ
と。)
[email protected]
 ただし、初回の授業の課題に関しては、〆切を10月22日(金)
の午後5時とする。
 メールの件名は、それぞれ、言語情報学1、言語情報学2、
言語情報学3とすること
評価の方法(2)
1.課題レポート(Cont’d)
 レポート作成にあたって、他人のレポートを見て書いたと判
断される場合は、見た方も、見せた方も、不正行為を行った
ものとして処理するので、そのようなことは絶対に行わないこ
と。
コーパス言語学概論 目次
1.
2.
コーパスとは何か?
コーパスを使って、ネイティヴスピーカー の直感
に迫る
1.コーパスとは何か?
 英英辞典(Cambridge Advanced Learner’s Dictionary)
の定義:
 a large amount of written and sometimes spoken
material collected to show the state of a language (大量
の書かれた、時として話された文章で、ある言語の状況を
示すため集められたもの)
1.コーパスとは何か?
 実用的な定義:
 大量に集められた、機械可読(machine-readable)、すなわ
ち、コンピューターで扱えるテキストの総体
 コーパスの分類




サンプルコーパスとモニターコーパス
汎用コーパスと特殊目的コーパス
共時コーパスと通時コーパス
書き言葉コーパスと話し言葉コーパス
 サンプルコーパスと
モニターコーパス(1)

サンプルコーパス:コーパスを構築する際に、大量のテキ
ストを収集して作られたもので、一旦構築されれば、それ
以後テキストの追加は行わない静的コーパス。




Brown Corpus (100万語)
Lancaster-Oslo/Bergen Corpus of British English (LOB, 100
万語)
London-Lund Corpus (LLC, 50万語)
British National Corpus (BNC, 1億語)
 サンプルコーパスと
モニターコーパス(2)

モニターコーパス:古いコーパスを削除したり、新し
いコーパスを追加したりして、コーパスを常に新しい
状態にしておこうとする動的コーパス。



Bank of English(BoE)
1995年11月=>総語数2億語
2004年10月=>総語数5億語
The Collins WordbanksOnline English Corpus (CWEC)=>
総語数5千6百万語
CWEC ⊂BoE
 British National Corpus (BNC)
http://www.natcorp.ox.ac.uk/
問:日本語の「ハンサムな」という表現は男性に限られる。
例えば、「ハンサムなお兄さん/*ハンサムなお姉さん」。
しかし英語のhandsomeの使い方はどうだろう。a
handsomeと入力することにより、後に来る名詞の種類が
調べられる
 BNC: Top Page
 BNC: About the BNC
 BNC: Search the Corpus
 CWEC ⊂BoE
Corpus Concordance Sampler
http://www.collins.co.uk/Corpus/CorpusSearch.as
px
問:日本語の「登る」は「上方向に」限られる。例えば、「上
に登る/*下に登る」。英語のclimbはどうだろうか?
CWEC ⊂BoE
 CWEC ⊂BoE
 一般コーパスと
特殊コーパス(1)

一般コーパス:一般的な英語研究に使用する目的で、広範囲
の英語テキストを収集したコーパス。



Bank of English
Brown Corpus
British National Corpus
 一般コーパスと
特殊コーパス(2)

特殊コーパス:特定分野の英語研究に使用する目的で、当該
分野の英語テキストを収集したコーパス。


CHILDES (Child Language Data Exchange Systems): 英語を母
語とする子供の発話データーを収集
JEFLL Corpus (Japanese EFL Learner Corpus):日本の中学・高
校生英語学習者による自由英作文コーパス
 CHILDES
 http://childes.psy.cmu.edu/
 CHILDES
 JEFLL Corpus
 http://jefll.corpuscobo.net/
 問1:日本語では、「~について議論する」と言えるが、英
語では、discuss aboutとは言えない。この間違いをするケ
ースは何パーセントか?
 問2:「~は興奮している」をbe+excitingなどとする間違い
は何パーセントあるのか?
 JEFLL Corpus
 JEFLL Corpus
 JEFLL Corpus
 共時コーパスと通時コーパス(1)

共時コーパス:同時代のテキストのみを収集したコーパス。


Brown Corpus(1961年の書き言葉)
British National Corpus(1975年以降のテキスト)
 共時コーパスと通時コーパス(2)

通時コーパス:複数の時代のテキストを集めたコーパス。


Helsinki Corpus(750年から1710年)
A Representative Corpus of Historical English Registers
(ARCHER)(1650年から1990年)
 書き言葉コーパスと話し言葉コーパス
(1)

書き言葉コーパス:書かれたテキストを集めたコーパス。



Brown Corpus
LOB Corpus
Etc.
 書き言葉コーパスと話し言葉コーパス
(2)

話し言葉コーパス:会話を文字化したコーパス。


Santa Barbara Corpus of Spoken American English (CSAE)
Michigan Corpus of Academic Spoken English (MICASE)
2.コーパスを使って、ネイティヴスピーカ
ーの直感に迫る
 譲歩を表すno matter構文:
no matter + 疑問詞(who, how, where, etc.)
 That would be a lie no matter who said it.
(誰が言ったとしても、それはうそだろう。)
 No matter how tough the situation looks, it‘s
always possible to succeed, as long as you give it an
effort. (状況がいかに厳しく見えたとしても、努力す
る限り、常に成功の可能性はある。)
課題1:
no matter構文について:
 問1. 後に続くwh語としてはどのようなものが可能なの
か?(what, how, where, when, who, whose, which,
if, how come, why)
 問2. それらの間には頻度に関して差があるのか?
 問3. wh語以外にどんな品詞・句が後続できるのか?
(名詞句、前置詞句、that節、etc.)
 問4. それらの品詞・句の中でも、可能なものとそうで
ないものがあるのか?