コーパス言語学入門

コーパス言語学入門
2007年度1学期
第1回
コーパス言語学入門
•
•
•
•
•
•
•
授業科目名:言語情報学基礎
授業題目名:コーパス言語学入門
履修コード:4006
教室:216
担当:望月(1回~8回)/佐野(9回~14回)
一学期開講
授業の進め方
– 基本的に講義中心ですすめ,時々コンピュータを使う.
2
評価方法
• 前半の終わり8回目にテストを実施
• 後半ではレポートを3回出す予定
• テスト:
– A4の紙を手書きに限り1枚持ち込み可
• 授業のフォローは,Web上で行う
大学のトップページ→外国語学部案内→
学内ポータル→言語・情報コース→望月のページ
→講義関連のコーパス言語学入門へ
3
授業予定(前半)
4/17 第1回 概説(今日)
–
–
–
4/24
5/01
5/08
5/15
5/22
5/29
6/05
コーパス言語学とは何か?
コーパスとは何か?
何をする学問なのか?
第2回
第3回
第4回
第5回
第6回
第7回
第8回
コーパスの種類
休講
コーパスの作成,加工
コーパスの作成,加工(実習)
コーパスの利用
コーパスデータの分析
中間テスト
4
授業予定(後半)
6/12 第 9回 コーパスを利用する練習
6/19 第10回
6/26 第11回
7/03 第12回
7/10 第13回
7/17 第14回
9回から14回までは実習を中心に行う.
3回課題提出がある.
5
1.概説
• コーパス言語学とは何か?
その前に
• コーパスとは何か?
– 言語データを大量に収集したもの(≒電子化)
例: 新聞記事,雑誌記事,小説...書き言葉
会話データ...音声だと音声コーパス
書き起こすと,書き起こしコーパス
大量(新聞記事は1年で10万~20万記事に)
6
コーパスとは何か?
• コーパス
– 生の言語データ,我々が普段使っている言葉を
集めたもの.
→コーパスをある程度の規模で収集し,調査すると,
言語の特徴が見えてくる(はず)
7
コーパス言語学とは?
• コーパス言語学
– 言語学の一分野
– コーパス(言語資源)+コンピュータ(のパワー)を
利用した言語分析全般
ポイント
– 電子化されたコーパス(機械可読)
→ いろいろ良いことがある
8
機械可読になってよいこと
• 機械可読=コンピュータで利用できる
• コンピュータが利用できると良いことがある
– 検索が楽
• コーパスの中である「語」や[表現」などが出現する場
所をすばやく突き止めることができる.
– 語の統計データなどを取りやすい
• ある語が何回出現しているか(出現頻度)
• ある語とよく一緒に使われる語(共起語)
• どのくらいよく一緒に使われるか(共起頻度)
→集計したり一覧表にしたり,確率などの計算
9
機械可読になってよいこと
• 大量のデータを相手にしても比較的容易に処
理ができる.
– 例: 今日の新聞記事の中で「車」という文字が何
回でてくるか?
手作業で調べようと思ったら気が遠くなる...
コンピュータの力を借りれば作業は楽になる
では,一年分の記事に「車」が何回出てくるか?
手作業ではちょっと無理を感じる...
コンピュータの力を借りれば,十分可能な作業
10
コーパスを利用した研究
• どんな研究が行われているのか?
• 語彙調査
– 例:英語の違い
• アメリカ英語で書かれたコーパス
• イギリス英語で書かれたコーパス
同じ時期のものを同じジャンルから同じ量集めて比較
↓
• 共通に良く出てくる語
• 片方に偏って出てくる語
11
コーパスを利用した研究(つづき)
• 語彙調査
– 例:使用される語の移り変わり
• 10年前の日本語
• 今の日本語
同じジャンルから同じ量集めて比較
↓
• 同一の言語での「はやり」や「すたり」
• 新しい表現,定着
12
コーパスを利用した研究(つづき)
• 仮説の検証
– ある場面では「A」,「B」どちらの語や表現が使わ
れるか?
一般にこっちだ,と言われるような事柄は正しい
か?
– 実際の言語データ(コーパス)を調べ,どのような
使われ方がされているかを検証
13
コーパスを利用した研究(つづき)
• 言語教育への利用
– ある言語の学習者が書いた文章
– 対応する正しい文章
両方の文章の差を調べて,どんな間違いをしや
すいかを探る(分析)
→教育に利用
例:NHKの100語でスタート!英会話
14
コーパスを利用した研究(つづき)
• 辞書の編纂(編集)
– 既存辞書中の例文は,いまどきの言葉か?
– これまで辞書で扱われていなかった新しい表現,
意味は存在しないか?
など
• 文体研究
– ある文書の作者は誰か?(著者推定,真贋判定)
– 誰々風の文章を作る
15
まとめ
• この授業では次のことを学ぶ.
– コーパスにはどのような種類があるか
– コーパスをどのように作るか,集めるか
– コーパスをどうやって使うか(ツールなど)
注意:
何か分析しようと思えば,何かしらのデータは出てくる.
しかし,それが本当に意味あるデータかどうかはわからない
– データを分析する,確かめる技術,知識
• 実際のコーパスに触れて利用する練習
16