コーパス言語学入門 2007年度1学期 第1回 コーパス言語学入門 • • • • • • • 授業科目名:言語情報学基礎 授業題目名:コーパス言語学入門 履修コード:4006 教室:216 担当:望月(1回~8回)/佐野(9回~14回) 一学期開講 授業の進め方 – 基本的に講義中心ですすめ,時々コンピュータを使う. 2 評価方法 • 前半の終わり8回目にテストを実施 • 後半ではレポートを3回出す予定 • テスト: – A4の紙を手書きに限り1枚持ち込み可 • 授業のフォローは,Web上で行う 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学入門へ 3 授業予定(前半) 4/17 第1回 概説(今日) – – – 4/24 5/01 5/08 5/15 5/22 5/29 6/05 コーパス言語学とは何か? コーパスとは何か? 何をする学問なのか? 第2回 第3回 第4回 第5回 第6回 第7回 第8回 コーパスの種類 休講 コーパスの作成,加工 コーパスの作成,加工(実習) コーパスの利用 コーパスデータの分析 中間テスト 4 授業予定(後半) 6/12 第 9回 コーパスを利用する練習 6/19 第10回 6/26 第11回 7/03 第12回 7/10 第13回 7/17 第14回 9回から14回までは実習を中心に行う. 3回課題提出がある. 5 1.概説 • コーパス言語学とは何か? その前に • コーパスとは何か? – 言語データを大量に収集したもの(≒電子化) 例: 新聞記事,雑誌記事,小説...書き言葉 会話データ...音声だと音声コーパス 書き起こすと,書き起こしコーパス 大量(新聞記事は1年で10万~20万記事に) 6 コーパスとは何か? • コーパス – 生の言語データ,我々が普段使っている言葉を 集めたもの. →コーパスをある程度の規模で収集し,調査すると, 言語の特徴が見えてくる(はず) 7 コーパス言語学とは? • コーパス言語学 – 言語学の一分野 – コーパス(言語資源)+コンピュータ(のパワー)を 利用した言語分析全般 ポイント – 電子化されたコーパス(機械可読) → いろいろ良いことがある 8 機械可読になってよいこと • 機械可読=コンピュータで利用できる • コンピュータが利用できると良いことがある – 検索が楽 • コーパスの中である「語」や[表現」などが出現する場 所をすばやく突き止めることができる. – 語の統計データなどを取りやすい • ある語が何回出現しているか(出現頻度) • ある語とよく一緒に使われる語(共起語) • どのくらいよく一緒に使われるか(共起頻度) →集計したり一覧表にしたり,確率などの計算 9 機械可読になってよいこと • 大量のデータを相手にしても比較的容易に処 理ができる. – 例: 今日の新聞記事の中で「車」という文字が何 回でてくるか? 手作業で調べようと思ったら気が遠くなる... コンピュータの力を借りれば作業は楽になる では,一年分の記事に「車」が何回出てくるか? 手作業ではちょっと無理を感じる... コンピュータの力を借りれば,十分可能な作業 10 コーパスを利用した研究 • どんな研究が行われているのか? • 語彙調査 – 例:英語の違い • アメリカ英語で書かれたコーパス • イギリス英語で書かれたコーパス 同じ時期のものを同じジャンルから同じ量集めて比較 ↓ • 共通に良く出てくる語 • 片方に偏って出てくる語 11 コーパスを利用した研究(つづき) • 語彙調査 – 例:使用される語の移り変わり • 10年前の日本語 • 今の日本語 同じジャンルから同じ量集めて比較 ↓ • 同一の言語での「はやり」や「すたり」 • 新しい表現,定着 12 コーパスを利用した研究(つづき) • 仮説の検証 – ある場面では「A」,「B」どちらの語や表現が使わ れるか? 一般にこっちだ,と言われるような事柄は正しい か? – 実際の言語データ(コーパス)を調べ,どのような 使われ方がされているかを検証 13 コーパスを利用した研究(つづき) • 言語教育への利用 – ある言語の学習者が書いた文章 – 対応する正しい文章 両方の文章の差を調べて,どんな間違いをしや すいかを探る(分析) →教育に利用 例:NHKの100語でスタート!英会話 14 コーパスを利用した研究(つづき) • 辞書の編纂(編集) – 既存辞書中の例文は,いまどきの言葉か? – これまで辞書で扱われていなかった新しい表現, 意味は存在しないか? など • 文体研究 – ある文書の作者は誰か?(著者推定,真贋判定) – 誰々風の文章を作る 15 まとめ • この授業では次のことを学ぶ. – コーパスにはどのような種類があるか – コーパスをどのように作るか,集めるか – コーパスをどうやって使うか(ツールなど) 注意: 何か分析しようと思えば,何かしらのデータは出てくる. しかし,それが本当に意味あるデータかどうかはわからない – データを分析する,確かめる技術,知識 • 実際のコーパスに触れて利用する練習 16
© Copyright 2024 ExpyDoc