コーパス言語学入門 第2回 本日の内容 • 前回のおさらい – コーパス言語学とは? • コーパスにはどんな種類があるか 2 コーパス言語学とは?(前回のおさらい) • コーパスとは? – 実際に使用されている言語を 言語データとして 大量に収集したもの(≒電子化) – 代表例:新聞記事,小説など →コーパスを眺めていると, 言語の特徴が見えてくる(はず) 3 コーパス言語学とは?(前回のおさらい) • コーパス言語学 – 言語学の一分野 – コーパス(言語資源)+コンピュータ(のパワー)を 利用した言語分析全般 ポイント – 電子化されたコーパス(機械可読)とコンピュータ だからできる規模を生かす • 検索,数え上げ,数値分析など 4 この授業では ・コーパスにはどのような種類があるか ・コーパスは,どのように作るか ・集めるかコーパスをどうやって使うか (ツールの話) ・コーパスを分析して出た結果を分析する技術, 知識 といったことを学ぶ. 5 コーパスの種類 • コーパス: – 実際に使用されている言葉を切り取って集める ということだが... 6 コーパスの種類 • コーパス: – 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 7 コーパスの種類 • コーパス: – 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか? 8 コーパスの種類 • コーパス: – 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 9 コーパスの種類 • コーパス: – 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか? ここを考える必要がある =どうやって良いコーパスを準備するか? 10 コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは? 11 コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ 12 コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ ただし,コーパスの利用目的によって 何が良いかは異なる 13 コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? コーパスを分ける特徴を ここで, 良い とは? 整理して,違いを知ろう 良い=役に立つ ただし,コーパスの利用目的によって 何が良いかは異なる 14 コーパスの特徴 • コーパスの違いを区別する特徴5つ 1. 2. 3. 4. 5. 規模 量の変化 汎用性 収集期間 掲載メディア 15 コーパスの特徴-1.規模(1) 1. 規模 : どのくらいの量を集めるか? ...収集する量の違いによる分類 大,中,小 最近は 大規模コーパスが多い コンピュータの発達で, 記憶容量↑ インターネットなどの普及で, 流通量↑ 16 コーパスの特徴-1.規模(2) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト 17 コーパスの特徴-1.規模(3) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →世界で最初の電子化コーパス 現代では,小規模コーパス 18 コーパスの特徴-1.規模(4) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト 19 コーパスの特徴-1.規模(5) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →Brown Corpusのイギリス英語版 同じく現代では小規模 20 コーパスの特徴-1.規模(6) 例でみる規模の差 BNC Corpus ... British National Corpus • オクスフォード大を中心,1991~1994のプロジェクト • 総語数 約1億語,イギリス英語 • 90%が書き言葉,10%が話し言葉 約8974万語,3209テキスト →大か中規模の部類 (BNC2というのもある4054テキスト) 21 コーパスの特徴-1.規模(7) 問い: コーパスの規模は大きいほど良いか? 22 コーパスの特徴-1.規模(8) 問い: コーパスの規模は大きいほど良いか? 回答: (たぶん)良い. しかし,量が多いだけで質が悪いと逆効果. 少量でも人手によって質を向上させた方が良い. 質が良くて量があれば,なお良い. 23 コーパスの特徴-2.変化(1) 2. 量の変化: サンプルコーパス,モニタコーパス コーパスのデータの集め方の違い サンプルコーパスとモニタコーパスに大別 24 コーパスの特徴-2.変化(2) • サンプルコーパス – 収集されるテキストの量が固定 – 1回集めたら,そこで固定する 例: Brown Corpus, LOB Corpus 100万語 初期のコーパスがほとんどこのタイプ 25 コーパスの特徴-2.変化(3) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける ある時点で コーパス 収集 26 コーパスの特徴-2.変化(4) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける 新しい情報 コーパス 27 コーパスの特徴-2.変化(5) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける コーパス 新しい情報 追加 28 コーパスの特徴-2.変化(6) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける コーパス 古い情報 29 コーパスの特徴-2.変化(7) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける コーパス 古い情報 取り除く 30 コーパスの特徴-2.変化(8) • モニタコーパス – 収集されるテキストの量を固定しない – 1回集めても,収集しつづける コーパス 最新状態 維持 31 コーパスの特徴-2.変化(9) • モニタコーパス 例:Bank of English 1980年代にCobuildプロジェクトとして開始 1995年11月時点で約2億語 2002年1月時点で約4.5億語 本,雑誌,新聞,パンフレット,手紙などの書き言葉 ラジオ放送,ミーティング,インタビューなどの話し言葉 イギリス英語中心70%,米英語20%,その他10% 32 コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス どちらがいいのか? 33 コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス どちらがいいのか? 回答: どっちがいいとかいう問題とは違う ある時点を切り取って分析するか, 常に現在に近い状態を保って分析するか という方法の違いによる 34 コーパスの特徴-3.汎用性(1) 3. 汎用性: 汎用,特殊目的,その他 集められたコーパスの特殊性の違い 35 コーパスの特徴-3.汎用性(2) • 汎用コーパス 様々な研究目的に使うことを想定して編纂 general purpose corpus 例:Brown Corpus, LOB Corpus, BNC, Bank of English 多くのコーパスが汎用性を持つ 36 コーパスの特徴-3.汎用性(3) • 特殊目的のコーパス 特定の言語研究を目的に編纂 special purpose corpus 例:ある作家の作品, 幼児の言葉, 語学学習者の作文データ 目的がはっきりしているが,内容は偏ってい るので,目的外では使いにくい 37 コーパスの特徴-3.汎用性(4) • その他-パラレルコーパス 2(以上)言語が対になったコーパス 例:ケベック州の議事録,対訳集など 機械翻訳のデータなどに利用 38 コーパスの特徴-3.汎用性(5) 問い: 汎用的なものと特殊なものどちらを使う べきか? 39 コーパスの特徴-3.汎用性(6) 問い: 汎用的なものと特殊なものどちらを使う べきか? 回答: 通常は汎用的なものを使う 何か特別な意図があるときは,その目的用を使う 40 コーパスの特徴-4.収集期間(1) 4. 収集期間: 共時的,通時的の別 コーパスとして集めたデータが実際に現れた 期間に注目した分類 41 コーパスの特徴-4.収集期間(2) • 共時コーパス – コーパス(集めたデータなのでサンプルともい う)を,同時代に限って収集 例: Brown Corpus や LOB Corpusは 1961年の言語データに限って収集 42 コーパスの特徴-4.収集期間(3) • 通時コーパス – 複数の時代区分,時代別にコーパス(集めた データなのでサンプルともいう)を収集 例: The Helsinki Corpus of English Texts 750年~1710年にわたる160万語弱のコーパス – old English 750 - 1150 約41万語 – middle English 1150- 1500 約60万語 – early modern English, British 1500- 1710 約55万語 43 コーパスの特徴-4.収集期間(4) 問い: 共時,通時,どちらがよいか? 44 コーパスの特徴-4.収集期間(5) 問い: 共時,通時,どちらがよいか? 回答: 共時的研究では共時,通時的研究では通時. 時代とともに言語も変わるので,調査対象が自分 の目的と大きく変わらないように選ぶ 45 コーパスの特徴-5.メディア(1) 5. 掲載メディア: 書き言葉,話し言葉,その他 どんなメディアを通じて発せられた言葉か? 使われる言葉のスタイルが大きく異なる 46 コーパスの特徴-5.メディア(2) • 書き言葉に属するもの 新聞, 本, 雑誌, パンフレット など • 話し言葉に属するもの 対話,ラジオニュース,テレビニュース, スピーチ, 講義 47 コーパスの特徴-5.メディア(3) • 話し言葉と書き言葉の中間? わりと新しいメディアの場合に見られる 例: e-mailの文章,WWWの文章, チャット, ブログ, 掲示板 の中で,フォーマルでない場合. 48 コーパスの特徴-5.メディア(4) 問い: メディアによる言葉の違いが何に影響 するか? 49 コーパスの特徴-5.メディア(5) 問い: メディアによる言葉の違いが何に影響 するか? 回答: 書き言葉は,比較的きっちりした文法がある 話し言葉は,文法の見極めもかなり難しい 中間的な言葉は,いろいろ. 50 コーパスの特徴-5.メディア(6) 回答: 書き言葉は,比較的きっちりした文法がある – – 1文は「。」で終わる. 1文を見ると,比較的ちゃんと,主語,述語,修飾語など が存在する. → コンピュータによる言語処理がしやすい (頼りにできる情報が多いので) 51 コーパスの特徴-5.メディア(6) 回答: 話し言葉は,文法の見極めもかなり難しい – 1文というのがそもそも,はっきりしない. 「えっと,それでー」「わたしはー」 – 文が途中だったり,割り込みが入ると中身が変わったり – 単語も怪しげ.「ちわーす」「げっ」「っていうか」 → コンピュータによる言語処理はしにくい (頼りにできる情報があまりないので) 52 コーパスの特徴-5.メディア(6) 回答: 中間的な言葉は,いろいろ – – 1文がはっきりしないことも,はっきりすることもある. メディアがWebだと,特殊な言葉が見られることもある 顔文字「(^_^;;」「変な椰子」「スマソ」,ギャル文字? – コミュニティ独特の語も見られる キャラダイ,雨パレ,フェイスキャラ,チーデー → コンピュータによる言語処理は難しい 一方,新しいタイプの言語研究データでもある. 53 良いコーパスの準備 • 良さ:研究目的に依存 →以上見てきたコーパスの特徴を踏まえて, 自分の目的に合う特徴を持ったコーパス 選ぶことが大事 次回は,コーパスの作成について 54
© Copyright 2024 ExpyDoc