コーパス言語学入門

コーパス言語学入門
第2回
本日の内容
• 前回のおさらい
– コーパス言語学とは?
• コーパスにはどんな種類があるか
2
コーパス言語学とは?(前回のおさらい)
• コーパスとは?
– 実際に使用されている言語を 言語データとして
大量に収集したもの(≒電子化)
– 代表例:新聞記事,小説など
→コーパスを眺めていると,
言語の特徴が見えてくる(はず)
3
コーパス言語学とは?(前回のおさらい)
• コーパス言語学
– 言語学の一分野
– コーパス(言語資源)+コンピュータ(のパワー)を
利用した言語分析全般
ポイント
– 電子化されたコーパス(機械可読)とコンピュータ
だからできる規模を生かす
• 検索,数え上げ,数値分析など
4
この授業では
・コーパスにはどのような種類があるか
・コーパスは,どのように作るか
・集めるかコーパスをどうやって使うか
(ツールの話)
・コーパスを分析して出た結果を分析する技術,
知識
といったことを学ぶ.
5
コーパスの種類
• コーパス:
– 実際に使用されている言葉を切り取って集める
ということだが...
6
コーパスの種類
• コーパス:
– 実際に使用されている言葉を切り取って集める
(普通に考えれば)全てを集めることは不可能
7
コーパスの種類
• コーパス:
– 実際に使用されている言葉を切り取って集める
(普通に考えれば)全てを集めることは不可能
↓
どうやってテキストを選んで集めるか?
8
コーパスの種類
• コーパス:
– 実際に使用されている言葉を切り取って集める
(普通に考えれば)全てを集めることは不可能
↓
どうやってテキストを選んで集めるか?
=どうやって良いコーパスを準備するか?
9
コーパスの種類
• コーパス:
– 実際に使用されている言葉を切り取って集める
(普通に考えれば)全てを集めることは不可能
↓
どうやってテキストを選んで集めるか?
ここを考える必要がある
=どうやって良いコーパスを準備するか?
10
コーパスの種類
どうやってテキストを選んで集めるか?
=どうやって良いコーパスを準備するか?
良い とは?
11
コーパスの種類
どうやってテキストを選んで集めるか?
=どうやって良いコーパスを準備するか?
良い とは?
良い=役に立つ
12
コーパスの種類
どうやってテキストを選んで集めるか?
=どうやって良いコーパスを準備するか?
良い とは?
良い=役に立つ
ただし,コーパスの利用目的によって
何が良いかは異なる
13
コーパスの種類
どうやってテキストを選んで集めるか?
=どうやって良いコーパスを準備するか?
コーパスを分ける特徴を
ここで, 良い とは?
整理して,違いを知ろう
良い=役に立つ
ただし,コーパスの利用目的によって
何が良いかは異なる
14
コーパスの特徴
•
コーパスの違いを区別する特徴5つ
1.
2.
3.
4.
5.
規模
量の変化
汎用性
収集期間
掲載メディア
15
コーパスの特徴-1.規模(1)
1. 規模 :
どのくらいの量を集めるか?
...収集する量の違いによる分類 大,中,小
最近は 大規模コーパスが多い
コンピュータの発達で, 記憶容量↑
インターネットなどの普及で, 流通量↑
16
コーパスの特徴-1.規模(2)
例でみる規模の差
Brown Corpus ... 米英語の書き言葉のコーパス
• 1961年に米で出版された本,新聞,雑誌など
• 15カテゴリー,計500テキスト
• 総語数 約100万語,平均約2000語/テキスト
17
コーパスの特徴-1.規模(3)
例でみる規模の差
Brown Corpus ... 米英語の書き言葉のコーパス
• 1961年に米で出版された本,新聞,雑誌など
• 15カテゴリー,計500テキスト
• 総語数 約100万語,平均約2000語/テキスト
→世界で最初の電子化コーパス
現代では,小規模コーパス
18
コーパスの特徴-1.規模(4)
例でみる規模の差
LOB Corpus ... 英英語の書き言葉のコーパス
• 1961年に英で出版された本,新聞,雑誌など
• 15カテゴリー,計500テキスト
• 総語数 約100万語,平均約2000語/テキスト
19
コーパスの特徴-1.規模(5)
例でみる規模の差
LOB Corpus ... 英英語の書き言葉のコーパス
• 1961年に英で出版された本,新聞,雑誌など
• 15カテゴリー,計500テキスト
• 総語数 約100万語,平均約2000語/テキスト
→Brown Corpusのイギリス英語版
同じく現代では小規模
20
コーパスの特徴-1.規模(6)
例でみる規模の差
BNC Corpus ... British National Corpus
• オクスフォード大を中心,1991~1994のプロジェクト
• 総語数 約1億語,イギリス英語
• 90%が書き言葉,10%が話し言葉
約8974万語,3209テキスト
→大か中規模の部類
(BNC2というのもある4054テキスト)
21
コーパスの特徴-1.規模(7)
問い:
コーパスの規模は大きいほど良いか?
22
コーパスの特徴-1.規模(8)
問い:
コーパスの規模は大きいほど良いか?
回答: (たぶん)良い.
しかし,量が多いだけで質が悪いと逆効果.
少量でも人手によって質を向上させた方が良い.
質が良くて量があれば,なお良い.
23
コーパスの特徴-2.変化(1)
2. 量の変化: サンプルコーパス,モニタコーパス
コーパスのデータの集め方の違い
サンプルコーパスとモニタコーパスに大別
24
コーパスの特徴-2.変化(2)
• サンプルコーパス
– 収集されるテキストの量が固定
– 1回集めたら,そこで固定する
例: Brown Corpus, LOB Corpus 100万語
初期のコーパスがほとんどこのタイプ
25
コーパスの特徴-2.変化(3)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
ある時点で
コーパス
収集
26
コーパスの特徴-2.変化(4)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
新しい情報
コーパス
27
コーパスの特徴-2.変化(5)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
コーパス
新しい情報
追加
28
コーパスの特徴-2.変化(6)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
コーパス
古い情報
29
コーパスの特徴-2.変化(7)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
コーパス
古い情報
取り除く
30
コーパスの特徴-2.変化(8)
• モニタコーパス
– 収集されるテキストの量を固定しない
– 1回集めても,収集しつづける
コーパス
最新状態
維持
31
コーパスの特徴-2.変化(9)
• モニタコーパス
例:Bank of English
1980年代にCobuildプロジェクトとして開始
1995年11月時点で約2億語
2002年1月時点で約4.5億語
本,雑誌,新聞,パンフレット,手紙などの書き言葉
ラジオ放送,ミーティング,インタビューなどの話し言葉
イギリス英語中心70%,米英語20%,その他10%
32
コーパスの特徴-2.変化(10)
問い:
サンプルコーパスとモニタコーパス
どちらがいいのか?
33
コーパスの特徴-2.変化(10)
問い:
サンプルコーパスとモニタコーパス
どちらがいいのか?
回答:
どっちがいいとかいう問題とは違う
ある時点を切り取って分析するか,
常に現在に近い状態を保って分析するか
という方法の違いによる
34
コーパスの特徴-3.汎用性(1)
3. 汎用性: 汎用,特殊目的,その他
集められたコーパスの特殊性の違い
35
コーパスの特徴-3.汎用性(2)
• 汎用コーパス
様々な研究目的に使うことを想定して編纂
general purpose corpus
例:Brown Corpus, LOB Corpus, BNC,
Bank of English
多くのコーパスが汎用性を持つ
36
コーパスの特徴-3.汎用性(3)
• 特殊目的のコーパス
特定の言語研究を目的に編纂
special purpose corpus
例:ある作家の作品, 幼児の言葉,
語学学習者の作文データ
目的がはっきりしているが,内容は偏ってい
るので,目的外では使いにくい
37
コーパスの特徴-3.汎用性(4)
• その他-パラレルコーパス
2(以上)言語が対になったコーパス
例:ケベック州の議事録,対訳集など
機械翻訳のデータなどに利用
38
コーパスの特徴-3.汎用性(5)
問い:
汎用的なものと特殊なものどちらを使う
べきか?
39
コーパスの特徴-3.汎用性(6)
問い:
汎用的なものと特殊なものどちらを使う
べきか?
回答:
通常は汎用的なものを使う
何か特別な意図があるときは,その目的用を使う
40
コーパスの特徴-4.収集期間(1)
4. 収集期間: 共時的,通時的の別
コーパスとして集めたデータが実際に現れた
期間に注目した分類
41
コーパスの特徴-4.収集期間(2)
•
共時コーパス
– コーパス(集めたデータなのでサンプルともい
う)を,同時代に限って収集
例: Brown Corpus や LOB Corpusは
1961年の言語データに限って収集
42
コーパスの特徴-4.収集期間(3)
•
通時コーパス
– 複数の時代区分,時代別にコーパス(集めた
データなのでサンプルともいう)を収集
例: The Helsinki Corpus of English Texts
750年~1710年にわたる160万語弱のコーパス
–
old English
750 - 1150 約41万語
– middle English 1150- 1500 約60万語
– early modern English, British
1500- 1710 約55万語
43
コーパスの特徴-4.収集期間(4)
問い:
共時,通時,どちらがよいか?
44
コーパスの特徴-4.収集期間(5)
問い:
共時,通時,どちらがよいか?
回答:
共時的研究では共時,通時的研究では通時.
時代とともに言語も変わるので,調査対象が自分
の目的と大きく変わらないように選ぶ
45
コーパスの特徴-5.メディア(1)
5. 掲載メディア: 書き言葉,話し言葉,その他
どんなメディアを通じて発せられた言葉か?
使われる言葉のスタイルが大きく異なる
46
コーパスの特徴-5.メディア(2)
•
書き言葉に属するもの
新聞, 本, 雑誌, パンフレット など
•
話し言葉に属するもの
対話,ラジオニュース,テレビニュース,
スピーチ, 講義
47
コーパスの特徴-5.メディア(3)
•
話し言葉と書き言葉の中間?
わりと新しいメディアの場合に見られる
例:
e-mailの文章,WWWの文章,
チャット, ブログ, 掲示板
の中で,フォーマルでない場合.
48
コーパスの特徴-5.メディア(4)
問い:
メディアによる言葉の違いが何に影響
するか?
49
コーパスの特徴-5.メディア(5)
問い:
メディアによる言葉の違いが何に影響
するか?
回答:
書き言葉は,比較的きっちりした文法がある
話し言葉は,文法の見極めもかなり難しい
中間的な言葉は,いろいろ.
50
コーパスの特徴-5.メディア(6)
回答:
書き言葉は,比較的きっちりした文法がある
–
–
1文は「。」で終わる.
1文を見ると,比較的ちゃんと,主語,述語,修飾語など
が存在する.
→ コンピュータによる言語処理がしやすい
(頼りにできる情報が多いので)
51
コーパスの特徴-5.メディア(6)
回答:
話し言葉は,文法の見極めもかなり難しい
–
1文というのがそもそも,はっきりしない.
「えっと,それでー」「わたしはー」
– 文が途中だったり,割り込みが入ると中身が変わったり
– 単語も怪しげ.「ちわーす」「げっ」「っていうか」
→ コンピュータによる言語処理はしにくい
(頼りにできる情報があまりないので)
52
コーパスの特徴-5.メディア(6)
回答:
中間的な言葉は,いろいろ
–
–
1文がはっきりしないことも,はっきりすることもある.
メディアがWebだと,特殊な言葉が見られることもある
顔文字「(^_^;;」「変な椰子」「スマソ」,ギャル文字?
– コミュニティ独特の語も見られる
キャラダイ,雨パレ,フェイスキャラ,チーデー
→ コンピュータによる言語処理は難しい
一方,新しいタイプの言語研究データでもある.
53
良いコーパスの準備
• 良さ:研究目的に依存
→以上見てきたコーパスの特徴を踏まえて,
自分の目的に合う特徴を持ったコーパス
選ぶことが大事
次回は,コーパスの作成について
54