第二課 よく利用されるコーパス

コーパス言語学入門
第二課 よく利用されるコーパス
上海外国語大学
毛文偉
コーパスとは何か
Corpus(ラテン語):「体」「全著作・著書」
「電子化された大規模な言語の資料で,言語の記述や分析の
便宜に供され(う)るもの」(滝沢(2006))
狭義のコーパス(=本来型のコーパス)
広義のコーパス(=流用型のコーパス)
コーパスの分類(1)
 収録された素材の類型によって、文書語コーパス、話し言葉
コーパスと総合コーパスに分けられる。
文書語コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
話し言葉コーパス
 London-Lund Corpus of Spoken English(LLC)
 Bergen corpus of London Teenager Language(COLT)
総合コーパス
 The British National Corpus(BNC)
 Collins Birmingham University International Language Database
(COBUILD)
コーパスの分類(2)
 収録された素材の文体によって、多文体コーパスと単一文
体コーパスに分けられる。
表 LOCコーパスの構成
類型
テキスト 単語数
類型
テキスト
単語数
1
新聞記事
44
88000
9
学術文章
80
160000
2
社説
27
54000
10
29
58000
3
評論
17
34000
11
普通小説
探偵小説
24
48000
4
宗教
17
34000
12
SF小説
6
12000
5 技術、趣味
36
72000
13
探検小説
29
58000
6
48
96000
14
浪漫小説
29
58000
7 伝記、随筆
75
150000 15 コメディー
9
18000
8
30
60000
500
1000000
口頭文学
公文書
合計
コーパスの分類(3)
 収録された素材の選別法によって、全文収録コーパスとサ
ンプリングコーパスに分けられる。
全文収録コーパス
 中日対訳コーパス
 日本語話し言葉コーパス
サンプリングコーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
コーパスの分類(4)
 収録された素材の時間的分布によって、共時的コーパスと
通時的コーパスに分けられる。
共時的コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
通時的コーパス
 ARCHER Corpus
 Helsinki Corpus
コーパスの分類(5)
 収録された素材にタグをつけるかによって、タグ付けコーパ
スとタグなしコーパスに分けられる。
タグとは、言語情報や状況などさまざまな付加情報のこと
である。形態素分割、品詞・活用形情報、固有表現、文節、
統語、場面説明や話者情報などがタグとして考えられる。
タグ付けコーパス
 Lancaster Parsed Corpus
 Polytechnic O Wales(POW)
コーパスの分類(6)
 コーパス素材を添加するかによって、静態コーパスとモニ
ターコーパスに分けられる。
静態コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
モニターコーパス
 Collins Birmingham University International Language Database
(COBUILD)
コーパスの分類(7)
 収録された素材の言語によって、単言語コーパスとパラレル
コーパスに分けられる。
単言語コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
パラレルコーパス
 The Canadian Hansard Corpus
 中日対訳コーパス
コーパスの分類(8)
 収録された素材が原文なのか訳文なのかによって、原文
コーパスと訳文コーパスに分けられる。
原文コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
訳文コーパス
 The Canadian Hansard Corpus
 中日対訳コーパス
コーパスの分類(9)
 素材の書き手は母国語話者か学習者かによって、母国語話
者コーパスと学習者コーパスに分けられる。
母国語話者コーパス
 Brown
 The Lancaster /Oslo-Bergen Corpus(LOC)
学習者コーパス
 日本語学習者による日本語作文と,その母語訳との対訳データ
ベース」
 「日本語学習者の作文コーパス:電子化による共有資源化」
コーパスとして使われたもの
青空文庫
 著作権が消滅した文学作品、著者が公開に同意した作品を
電子化し、インターネット経由で公開しているボランティア
ベースの活動である。主として、テキストファイルHTMLファイ
ル、および、エキスパンドブック・ファイルの三つの形式で公
開されている。著作権切れの作品が中心なので、現代語とい
うには少々古いが、芥川龍之介、夏目漱石、森鴎外の作品
などはほとんどすべてが電子化されている。
 http://www.aozora.gr.jp/
CD-ROM版 新潮文庫の100冊
 新潮社から発行されているCD-ROM。新潮文庫に収められ
ている作品の中から100冊分をデジタルデータ化し、画面上
で読む(一部に朗読音声もあり)ことができるようにしたもの。
 http://homepage1.nifty.com/mshibata/s100.htm
年代
1890
1900
1910
1920
1930
1940
作家数
1
3
10
8
7
6
文字数
96575
288039
586936
828116
637841
546576
割合
0.8
2.3
4.7
6.6
5.1
4.4
年代
1950
1960
1970
1980
1990
作家数
8
18
9
4
3
文字数
956808
4021127
2982502
1179849
422528
割合
7.6
32.0
23.8
9.4
3.4
各新聞のCD-ROM
新聞社
毎日新聞
読売新聞
朝日新聞
日本経済新聞
規模
95,762件
ホームページ
www.nichigai.co.jp/sales/mainichi/mai
nichi-data.html
357,657件 www.ndk.co.jp/yomiuri/
www.nichigai.co.jp/sales/announce.ht
約153,000件
ml
約20万件 www.nikkei-rom.com/
よく使われているコーパス
よく使われている母国語話者コーパス
 日本語話し言葉コーパス(CSJ)
 太陽コーパス
 中日対訳コーパス
 現代日本語書き言葉均衡コーパス( BCCWJ )
日本語話し言葉コーパス(CSJ) (1999-2003)
 科学技術振興調整費開放的融合研究制度課題「話し言葉工
学」の一環として、国立国語研究所・通信総合研究所・東京
工業大学が開発を進めている日本語の自発音声コーパス。
学会講演や模擬講演などのモノローグを対象とした音声およ
び書き起こしコーパスであり、最終的には二〇〇四年春に七
〇〇万語規模のコーパスとして公開される。
 http://www2.kokken.go.jp/~csj/public/index_j.html
太陽コーパス (2005年)
 『太陽コーパス』は,博文館から刊行された月刊誌『太陽』
(1895~1928年)を構造化テキストにし、言語研究に有用な
様々な情報を埋め込んだものである。『太陽』は,当時最もよ
く読まれた総合雑誌で、広範なジャンルと多彩な執筆者を特
徴としている。『太陽コーパス』で対象にした年次と規模は次
の通りです。
• 対象年 1895(明治28)年 1901(明治34)年 1909(明治42)年
1917(大正6)年 1925(大正14)年
• 総文字数 約1450万字
• 記事数 約3400本
• 著者数 約1000人
 http://www.kokken.go.jp/lrc/index.php
中日対訳コーパス(1999-2003)
 北京日本学研究センターが作成したパラレルコーパスである。中日語
原文コーパスと訳文コーパスからなっている。
中国語素材
小説
原文
訳文
原文
訳文
合計
(万字)
287
224
244
422
1177
16
18
23
30
9
11
16
20
0.78
1
エッセー
伝記
105
詩歌
政論
日本語素材
132
法律
34
157
315
20
205
373
1.78
その他
5
36
45
7
93
小計
529
324.78
369
791
2013.78
国立国語研究所の言語コーパス整備計画
詳細は、 http://www.ninjal.ac.jp/corpus_center/kotonoha.htmlを参照さ
れたい。
よく使われている日本語学習者コーパス
 「外国人学習者の日本語誤用例の収集・整理と分析」 (寺村
コーパスと略す)
 「日本語学習者による日本語作文と、その母国語訳の対訳
データベース」(国研コーパスと略す)
 「日本語学習者の作文コーパス:電子化による共有資源化」
(大曾コーパスと略す)
 「中国外国語学習者コーパス(仮)」(大連理工大学。未公開)
 中国日本語学習者コーパス
寺村コーパスのデータ
4つの日本語教育機関より外国人学習者の作文、短文を収集
・整理したもので、総数は4601文ある。八つの形式(自由作文、
単文、穴埋め作文、聴解要約、文章要約、会話作文、パタン作
文、絵からの作文)のいずれかで書かれており、一つが数行程
度から二十行程度のものである。
国籍
20カ国
レベル
不明
人数
339人
国研コーパスのデータ
1
2
3
4
5
6
7
8
9
10
収集国名
データ数
オーストリア 4名/4編
ベルギー
30名/30編
中国
87名/87編
ブラジル
105名/105編
ドイツ
18名/18編
フィンランド 25名/25編
フランス
96名/98編
ハンガリー
9名/9編
インドネシア 80名/80編
インド
63名/118編
11
12
13
14
15
16
17
18
19
20
収集国名
カンボジア
韓国
マレーシア
モンゴル
ポーランド
スロベニア
アメリカ
シンガポール
タイ
ベトナム
データ数
109名/110編
245名/245編
146名/147編
42名/42編
17名/17編
12名/12編
9名/44編
89名/89編
142名/141編
73名/73編
大曾コーパスのデータ
種類
短期留学
集中日本語講座
メール
レポート
母国語
ほとんど英語
さまざま
英語
中国語
形式:作文、応答、メールとレポート
レベル
初級から上級
初歩・中級
中級
上級
数
298
441
15
2
寺村コーパスの添削
すべての素材に添削を施している。
誤用と判断された部分に、どのような文法項目としてのラベ
ルを付けるかという研究がなされた。
誤用に対する訂正文がほとんどなく、ラベル付けだけにとどま
っているため、どうしてそれが誤用と判断されたのか理解困
難な場合もある。
データはXML形式ではないため、検索や情報の追加が困難
である。
例:G6AJ0204004,でも、そのバスは|1~限定時間~|な|2~人~|です
が、一歩|3~おくれて~|、二十分以上も待たされたこともありま
す。.,1複N 2N 3*テ形/ータメニ
国研コーパスの添削
 添削情報は紙面での作業と同じように表示されるよう工夫し
ている。
 添削されたデータはXML形式で組み立てられたため、情報
の追加などが便利になる。
 データの一部にしか添削が行われていない。
 誤用の分類が行われていない。
例:時時 文句がありますけど、他人に影響しない
時々
を与えない
ため?迷惑をかけないために規則を守っています。
大曾コーパスの添削
すべての素材に添削を施している。
CHILDESのCHATフォーマットを参考し、JCHATというデータ
入力フォーマットを考案した。
誤用の分類情報が添加されていない。
データはXML形式ではないため、検索や情報の追加などが
困難である。
例:*GAK:<その上 [*] > <グスンドきャソヤソ [*] > へ行ったこと <を
[*] > ないので行きxいです。
%err:その上 = そして ;
グスンドきャソヨソ = グランドキャニオン ;
を= が ;
%com:グランドキャニオンと助詞の「が」は添削済み
%com:平仮名とカタカナが混在していた。
今までの日本語学習者コーパスの問題点
 採集されたデータの量が少ない。
 国籍、学習暦などが多様で、特定の学習者集団に視点を絞
ると、データの量が研究の需要を満たせない可能性がある。
 すべての素材に添削が行われていなかったり、誤用の分類
や訂正などが欠けていたりして、情報が不十分なことがある
。
 添削情報はXML形式で電子化されていないものもあり、検索
や後の情報追加が困難である。
 検索機能が提供されていないかあるいはきわめて簡単で、
せっかくの素材を効率よく活用できないおそれがある。
中国日本語学習者コーパス
中国全国日本語専門4級、8級試験の解答をデータの母集団
とする。当該試験は中国教育部高等学校外語専業教学指導委
员会日語分委员会の主催で毎年実施され、4級試験に参加す
る学校はすでに150校を超え、受験生は年に15000人以上いる
。8級試験に参加する学校は約140校で、受験生は8000人以上
にのぼっている。
サンプリングは2007年から2009年までの4級試験の作文と8
級試験の作文、中文日訳の解答で行われる。ランダムに素材
を選出し、電子化して、作文コーパスと中文日訳コーパスを構
築する。