コーパス言語学入門 第二課 よく利用されるコーパス 上海外国語大学 毛文偉 コーパスとは何か Corpus(ラテン語):「体」「全著作・著書」 「電子化された大規模な言語の資料で,言語の記述や分析の 便宜に供され(う)るもの」(滝沢(2006)) 狭義のコーパス(=本来型のコーパス) 広義のコーパス(=流用型のコーパス) コーパスの分類(1) 収録された素材の類型によって、文書語コーパス、話し言葉 コーパスと総合コーパスに分けられる。 文書語コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) 話し言葉コーパス London-Lund Corpus of Spoken English(LLC) Bergen corpus of London Teenager Language(COLT) 総合コーパス The British National Corpus(BNC) Collins Birmingham University International Language Database (COBUILD) コーパスの分類(2) 収録された素材の文体によって、多文体コーパスと単一文 体コーパスに分けられる。 表 LOCコーパスの構成 類型 テキスト 単語数 類型 テキスト 単語数 1 新聞記事 44 88000 9 学術文章 80 160000 2 社説 27 54000 10 29 58000 3 評論 17 34000 11 普通小説 探偵小説 24 48000 4 宗教 17 34000 12 SF小説 6 12000 5 技術、趣味 36 72000 13 探検小説 29 58000 6 48 96000 14 浪漫小説 29 58000 7 伝記、随筆 75 150000 15 コメディー 9 18000 8 30 60000 500 1000000 口頭文学 公文書 合計 コーパスの分類(3) 収録された素材の選別法によって、全文収録コーパスとサ ンプリングコーパスに分けられる。 全文収録コーパス 中日対訳コーパス 日本語話し言葉コーパス サンプリングコーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) コーパスの分類(4) 収録された素材の時間的分布によって、共時的コーパスと 通時的コーパスに分けられる。 共時的コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) 通時的コーパス ARCHER Corpus Helsinki Corpus コーパスの分類(5) 収録された素材にタグをつけるかによって、タグ付けコーパ スとタグなしコーパスに分けられる。 タグとは、言語情報や状況などさまざまな付加情報のこと である。形態素分割、品詞・活用形情報、固有表現、文節、 統語、場面説明や話者情報などがタグとして考えられる。 タグ付けコーパス Lancaster Parsed Corpus Polytechnic O Wales(POW) コーパスの分類(6) コーパス素材を添加するかによって、静態コーパスとモニ ターコーパスに分けられる。 静態コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) モニターコーパス Collins Birmingham University International Language Database (COBUILD) コーパスの分類(7) 収録された素材の言語によって、単言語コーパスとパラレル コーパスに分けられる。 単言語コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) パラレルコーパス The Canadian Hansard Corpus 中日対訳コーパス コーパスの分類(8) 収録された素材が原文なのか訳文なのかによって、原文 コーパスと訳文コーパスに分けられる。 原文コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) 訳文コーパス The Canadian Hansard Corpus 中日対訳コーパス コーパスの分類(9) 素材の書き手は母国語話者か学習者かによって、母国語話 者コーパスと学習者コーパスに分けられる。 母国語話者コーパス Brown The Lancaster /Oslo-Bergen Corpus(LOC) 学習者コーパス 日本語学習者による日本語作文と,その母語訳との対訳データ ベース」 「日本語学習者の作文コーパス:電子化による共有資源化」 コーパスとして使われたもの 青空文庫 著作権が消滅した文学作品、著者が公開に同意した作品を 電子化し、インターネット経由で公開しているボランティア ベースの活動である。主として、テキストファイルHTMLファイ ル、および、エキスパンドブック・ファイルの三つの形式で公 開されている。著作権切れの作品が中心なので、現代語とい うには少々古いが、芥川龍之介、夏目漱石、森鴎外の作品 などはほとんどすべてが電子化されている。 http://www.aozora.gr.jp/ CD-ROM版 新潮文庫の100冊 新潮社から発行されているCD-ROM。新潮文庫に収められ ている作品の中から100冊分をデジタルデータ化し、画面上 で読む(一部に朗読音声もあり)ことができるようにしたもの。 http://homepage1.nifty.com/mshibata/s100.htm 年代 1890 1900 1910 1920 1930 1940 作家数 1 3 10 8 7 6 文字数 96575 288039 586936 828116 637841 546576 割合 0.8 2.3 4.7 6.6 5.1 4.4 年代 1950 1960 1970 1980 1990 作家数 8 18 9 4 3 文字数 956808 4021127 2982502 1179849 422528 割合 7.6 32.0 23.8 9.4 3.4 各新聞のCD-ROM 新聞社 毎日新聞 読売新聞 朝日新聞 日本経済新聞 規模 95,762件 ホームページ www.nichigai.co.jp/sales/mainichi/mai nichi-data.html 357,657件 www.ndk.co.jp/yomiuri/ www.nichigai.co.jp/sales/announce.ht 約153,000件 ml 約20万件 www.nikkei-rom.com/ よく使われているコーパス よく使われている母国語話者コーパス 日本語話し言葉コーパス(CSJ) 太陽コーパス 中日対訳コーパス 現代日本語書き言葉均衡コーパス( BCCWJ ) 日本語話し言葉コーパス(CSJ) (1999-2003) 科学技術振興調整費開放的融合研究制度課題「話し言葉工 学」の一環として、国立国語研究所・通信総合研究所・東京 工業大学が開発を進めている日本語の自発音声コーパス。 学会講演や模擬講演などのモノローグを対象とした音声およ び書き起こしコーパスであり、最終的には二〇〇四年春に七 〇〇万語規模のコーパスとして公開される。 http://www2.kokken.go.jp/~csj/public/index_j.html 太陽コーパス (2005年) 『太陽コーパス』は,博文館から刊行された月刊誌『太陽』 (1895~1928年)を構造化テキストにし、言語研究に有用な 様々な情報を埋め込んだものである。『太陽』は,当時最もよ く読まれた総合雑誌で、広範なジャンルと多彩な執筆者を特 徴としている。『太陽コーパス』で対象にした年次と規模は次 の通りです。 • 対象年 1895(明治28)年 1901(明治34)年 1909(明治42)年 1917(大正6)年 1925(大正14)年 • 総文字数 約1450万字 • 記事数 約3400本 • 著者数 約1000人 http://www.kokken.go.jp/lrc/index.php 中日対訳コーパス(1999-2003) 北京日本学研究センターが作成したパラレルコーパスである。中日語 原文コーパスと訳文コーパスからなっている。 中国語素材 小説 原文 訳文 原文 訳文 合計 (万字) 287 224 244 422 1177 16 18 23 30 9 11 16 20 0.78 1 エッセー 伝記 105 詩歌 政論 日本語素材 132 法律 34 157 315 20 205 373 1.78 その他 5 36 45 7 93 小計 529 324.78 369 791 2013.78 国立国語研究所の言語コーパス整備計画 詳細は、 http://www.ninjal.ac.jp/corpus_center/kotonoha.htmlを参照さ れたい。 よく使われている日本語学習者コーパス 「外国人学習者の日本語誤用例の収集・整理と分析」 (寺村 コーパスと略す) 「日本語学習者による日本語作文と、その母国語訳の対訳 データベース」(国研コーパスと略す) 「日本語学習者の作文コーパス:電子化による共有資源化」 (大曾コーパスと略す) 「中国外国語学習者コーパス(仮)」(大連理工大学。未公開) 中国日本語学習者コーパス 寺村コーパスのデータ 4つの日本語教育機関より外国人学習者の作文、短文を収集 ・整理したもので、総数は4601文ある。八つの形式(自由作文、 単文、穴埋め作文、聴解要約、文章要約、会話作文、パタン作 文、絵からの作文)のいずれかで書かれており、一つが数行程 度から二十行程度のものである。 国籍 20カ国 レベル 不明 人数 339人 国研コーパスのデータ 1 2 3 4 5 6 7 8 9 10 収集国名 データ数 オーストリア 4名/4編 ベルギー 30名/30編 中国 87名/87編 ブラジル 105名/105編 ドイツ 18名/18編 フィンランド 25名/25編 フランス 96名/98編 ハンガリー 9名/9編 インドネシア 80名/80編 インド 63名/118編 11 12 13 14 15 16 17 18 19 20 収集国名 カンボジア 韓国 マレーシア モンゴル ポーランド スロベニア アメリカ シンガポール タイ ベトナム データ数 109名/110編 245名/245編 146名/147編 42名/42編 17名/17編 12名/12編 9名/44編 89名/89編 142名/141編 73名/73編 大曾コーパスのデータ 種類 短期留学 集中日本語講座 メール レポート 母国語 ほとんど英語 さまざま 英語 中国語 形式:作文、応答、メールとレポート レベル 初級から上級 初歩・中級 中級 上級 数 298 441 15 2 寺村コーパスの添削 すべての素材に添削を施している。 誤用と判断された部分に、どのような文法項目としてのラベ ルを付けるかという研究がなされた。 誤用に対する訂正文がほとんどなく、ラベル付けだけにとどま っているため、どうしてそれが誤用と判断されたのか理解困 難な場合もある。 データはXML形式ではないため、検索や情報の追加が困難 である。 例:G6AJ0204004,でも、そのバスは|1~限定時間~|な|2~人~|です が、一歩|3~おくれて~|、二十分以上も待たされたこともありま す。.,1複N 2N 3*テ形/ータメニ 国研コーパスの添削 添削情報は紙面での作業と同じように表示されるよう工夫し ている。 添削されたデータはXML形式で組み立てられたため、情報 の追加などが便利になる。 データの一部にしか添削が行われていない。 誤用の分類が行われていない。 例:時時 文句がありますけど、他人に影響しない 時々 を与えない ため?迷惑をかけないために規則を守っています。 大曾コーパスの添削 すべての素材に添削を施している。 CHILDESのCHATフォーマットを参考し、JCHATというデータ 入力フォーマットを考案した。 誤用の分類情報が添加されていない。 データはXML形式ではないため、検索や情報の追加などが 困難である。 例:*GAK:<その上 [*] > <グスンドきャソヤソ [*] > へ行ったこと <を [*] > ないので行きxいです。 %err:その上 = そして ; グスンドきャソヨソ = グランドキャニオン ; を= が ; %com:グランドキャニオンと助詞の「が」は添削済み %com:平仮名とカタカナが混在していた。 今までの日本語学習者コーパスの問題点 採集されたデータの量が少ない。 国籍、学習暦などが多様で、特定の学習者集団に視点を絞 ると、データの量が研究の需要を満たせない可能性がある。 すべての素材に添削が行われていなかったり、誤用の分類 や訂正などが欠けていたりして、情報が不十分なことがある 。 添削情報はXML形式で電子化されていないものもあり、検索 や後の情報追加が困難である。 検索機能が提供されていないかあるいはきわめて簡単で、 せっかくの素材を効率よく活用できないおそれがある。 中国日本語学習者コーパス 中国全国日本語専門4級、8級試験の解答をデータの母集団 とする。当該試験は中国教育部高等学校外語専業教学指導委 员会日語分委员会の主催で毎年実施され、4級試験に参加す る学校はすでに150校を超え、受験生は年に15000人以上いる 。8級試験に参加する学校は約140校で、受験生は8000人以上 にのぼっている。 サンプリングは2007年から2009年までの4級試験の作文と8 級試験の作文、中文日訳の解答で行われる。ランダムに素材 を選出し、電子化して、作文コーパスと中文日訳コーパスを構 築する。
© Copyright 2024 ExpyDoc