第六課 中国日本語学習者コーパス の構成と利用

コーパス言語学入門
第六課 中国日本語学習者コーパス
の構成と利用
上海外国語大学
毛文偉
本プロジェクトの目標
本プロジェクトは、中国母国語話者の学習実態を研究する
基盤を整備するために、信憑性や代表性に優れた大規模
な学習者コーパスの構築を目標とする。
本プロジェクトの実施によって、中国日本語学習者の実態を
把握し、多発する誤用や母国語の干渉、中間言語の形成な
どについて掘り下げて観察し、分析する。
狭義の言語学だけでなく、日本語教育、教材や辞書編集、
自然言語処理など幅広い領域での活用を期待している。
作業のプロセス
中国日本語学習者コーパス
①サンプル
抽出
②輸入
③タグ付け
④応用
素材の採取
本コーパスは中国全国日本语専門4級、8級試験の解答を
データの母集団とする。当該試験は中国教育部高等学校外
語専業教学指導委员会日語分委员会の主催で毎年実施さ
れ、4級試験に参加する学校はすでに150校を超え、受験生
は年に15000人以上いる。8級試験に参加する学校は約140
校で、受験生は8000人以上にのぼっている。
サンプリングは2007年から2009年までの4級試験の作文と8
級試験の作文、中文日訳の解答で行われる。ランダムに素
材を選出し、電子化して、作文コーパスと中文日訳コーパス
を構築する。
データの詳細(単語数は概数)
2007年
2008年
2009年
4級作文
400部×200語 400部×200語 400部×200語
=8万語
=8万語
=8万語
8級作文
400部×250語 400部×250語 400部×250語
=10万語
=10万語
=10万語
400部×200語 400部×200語 400部×200語
中文日訳
=8万語
=8万語
=8万語
合計:
作文
54万語,108万字以上。
汉译日 24万語,48万字以上。
サンプリングと輸入
4級1:30、8級1:16の割合で、無作為にサンプルを抽出
する。空白や零点のものなら、その次(ない場合はその
前)の解答を採用する。
抽出された素材をさらに4:5の割合で、ランダムにサン
プリングし、残りのものはバックアップとして保存する。各
年度計1200部を抽出し、データ班により、入力、照合した
あと、添削作業を行う。
電子化する段階で、漢字の書き間違いなどすべての情
報を詳しく記録できるわけではない。そのため、素材をま
たスキャナで入力し、コーパスに添付し、照合できるよう
にする。
データ入力、添削のプロセス
②
照合
書き間違
えの解析
XMLに組み
立て
入力
⑤
①
文法情報
自動解析
文法情報
XMLに組み
立て
③
輸入班
添削タグ修正
文法
タグ
修正
添削情報
④
添削
添削班
タグセットの概要
表記
漢字の書き方など計7種
意味
名詞など計12種
自立語
誤用
文法
助詞
格助詞など計6種
助動詞関連
テンスなど計9種
構文
表現
動詞の自他など計12種
文体など計3種
語順など計3種
データの検索
検索機能はタグなしデータ検索とタグ付きデータ検索という二
種類に分かれている。前者は「かもしれない」のような複合的な
表現形式の検索に好都合で、研究の需要を柔軟に対応できる
代わりに、精度の面ではやや劣っている。一方、後者を利用す
ることによって、多種多様な検索を効率よく実施できるが、予期
せぬトラブルが起こる可能性も否めないため、前者の検索結果
と照合し、確かめる必要もあろう。
タグなしデータ検索
キーワードによる検索
共起項目の設定
排除項目の設定
KWIC
…
タグ付きデータ検索
近接語の抽出
近接語の品詞による例文選出
誤用による例文選出
誤用による近接語の抽出
…
データの統計
研究能率の向上を図り、定量的な視点から言語現象を探るた
めに、検索の結果をさらに並べ替え、統計する機能も備わるよ
うになる。
抽出された近接語を統計し、使用度数で並べ替え。
誤用を統計し、降順で並べ替え。
使用された言葉を統計し、語彙表を作成する。
指定された言葉と共起語のZ-score、MI-scoreなどを計算し、
コロケーション(共起関係)の強さを調べる。
…