コーパス言語学入門 第六課 中国日本語学習者コーパス の構成と利用 上海外国語大学 毛文偉 本プロジェクトの目標 本プロジェクトは、中国母国語話者の学習実態を研究する 基盤を整備するために、信憑性や代表性に優れた大規模 な学習者コーパスの構築を目標とする。 本プロジェクトの実施によって、中国日本語学習者の実態を 把握し、多発する誤用や母国語の干渉、中間言語の形成な どについて掘り下げて観察し、分析する。 狭義の言語学だけでなく、日本語教育、教材や辞書編集、 自然言語処理など幅広い領域での活用を期待している。 作業のプロセス 中国日本語学習者コーパス ①サンプル 抽出 ②輸入 ③タグ付け ④応用 素材の採取 本コーパスは中国全国日本语専門4級、8級試験の解答を データの母集団とする。当該試験は中国教育部高等学校外 語専業教学指導委员会日語分委员会の主催で毎年実施さ れ、4級試験に参加する学校はすでに150校を超え、受験生 は年に15000人以上いる。8級試験に参加する学校は約140 校で、受験生は8000人以上にのぼっている。 サンプリングは2007年から2009年までの4級試験の作文と8 級試験の作文、中文日訳の解答で行われる。ランダムに素 材を選出し、電子化して、作文コーパスと中文日訳コーパス を構築する。 データの詳細(単語数は概数) 2007年 2008年 2009年 4級作文 400部×200語 400部×200語 400部×200語 =8万語 =8万語 =8万語 8級作文 400部×250語 400部×250語 400部×250語 =10万語 =10万語 =10万語 400部×200語 400部×200語 400部×200語 中文日訳 =8万語 =8万語 =8万語 合計: 作文 54万語,108万字以上。 汉译日 24万語,48万字以上。 サンプリングと輸入 4級1:30、8級1:16の割合で、無作為にサンプルを抽出 する。空白や零点のものなら、その次(ない場合はその 前)の解答を採用する。 抽出された素材をさらに4:5の割合で、ランダムにサン プリングし、残りのものはバックアップとして保存する。各 年度計1200部を抽出し、データ班により、入力、照合した あと、添削作業を行う。 電子化する段階で、漢字の書き間違いなどすべての情 報を詳しく記録できるわけではない。そのため、素材をま たスキャナで入力し、コーパスに添付し、照合できるよう にする。 データ入力、添削のプロセス ② 照合 書き間違 えの解析 XMLに組み 立て 入力 ⑤ ① 文法情報 自動解析 文法情報 XMLに組み 立て ③ 輸入班 添削タグ修正 文法 タグ 修正 添削情報 ④ 添削 添削班 タグセットの概要 表記 漢字の書き方など計7種 意味 名詞など計12種 自立語 誤用 文法 助詞 格助詞など計6種 助動詞関連 テンスなど計9種 構文 表現 動詞の自他など計12種 文体など計3種 語順など計3種 データの検索 検索機能はタグなしデータ検索とタグ付きデータ検索という二 種類に分かれている。前者は「かもしれない」のような複合的な 表現形式の検索に好都合で、研究の需要を柔軟に対応できる 代わりに、精度の面ではやや劣っている。一方、後者を利用す ることによって、多種多様な検索を効率よく実施できるが、予期 せぬトラブルが起こる可能性も否めないため、前者の検索結果 と照合し、確かめる必要もあろう。 タグなしデータ検索 キーワードによる検索 共起項目の設定 排除項目の設定 KWIC … タグ付きデータ検索 近接語の抽出 近接語の品詞による例文選出 誤用による例文選出 誤用による近接語の抽出 … データの統計 研究能率の向上を図り、定量的な視点から言語現象を探るた めに、検索の結果をさらに並べ替え、統計する機能も備わるよ うになる。 抽出された近接語を統計し、使用度数で並べ替え。 誤用を統計し、降順で並べ替え。 使用された言葉を統計し、語彙表を作成する。 指定された言葉と共起語のZ-score、MI-scoreなどを計算し、 コロケーション(共起関係)の強さを調べる。 …
© Copyright 2024 ExpyDoc