Proceedings of LREC

Using an Error-Annotated
Learner Corpus to Develop an
ESL/EFL Correcting System
N.R. Han, J. Tetreault, S.H. Lee, and J.Y. Ha. 2010.
In Proceedings of LREC.
英語輪講
12月19日
坂田梨紗
英語学習者のための間違い訂正システム
(学習者の間違い注釈コーパスを使って)
英語輪講
12月19日
坂田梨紗
コーパス:
テキストや発話を大規模に集めて
データベース化した言語資料
目的:英語学習者の文法間違い訂正のモデルの構築
これまで
今回
全体の流れ
ネイティブの文章を元に構築
英語学習者の間違い訂正された文章を元に構築
• 性能が高い!
(エラー検知:適合率93.3%,再現率14.8%)
• ネイティブデータ< 学習者データ◎
間違い訂正されたもの
正しく訂正
されたもの
存在する間違い
言語間違いモデリング分野で
のこの論文のアプローチ
wordなどの少しうるさい
自動修正
ネイティブの英文の統計モデルを学習させた
英語学習者向け文法訂正アプリ
• 数百万人が使った正しい使用方法を学習
はじめに
• 文脈にあった使用方かどうかしきい値を使用
• 時間と労力...
• 訂正エラー→学習者の混乱に...
Introduction
Main research question
実際エラー注釈付きコーパスを構築する利点はあるか?
エラー注釈付きデータはネイティブデータよりも性能がいいか?
はじめに
→ エラー注釈付きの学習者コーパスを提示
→ このコーパスのみに機械学習された英語学習者の
エラー検出・訂正するための統計的手法を開発
この論文
前置詞間違いの検出と訂正について紹介
英語学習者がマスターするのが
最も難しい
Introduction
学習者コーパス
最も良くある間違い:
前置詞
Chungdahm English Learner Corpus
前置詞の誤りのタイプ: 追加、削除、変更
訂正の97%
about, at, by, for, from, in, of, on, to, with, NULL
前置詞間違い
11種類に限定してモデリング
The Preposition Data set
<生徒の解答, 添削者の解答>
The Preposition Data set
追加+削除+変更
追加
前置詞のデータ
集合
削除
変更
訂正なし
追加+削除+変更+訂正なし
The Preposition Data set
前置詞予測
A Maximum-Entropy-Based Model for Preposition Prediction
コーパスの評価
手動で1000個の前置詞間違い注釈付き評価セットを評価
合意:0.860〜0.910
カッパ値:0.662〜0.804
カッパ値…分類の信頼性
Evaluation Corpus
正解率
学習者モデルの
評価
間違い訂正されたもの
存在する間違い
正しく訂正
されたもの
Evaluation of Learner Model
ネイティブモデルと
学習者モデル
Comparison with Models Trained on Native Text
ネイティブデータのモデルは間違いの予測のために使用
• 実践のための理論的なものでない
• うまく編集された単純な事実は
大規模英語コーパスが容易に利用可能な資源となる
ネイティブモデルと
学習者モデル
この研究では、英語学習者の英語訂正モデルを学習させたい
• ネイティブネースのコーパスに一定の普遍的な品質があり、
理想化された単一のモデルがあれば...
二つの利点を組み合わせることがれば...
Learner Language vs. Native corpora
• 正しい訂正が少ない(再現率15%)
• 実用的なレベルでは評価が扱いにくい
部分的な間違い
注釈の問題点
• 矛盾したデータを学習させてしまっている
Future work
The problem of Partial Error Annotation
• 英語学習者のエラー検出・訂正のための
間違い注釈付きデータを使用した調査
結論
→部分的に注釈されたものでも(前置詞だけ)
ネイティブデータより性能がよかった
• 訂正注釈つきコーパスを活用することで
統計的なシステムの性能の向上が期待出来る
Conclusions
自分の研究と同じ観点:
• 学習者の間違いと、訂正をあつめて、
次の英作に活かそうとしている
• 適合率、再現率は検索システムの評価項目にできお
う(?)
おわりに
自分の研究と違う観点:
• 前置詞のみをあつかっている
• 添削理由を扱っていない