Using an Error-Annotated Learner Corpus to Develop an ESL/EFL Correcting System N.R. Han, J. Tetreault, S.H. Lee, and J.Y. Ha. 2010. In Proceedings of LREC. 英語輪講 12月19日 坂田梨紗 英語学習者のための間違い訂正システム (学習者の間違い注釈コーパスを使って) 英語輪講 12月19日 坂田梨紗 コーパス: テキストや発話を大規模に集めて データベース化した言語資料 目的:英語学習者の文法間違い訂正のモデルの構築 これまで 今回 全体の流れ ネイティブの文章を元に構築 英語学習者の間違い訂正された文章を元に構築 • 性能が高い! (エラー検知:適合率93.3%,再現率14.8%) • ネイティブデータ< 学習者データ◎ 間違い訂正されたもの 正しく訂正 されたもの 存在する間違い 言語間違いモデリング分野で のこの論文のアプローチ wordなどの少しうるさい 自動修正 ネイティブの英文の統計モデルを学習させた 英語学習者向け文法訂正アプリ • 数百万人が使った正しい使用方法を学習 はじめに • 文脈にあった使用方かどうかしきい値を使用 • 時間と労力... • 訂正エラー→学習者の混乱に... Introduction Main research question 実際エラー注釈付きコーパスを構築する利点はあるか? エラー注釈付きデータはネイティブデータよりも性能がいいか? はじめに → エラー注釈付きの学習者コーパスを提示 → このコーパスのみに機械学習された英語学習者の エラー検出・訂正するための統計的手法を開発 この論文 前置詞間違いの検出と訂正について紹介 英語学習者がマスターするのが 最も難しい Introduction 学習者コーパス 最も良くある間違い: 前置詞 Chungdahm English Learner Corpus 前置詞の誤りのタイプ: 追加、削除、変更 訂正の97% about, at, by, for, from, in, of, on, to, with, NULL 前置詞間違い 11種類に限定してモデリング The Preposition Data set <生徒の解答, 添削者の解答> The Preposition Data set 追加+削除+変更 追加 前置詞のデータ 集合 削除 変更 訂正なし 追加+削除+変更+訂正なし The Preposition Data set 前置詞予測 A Maximum-Entropy-Based Model for Preposition Prediction コーパスの評価 手動で1000個の前置詞間違い注釈付き評価セットを評価 合意:0.860〜0.910 カッパ値:0.662〜0.804 カッパ値…分類の信頼性 Evaluation Corpus 正解率 学習者モデルの 評価 間違い訂正されたもの 存在する間違い 正しく訂正 されたもの Evaluation of Learner Model ネイティブモデルと 学習者モデル Comparison with Models Trained on Native Text ネイティブデータのモデルは間違いの予測のために使用 • 実践のための理論的なものでない • うまく編集された単純な事実は 大規模英語コーパスが容易に利用可能な資源となる ネイティブモデルと 学習者モデル この研究では、英語学習者の英語訂正モデルを学習させたい • ネイティブネースのコーパスに一定の普遍的な品質があり、 理想化された単一のモデルがあれば... 二つの利点を組み合わせることがれば... Learner Language vs. Native corpora • 正しい訂正が少ない(再現率15%) • 実用的なレベルでは評価が扱いにくい 部分的な間違い 注釈の問題点 • 矛盾したデータを学習させてしまっている Future work The problem of Partial Error Annotation • 英語学習者のエラー検出・訂正のための 間違い注釈付きデータを使用した調査 結論 →部分的に注釈されたものでも(前置詞だけ) ネイティブデータより性能がよかった • 訂正注釈つきコーパスを活用することで 統計的なシステムの性能の向上が期待出来る Conclusions 自分の研究と同じ観点: • 学習者の間違いと、訂正をあつめて、 次の英作に活かそうとしている • 適合率、再現率は検索システムの評価項目にできお う(?) おわりに 自分の研究と違う観点: • 前置詞のみをあつかっている • 添削理由を扱っていない
© Copyright 2024 ExpyDoc