中間発表 英作文支援システムの構築に関する研究

中間発表
英作文支援システムの
構築に関する研究
平成15年11月18日(火)
A1グループ M2
永易 稔
背景と目的
 国際化により英語文書を作成する機会が増加
英作文を支援するシステムが求められている
 英作文支援システム
機械翻訳システム


と
表現文が限定
正しい文が得られない
例文提示型システム


 英作文を支援する環境の構築
正確な文を参考可能
状況に応じたテンプレート
文の活用
英作文支援システム
キーワード抽出
入出力部
スコア計算
入力:私は徳島に住んでいます。
出力:I live in Tokushima.
例文提示
EDR
電子辞書
対訳例文
コーパス
I live in Kobe.
私は神戸に住んでいます。
I live in KAKOGAWA.
加古川に住んでいます。
…
例文編集
英文訂正
辞書
名詞を対応付けて表示
[I] live in [Kobe].
[私]は[神戸]に住んでいます。
徳島
例文選択
SFの抽出
検索キーワードの抽出手順
(入力文) 英語を話すことは容易でない
①
②
③
④
入力文を形態素解析して文節分け
英語_を / 話す / こと_は / 容易_で_ない
文節末の形態素の品詞が助詞ならば削除
英語 / 話す / こと / 容易でない
漢字かなまじり文をひらがなに変換
えいご / はなす / こと / よういでない
頻出キーワードを除去
えいご / はなす / よういでない
対訳例文コーパスの検索
 検索キーワードと一致する対訳例文コーパ
スを検索し,スコアを計算
n
 (wl  wv )  0.70  0.80  0.70 1.0  1.26
i
i
i
n : 一致するキーワードの 数
wl:キーワードの文字数
の重み
wv:動詞情報の重み
keyword
length
verb
index
frequency
えいご
3
false
2/12/34/1243/125…
1507
はなす
3
true
2/34/1243/2342/3…
586
よういでない
6
false
1243/43234/2423…
3
表: 検索キーワードのIndex参照テーブル
例文編集機能
(目標)
 日本文を編集して書き換えることで,対応する英文を
システムが自動的に変更
最も,置き換えられやすい名詞に着目
 SFで対応づけしたコーパスを用いた名詞単語の置換
東京
(例) [私]は[京都]に住みたいと思っている. SFで対応づけ
したコーパス
[I] want to live in [Kyoto].
Tokyo
名詞部分の対応づけ
(例) [日本語]の[使役構文]に[注意]を向けよう。
Note/VB the/DT causative/JJ construction/NN
in/IN the/DT Japanese/JJ language/NN.
①
英文は単語の語形変化の部分を取り去る
sses → ss ,ies → i
ss → ss , s → φ
②
③
日本文と英文を形態素解析,文節分けして名詞を抽出
日本文の名詞の英語訳を検索
日本語 → Japanese , the Japanese language
使役構文 → ×
注意 → attention , concentration
④
英単語訳の候補と英文と比較し,一致する箇所が存在し,
かつ,品詞に名詞を含めば対応づけ
(英文は単語の語形変化の部分を取り去る)
概念の検索
(例) [私]は[明日][テニス]をするつもりだ.
バドミントン
1.
名詞辞書から概念識別子を検索

2.
概念体系辞書から上位概念を検索


3.
テニス → 3c0388 バドミントン → 3bdb4f
3c0388(テニス) → 30f7db(球技の種目) →
30f7da(競技の種目) → 3f968b →
3bd4f(バドミントン) → 30f7db → 30f7da → 3f968b →
一致する概念識別子が無い場合は,置き換えの際に
警告
英文訂正機能
 スペルチェック
 SpellChecker を利用
 cheker ー choker,cheer,checker
 文法チェック
 冠詞 (a,the) のチェック
 3単元の-e(s)のチェック
対訳例文コーパスの構築
 英作文の対象は科学技術,政治経済,生活・
文化に関するものなど多様化
 英作文の分野タスク,文書構成・内容構成から
対訳例文を分類
 分野特有の言い回しを得る
 状況に応じた対訳例文を得る
対訳例文の精度の向上
対訳例文コーパス
英作文タスク
論文
医学
科学技術
文学・歴史
メール・手紙文
報告書
仕様書
文書構成・内容構成
導入・背景文
主題文ー目的
主題文ー手法説明
主題文ーその他
結果・評価文
考察・結論文
システム構築







開発環境: Windows XP Professional
開発言語: Java 2 SDK Version 1.4.1
開発ツール: Jbuilde9 Personal
解析ツール: Cabocha,Monty Tagger,KAKASI
DB: Microsoft Access2000
対訳例文コーパス
 メール,論文で用いられる表現文 ‥‥ 約3,000文
 EDRの対訳文 ・・・・ 約17万文
EDR電子辞書
 名詞辞書 (日英単語辞書から名詞単語のみを抽出)
 概念体系辞書
現状と問題
 支援ツールの作成
 英文コーパスからの例文検索
 データベースから読み込んだ分類ツリーを表示
 文字の表示をカラフルに
 分類したデータベースのテーブルを効率よく検索
するプログラムの作成
(問題点)
英作文に参考となる表現文があまり得られない
実用的な例文の追加
今後の課題
対訳例文の追加
システムの評価
名詞単語の置換に対する動詞変化への対応
検索語の拡張
英文コーパスの活用
評価方法について




英作文支援ツールを用いて,10文前後の英作文をして
貰った後にアンケートを取り評価
対象者:大学生及び大学院生
英作文分野:論文,メール文
アンケート内容






有効な表現文が得られるか
名詞単語の置換機能について
ツールの使用感,使いやすさ
用例の分量
システムの応答速度
意見,要望