機械翻訳勉強会 NTCIR-7について 2007年10月16日 奈良先端大D1小町守 NTCIR(エンティサイル) • 情報アクセス技術に関するワークショップ – 言語横断情報検索 – 自動要約 – 質問応答 – 特許情報処理 – 意見情報分析 – 動向情報分析 – Web 検索 NTCIR-7 • Advanced Cross-lingual Information Access – 言語横断情報検索と質問応答 • User Generated Contents – ブログ検索 • Focused Domains – 特許翻訳とマイニング 特許翻訳 • 特殊な言い回しがある – 今回は「請求項」でなく「実施例」なので、普通 の技術論文とあまり変わらない • 実際の文を見てみましょう – ドメイン適応 – 専門用語 ドメイン適応 • WMT 2007 – Shared Task1: Domain Adaptation – Philipp Koehn, Josh Schroeder. Experiments in Domain Adaptation for Statistical Machine Translation 結果 Method Large out-of-domain training data Small in-domain training data Combined training data In-domain language model Interpolated language model Two language model Two translation model BLEU 25.11 25.88 26.69 27.46 27.12 27.30 27.64 考えていること • LDA/PLSIでトピックモデルを作って言語モ デルを変えながら翻訳 – 技術文書はいろいろな分野が入っているので 有効そう • Wikipedia から専門用語の対訳辞書を 作って利用する – いろんな専門用語が載っているので使えそう NTCIR-7の期間 • 2007年10月-2007年12月 – 2007年11月15日 • 登録〆切 • ドキュメントリリース – 2007年11月-2008年4月 • dry run – 2007年11月-2008年8月 • formal run
© Copyright 2024 ExpyDoc