述語項構造に基づいた統計 翻訳における語句の並べ替え 2006年11月15日(水) 奈良先端大 松本研(M2) 小町守 研究背景 • コーパスの増大 • 計算機の性能向上 • 機械学習の発展 統計を用いた処理 統計的機械翻訳(統計翻訳) • 対訳コーパスがあれば翻訳器が作れる • 人手でルール・ヒューリスティクスをメンテ ナンスする必要がない 2 研究目的 •統計翻訳は単語のアライメント(対応づけ)を対訳 コーパスから学習 •言語の「構造」や「意味」を用いた翻訳モデルはま だ成功していない 述語項構造解析を用いた統計翻訳の改善 •統語構造が大きく離れた言語間で離れた位置に出 現する語句の対応が適切に見積もれない 語順の並べ替えによる語句の対応の向上 3 述語項構造に基づく並べ替え 住所 を ここ 書い て 下さい please write down に 書い て 住所 を your address 下さい ここ に here • 並べ替えによって翻訳モデルの改善を狙う 4 目次 • • • • • • • 研究背景・目的 統計翻訳とは 述語項構造解析を用いた並べ替え IWSLT 2006 について IWSLT 2006 実験 まとめ 今後の予定 5 統計翻訳とは •雑音チャネルモデル (Brown et al., 1990) eˆ argmaxP(e | j) argmaxP(e)P( j | e) e 英 雑音 e 日 言語モデル 翻訳モデル デコーダ •英語に雑音が混ざって日本語になった •日本語から元の英語をデコードする問題 6 統計翻訳のフレームワーク 対訳 コーパス 英語 コーパス 英語 文 日本語 文 翻訳モデル P(j|e) 英語 文 言語モデル P(e) 英語文 英語 文 デコーダ: argmaxeP(j|e)P(e) 7 統計翻訳における並べ替え 住所 を ここ に 書い て 下さい 述語項構造解析 書い て please 下さい write down 住所 を your address ここ に here • 他に形態素解析を使った並べ替え(Niessen and Ney, 2001)・構文解析を使った並べ替え(Collins 8 et al., 2005) 述語項構造解析器 syncha • Iida et al., 2006 と小町ら, 2006 に基づい た述語項構造解析器 • 述語(動詞・形容詞・名詞+だ)と事態性名詞の 項(ガ・ヲ・ニ格)を同定 • NAIST テキストコーパス http://cl.naist.jp/nldata/corpus/ で学習 • 係り受け関係にない格要素も出力 • ゼロ照応・省略も扱える • 文内の項だとだいたいF値で0.8くらい 9 述語項構造解析の手順 住所 を ここ に 書い て 下さい 住所 を ここ に 書い て 下さい 住所 を ここ に 書い て 下さい WO-ACC NI-LOC predicate 10 並べ替えの手順 住所 を ここ 書い て 下さい に 書い て 住所 を 下さい ここ に • 述語(動詞・形容詞・事態性名詞)を探す • 英語の語順に近くなるようヒューリスティッ クに並べ替え 11 IWSLT 2006 • International Workshop on Spoken Language Translation • 話し言葉の翻訳・音声翻訳に関する評価 型ワークショップ • 対象言語: 日中英 • コーパス: BTEC (Basic Travel Expression Corpus) • 今回参加したのは日英翻訳タスク 12 IWSLT 2006 の翻訳対象 • 日本語の書き起こしデータを用いた翻訳 トイレ は 機内 後方 で す ご 案内 致し ます • 日本語の音声認識データを用いた翻訳 • 音声認識結果の 1-Best を用いた翻訳 トイレ は 機内 高校 で す ご 案内 致し ます • 音声を用いた翻訳 • 入力は wav ファイル 13 BTEC コーパス • • • • • 旅行会話の対訳コーパス(質問文と応答文) ATR が開発 日本語→英語・中国語→英語 約60万文(非公開) IWSLT 2006 で使用可能なコーパス • 訓練コーパス: ランダムに選んだ約40,000会話対 • 書き起こしのみ • 開発コーパス: ランダムに選んだ約500会話対 • 書き起こし+音声認識 1-BEST の結果の2つ • テストコーパス: ランダムに選んだ500会話 • 書き起こし+音声認識 1-BEST の結果の2つ 14 IWSLT 2006 の設定 • 評価方法は2通り • 大・小文字区別あり、句読点あり(正式評価) • 大・小文字区別なし、句読点なし(補助評価) • 翻訳対象も2通り • 旅行会話の書き起こしデータを用いた翻訳 • 旅行会話の音声認識データを用いた翻訳 • 必ず音声認識データを用いた翻訳結果も提出しな ければならないが、1-BEST の音声認識結果がも らえる 15 IWSLT 2006 の評価尺度 • BLEU(Papineni et al., 2002) • システムが出力した翻訳文と参照文の間の n-gram の適合率を相乗平均した類似度計算 • NIST(Standards and Technology, 2002) • n-gram の適合率を情報量で正規化して相加 平均した類似度計算 • 最終的な結果は BLEU によりソート 16 IWSLT 2006 の評価尺度(続き) • METEOR • いくつかのステップに分けて翻訳文と参照文 の間の unigram 一致率を出してスコアリング • WER(Word Error Rate) • 翻訳文と参照文の間の単語誤り率 • PER(Position Independent word Error Rate) • 文を bag of words だと考えたとき(出現位置 を考慮しない)の単語誤り率 17 コーパスの前処理 • 日本語側 • 形態素解析・分かち書き: 茶筌 • 係り受け: 南瓜 • 述語項構造: 新茶(syncha) • 英語側 • 分かち書き: tokenizer.sed (LDC) • 形態素解析: MXPOST • 単語は全部小文字にしてトレーニング 18 会話文の対応付け • 訓練コーパス39,953会話対から45,909文 対を人手でアライメント かしこまり まし た 。 この 用紙 に 記入 し て 下さい 。 sure . please fill out this form . かしこまり まし た 。 sure . この 用紙 に 記入 し て 下さい 。 please fill out this form . 19 コーパスの並べ替え • 述語項構造解析結 果による並べ替え 並べ替えあり 交差減少 交差増加 対応の交差あり 総計 この 用紙 に 記入 し て 下さい 。 文対数 18,539 33,874 7,959 39,979 45,909 いずれの文対も 訓練事例に追加 please fill out this form . 記入 し て この 用紙 に 下さい 。 GIZA++で 20 単語対応を学習 翻訳モデルと言語モデル • 翻訳モデル • GIZA++ (Och and Ney, 2003) • 言語モデル • Palmkit (Ito, 2002) により英語側のコーパス を用いてバックオフ単語 trigram モデル作成 • デコーダ • WMT 2006 shared task のベースラインシス テム(Pharaoh を元にしたもの) • Pharaoh のパラメータは誤り最小化学習で最 適化 21 誤り最小化学習(MERT) • Pharaoh のパラメータの最適化 • • • • 句翻訳確率(日→英・英→日) 単語翻訳確率(日→英・英→日) 句ペナルティ 句の歪み確率 • 語順の並べ替えを行っていない500文を用 いてトレーニング 22 IWSLT 2006 結果 23 IWSLT 2006 結果(1-BEST) 24 ベースラインとの比較実験 • WMT 2006 のベースラインシステムをその ままデフォルトで使ったモデル(パラメータ の最適化なし) • 並べ替えた文をコーパスに加えて単語対 応を学習したモデル(パラメータの最適化な し) • 上記のモデルに対して誤り最小化学習を 行いパラメータの最適化をしたモデル 25 比較実験結果 テストセット システム ベースライン BLEU NIST 0.1081 4.3555 音声認識 提案手法(MERTなし) 0.1366 4.8438 1-BEST 提案手法(MERTあり) 0.1311 4.8372 ベースライン 書き起こし 0.1170 4.7078 提案手法(MERTなし) 0.1459 5.3649 提案手法(MERTあり) 0.1431 5.2105 26 考察 • ベースラインシステムよりは精度向上 • 並べ替えによる翻訳モデル改善に成功 • 内容語に重点を置いた評価尺度では比較 的高精度・個々の単語選択に重点を置い た評価尺度では低精度 • 用言の直前の格助詞のペアを切り離すことで 句の対応が悪くなる 27 考察の続き • 誤り最小化学習で性能が下がるのは変 • 原因が特定できない • 語順を並べ替えた文をコーパスに追加してい るのにパラメータチューニングには元々の語 順の文だけ使っているのが問題かも • うまく項が当たっていないケースが邪魔し ている可能性 • 新聞記事でトレーニングした述語項構造解析 器を旅行会話に使ったため 28 まとめ • 述語項構造に基づく統計翻訳のための語 句並べ替えモデルを提案 • IWSLT 2006 日英翻訳タスクにて、BLEU スコア0.1431・NISTスコア5.2105を達成 • ベースラインからはBLEUスコアで22%、NIST スコアで11%向上 • 誤り最小化学習に効果が見られなかった 29 今後の予定 • 誤り最小化学習がうまく行かない原因を突 き止める • Pharaoh による並べ替えを制限 • 単語翻訳確率を固定 • 誤り最小化学習に用いる開発セットに語順を 入れ替えた文を加える • 述語がどの格フレームであったかの情報を 用いる 30
© Copyright 2024 ExpyDoc