述語 項構造に基づいた統計

述語項構造に基づいた統計
翻訳における語句の並べ替え
2006年11月15日(水)
奈良先端大 松本研(M2)
小町守
研究背景
• コーパスの増大
• 計算機の性能向上
• 機械学習の発展
統計を用いた処理
統計的機械翻訳(統計翻訳)
• 対訳コーパスがあれば翻訳器が作れる
• 人手でルール・ヒューリスティクスをメンテ
ナンスする必要がない
2
研究目的
•統計翻訳は単語のアライメント(対応づけ)を対訳
コーパスから学習
•言語の「構造」や「意味」を用いた翻訳モデルはま
だ成功していない
述語項構造解析を用いた統計翻訳の改善
•統語構造が大きく離れた言語間で離れた位置に出
現する語句の対応が適切に見積もれない
語順の並べ替えによる語句の対応の向上
3
述語項構造に基づく並べ替え
住所
を
ここ
書い て
下さい
please
write
down
に
書い て
住所
を
your address
下さい
ここ
に
here
• 並べ替えによって翻訳モデルの改善を狙う
4
目次
•
•
•
•
•
•
•
研究背景・目的
統計翻訳とは
述語項構造解析を用いた並べ替え
IWSLT 2006 について
IWSLT 2006 実験
まとめ
今後の予定
5
統計翻訳とは
•雑音チャネルモデル (Brown et al., 1990)
eˆ  argmaxP(e | j)  argmaxP(e)P( j | e)
e
英
雑音
e
日
言語モデル
翻訳モデル
デコーダ
•英語に雑音が混ざって日本語になった
•日本語から元の英語をデコードする問題
6
統計翻訳のフレームワーク
対訳
コーパス
英語
コーパス
英語 文
日本語 文
翻訳モデル
P(j|e)
英語 文
言語モデル
P(e)
英語文
英語 文
デコーダ: argmaxeP(j|e)P(e)
7
統計翻訳における並べ替え
住所
を
ここ
に
書い て
下さい
述語項構造解析
書い て
please
下さい
write
down
住所
を
your address
ここ
に
here
• 他に形態素解析を使った並べ替え(Niessen and
Ney, 2001)・構文解析を使った並べ替え(Collins
8
et al., 2005)
述語項構造解析器 syncha
• Iida et al., 2006 と小町ら, 2006 に基づい
た述語項構造解析器
• 述語(動詞・形容詞・名詞+だ)と事態性名詞の
項(ガ・ヲ・ニ格)を同定
• NAIST テキストコーパス
http://cl.naist.jp/nldata/corpus/ で学習
• 係り受け関係にない格要素も出力
• ゼロ照応・省略も扱える
• 文内の項だとだいたいF値で0.8くらい
9
述語項構造解析の手順
住所
を
ここ
に
書い て
下さい
住所
を
ここ
に
書い て
下さい
住所
を
ここ
に
書い て
下さい
WO-ACC
NI-LOC
predicate
10
並べ替えの手順
住所
を
ここ
書い て
下さい
に
書い て
住所
を
下さい
ここ
に
• 述語(動詞・形容詞・事態性名詞)を探す
• 英語の語順に近くなるようヒューリスティッ
クに並べ替え
11
IWSLT 2006
• International Workshop on Spoken
Language Translation
• 話し言葉の翻訳・音声翻訳に関する評価
型ワークショップ
• 対象言語: 日中英
• コーパス: BTEC (Basic Travel
Expression Corpus)
• 今回参加したのは日英翻訳タスク
12
IWSLT 2006 の翻訳対象
• 日本語の書き起こしデータを用いた翻訳
トイレ は 機内 後方 で す ご 案内 致し ます
• 日本語の音声認識データを用いた翻訳
• 音声認識結果の 1-Best を用いた翻訳
トイレ は 機内 高校 で す ご 案内 致し ます
• 音声を用いた翻訳
• 入力は wav ファイル
13
BTEC コーパス
•
•
•
•
•
旅行会話の対訳コーパス(質問文と応答文)
ATR が開発
日本語→英語・中国語→英語
約60万文(非公開)
IWSLT 2006 で使用可能なコーパス
• 訓練コーパス: ランダムに選んだ約40,000会話対
• 書き起こしのみ
• 開発コーパス: ランダムに選んだ約500会話対
• 書き起こし+音声認識 1-BEST の結果の2つ
• テストコーパス: ランダムに選んだ500会話
• 書き起こし+音声認識 1-BEST の結果の2つ
14
IWSLT 2006 の設定
• 評価方法は2通り
• 大・小文字区別あり、句読点あり(正式評価)
• 大・小文字区別なし、句読点なし(補助評価)
• 翻訳対象も2通り
• 旅行会話の書き起こしデータを用いた翻訳
• 旅行会話の音声認識データを用いた翻訳
• 必ず音声認識データを用いた翻訳結果も提出しな
ければならないが、1-BEST の音声認識結果がも
らえる
15
IWSLT 2006 の評価尺度
• BLEU(Papineni et al., 2002)
• システムが出力した翻訳文と参照文の間の
n-gram の適合率を相乗平均した類似度計算
• NIST(Standards and Technology, 2002)
• n-gram の適合率を情報量で正規化して相加
平均した類似度計算
• 最終的な結果は BLEU によりソート
16
IWSLT 2006 の評価尺度(続き)
• METEOR
• いくつかのステップに分けて翻訳文と参照文
の間の unigram 一致率を出してスコアリング
• WER(Word Error Rate)
• 翻訳文と参照文の間の単語誤り率
• PER(Position Independent word Error
Rate)
• 文を bag of words だと考えたとき(出現位置
を考慮しない)の単語誤り率
17
コーパスの前処理
• 日本語側
• 形態素解析・分かち書き: 茶筌
• 係り受け: 南瓜
• 述語項構造: 新茶(syncha)
• 英語側
• 分かち書き: tokenizer.sed (LDC)
• 形態素解析: MXPOST
• 単語は全部小文字にしてトレーニング
18
会話文の対応付け
• 訓練コーパス39,953会話対から45,909文
対を人手でアライメント
かしこまり まし た 。 この 用紙 に 記入 し て 下さい 。
sure . please fill out this form .
かしこまり まし た 。
sure .
この 用紙 に 記入 し て 下さい 。
please fill out this form .
19
コーパスの並べ替え
• 述語項構造解析結
果による並べ替え
並べ替えあり
交差減少
交差増加
対応の交差あり
総計
この 用紙 に 記入 し て 下さい 。
文対数
18,539
33,874
7,959
39,979
45,909
いずれの文対も
訓練事例に追加
please fill out this form .
記入 し て この 用紙 に 下さい 。
GIZA++で
20
単語対応を学習
翻訳モデルと言語モデル
• 翻訳モデル
• GIZA++ (Och and Ney, 2003)
• 言語モデル
• Palmkit (Ito, 2002) により英語側のコーパス
を用いてバックオフ単語 trigram モデル作成
• デコーダ
• WMT 2006 shared task のベースラインシス
テム(Pharaoh を元にしたもの)
• Pharaoh のパラメータは誤り最小化学習で最
適化
21
誤り最小化学習(MERT)
• Pharaoh のパラメータの最適化
•
•
•
•
句翻訳確率(日→英・英→日)
単語翻訳確率(日→英・英→日)
句ペナルティ
句の歪み確率
• 語順の並べ替えを行っていない500文を用
いてトレーニング
22
IWSLT 2006 結果
23
IWSLT 2006 結果(1-BEST)
24
ベースラインとの比較実験
• WMT 2006 のベースラインシステムをその
ままデフォルトで使ったモデル(パラメータ
の最適化なし)
• 並べ替えた文をコーパスに加えて単語対
応を学習したモデル(パラメータの最適化な
し)
• 上記のモデルに対して誤り最小化学習を
行いパラメータの最適化をしたモデル
25
比較実験結果
テストセット
システム
ベースライン
BLEU
NIST
0.1081 4.3555
音声認識
提案手法(MERTなし) 0.1366 4.8438
1-BEST
提案手法(MERTあり) 0.1311 4.8372
ベースライン
書き起こし
0.1170 4.7078
提案手法(MERTなし) 0.1459 5.3649
提案手法(MERTあり) 0.1431 5.2105
26
考察
• ベースラインシステムよりは精度向上
• 並べ替えによる翻訳モデル改善に成功
• 内容語に重点を置いた評価尺度では比較
的高精度・個々の単語選択に重点を置い
た評価尺度では低精度
• 用言の直前の格助詞のペアを切り離すことで
句の対応が悪くなる
27
考察の続き
• 誤り最小化学習で性能が下がるのは変
• 原因が特定できない
• 語順を並べ替えた文をコーパスに追加してい
るのにパラメータチューニングには元々の語
順の文だけ使っているのが問題かも
• うまく項が当たっていないケースが邪魔し
ている可能性
• 新聞記事でトレーニングした述語項構造解析
器を旅行会話に使ったため
28
まとめ
• 述語項構造に基づく統計翻訳のための語
句並べ替えモデルを提案
• IWSLT 2006 日英翻訳タスクにて、BLEU
スコア0.1431・NISTスコア5.2105を達成
• ベースラインからはBLEUスコアで22%、NIST
スコアで11%向上
• 誤り最小化学習に効果が見られなかった
29
今後の予定
• 誤り最小化学習がうまく行かない原因を突
き止める
• Pharaoh による並べ替えを制限
• 単語翻訳確率を固定
• 誤り最小化学習に用いる開発セットに語順を
入れ替えた文を加える
• 述語がどの格フレームであったかの情報を
用いる
30