用例ベース翻訳のための パラレルコーパスからの対訳対発見

用例ベース翻訳のための
パラレルコーパスからの対訳対発見
荒牧英治 †, 黒橋禎夫‡, 佐藤理史†, 渡辺日出雄*
† 京都大学大学院 情報学研究科
‡ 東京大学大学院 情報理工系研究科
* 日本IBM東京基礎研究所
概要
対訳文から対応関係の発見
He hurt my feelings .
彼は 私の感情を 害した 。
概要
対訳文から対応関係の発見
He hurt my feelings .
彼は 私の感情を 害した 。
発表内容
•
•
•
•
•
背景と目的
システムの特徴
システムの詳細
実験と考察
まとめと今後の課題
背景
• 用例ベース翻訳
数万から数十万の翻訳用例が必要
統計的手法
頻出する対応関係を発見
背景
• 用例ベース翻訳
数万から数十万の翻訳用例が必要
単語辞書
統計的手法
頻出する対応関係を発見
本手法
目標
• より多くの対訳対を発見する
• 統計的手法と同程度の精度を達成する
発表内容
• 背景と目的
システムの特徴
• システムの詳細
• 実験と考察
• まとめと今後の課題
システムの特徴
• 句を形成した後、句同士の対応を求める
• 統語情報や文全体の整合性を考慮する
システムの特徴
句を形成した後、句同士の対応を求める
• 統語情報や文全体の整合性を考慮する
句を作成してから対応を求める
• 語を辞書引きした場合
information technology
科学 技術 に
in science technology
おける
情報 技術
句を作成してから対応を求める
• 語を辞書引きした場合→ 一意に対応を決定
できない
information technology
科学 技術 に
in science technology
おける
情報 技術
句を作成してから対応を求める
• 句単位で対応関係を求める
information technology
科学 技術 に
in science technology
おける
情報 技術
句を作成してから対応を求める
• 句同士の対応候補を評価可能
information technology
科学 技術 に
in science technology
おける
情報 技術
句を作成してから対応を求める
information technology
科学 技術 に
in science technology
おける
情報 技術
システムの特徴
• 句を形成した後、句同士の対応を求める
統語情報や文全体の整合性を考慮する
統語情報や文全体の整合性を考慮する
• 辞書引きでは対応がつかずに句が残る
Japan
play
日本 は
役割 を
the role
果たす
統語情報や文全体の整合性を考慮する
• 句レベルの依存構造や全体の整合を考慮
play
Japan
the role
果たす
日本 は
役割 を
統語情報や文全体の整合性を考慮する
• 句レベルの依存構造や全体の整合を考慮
play
Japan
the role
果たす
日本 は
役割 を
統語情報や文全体の整合性を考慮する
• 句レベルの依存構造や全体の整合を考慮
play
Japan
the role
果たす
日本 は
役割 を
発表内容
• 背景と目的
• システムの特徴
システムの詳細
• 実験と考察
• まとめと今後の課題
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
日本語文の句の作成
私はこの自動車を月賦払いで買った
KNP日本語パーサー
私 は
この 自動車 を
月賦 払い で
買った
英語文の句の作成
I bought this car by monthly installments.
ESG英語パーサー
修正ルール
I
bought
this car
by monthly installments
英語文の句の作成
修正ルール
機能語は後続する内容語に付加する。
複合名詞は1句に含める。
be動詞は後続する動詞に付加する。
(is playing, was tired,….)
並列関係を示す語は、単独で句とする。
(and , or ,…)
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
基本対訳対の候補生成
• 単語辞書によって、語の対応リンクを作成
information technology
科学 技術 に
in science technology
おける
情報 技術
基本対訳対の候補生成
• 対応リンクで接続されている句同士を候補に
する。
information technology
科学 技術 に
in science technology
おける
情報 技術
基本対訳対の候補生成
• 対応リンクで接続されている句同士を候補に
する。
information technology
科学 技術 に
in science technology
おける
情報 技術
基本対訳対の候補生成
• 複数の句からなる候補も生成する。
information technology
科学 技術 に
in science technology
おける
情報 技術
基本対訳対の候補生成
• それぞれの文内で隣接していない場合
は・・・
information technology
科学 技術 に
in science technology
おける
情報 技術
基本対訳対の候補生成
• それぞれの文内で隣接していない場合
は・・・候補としない
information technology
科学 技術 に
in science technology
おける
情報 技術
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
基本対訳対の採用
3つの評価基準
 Sufficiency
多くの内容語が対応している候補を優先
多くの句からなる候補を優先
 近傍支持度
周辺に他の多くの候補が存在する候補を優先
優先される候補から採用していく
評価基準による採用
候補B
候補C
候補E
候補D
:
候補K
• 採用された候補と同じ句を含んだ
候補は棄却する
評価基準による採用
候補B
候補C
候補E
候補D
:
候補K
• 採用された候補と同じ句を含んだ
候補は棄却する
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
拡張対訳対の候補生成
残った句について
 修正 (基本対訳対に加える)
 新規 (新しい対訳対を発見する)
2つの可能性を考慮して候補を作成する
修正による拡張対訳対の候補
• 未対応の句を基本対訳対に加えて候補と
する
in post
Cold war years
冷戦 終結 後 に
修正による拡張対訳対の候補
• 未対応の句を基本対訳対に加えて候補と
する
in post
Cold war years
冷戦 終結 後 に
新しい拡張対訳対の候補生成
未対応の句同士の対訳対を作成する
goods
物 や
and
services
サービス の
新しい拡張対訳対の候補生成
未対応の句同士の対訳対を作成する
goods
物 や
and
services
サービス の
システムの流れ
句を作成
STEP 1
STEP 2
辞書引き
基本対訳対発見
候補生成
評価
STEP 3
残った句について
候補生成
拡張対訳対発見
評価
拡張対訳対の評価
以下を考慮した評価スコアを設定
 依存構造
余った句を依存関係のある句に加える候補を優先
 全体の整合性
周辺の基本対訳対の内容語の過不足を考慮
 品詞情報
動詞句同士、または名詞句同士からなる候補を優先
優先される候補から採用していく
拡張対訳対の候補の評価
 採用された候補と同じ句を含んだ候補は棄却
する
 閾値以下の評価スコアをもつ候補を棄却する
候補B
候補C
候補E
候補D
:
候補K
評価スコア= 3.0
2.5
1.5
0.7
0.1
閾値= 1.0
発表内容
• 背景と目的
• システムの特徴
• システムの詳細
実験と考察
• まとめと今後の課題
実験
 コーパスA:科学技術庁、経済企画庁の白書
 コーパスB:学研辞書の用例
各100文ずつ無作為抽出し対訳対を発見する
評価方法
あらかじめ人手で正しい句の対応を記述する
 正解 :両者が一致した場合正解とする
 半正解:両者に過不足が存在した場合
 不正解:正解でも半正解でもない場合
基本対訳対の出力例
英語
In particular
among major countries
in world market
in that area
into his suitcase
Transnational
正解
日本語
特に
主要 国 の
世界 市場 に おける
半正解
(旧 東 ドイツ) 地区 の
(彼 は) スーツケース に
国 を [超えて]
拡張対訳対の出力例
英語
is being pursued
of G7 nations
geographical proximity
正解
日本語
行われている
先進 7カ国の
地理的に 近い
スコア
2.75
2.6
2.0
tree (become)
went [to bed]
She ( held)
半正解
その 木 は
寝る
彼女 は
1.2
1.0
0.5
基本対訳対の内訳
閾値=3
55
10
計338個
273
正解
半正解
不正解
* 人手で記述した個数450個
基本対訳対+拡張対訳対の内訳
閾値=0
43
69
計410個
298
正解
半正解
不正解
* 人手で記述した個数450個
閾値と対訳対の数
個数
正解
半正解
不正解
500
400
300
200
100
0
0
0.5
1
1.5
2
2.5
3
閾値
適合率-再現率の定義
1
(正解の対訳対の数)   (半正解の対訳対の数)
2
適合率 
発見された対訳対の数
1
(正解の対訳対の数)   (半正解の対訳対の数)
2
再現率 
人手で発見された対訳対の数
適合率-再現率
90
適合率
85
80
75
70
60
65
70
75
再現率
* 点線部は半正解を不正解と同様に0とした場合
80
考察
発見数を増やす
精度を上げる
最適な閾値は?
翻訳システムに用いて評価する
発表内容
• 背景と目的
• システムの特徴
• システムの詳細
• 実験と考察
まとめと今後の課題
まとめ
• コーパスから多くの対訳対を発見することに
成功した
• 統計的手法と同程度の精度を達成できた
• 発見された対訳対が用例として適当かどうか
は不明
今後の課題
• 翻訳システムに用いて評価する
句数
3つの評価基準
 充足度
 句数
 近傍支持度
east
and
west
東西 の
句の数 = 2
基本対訳対の候補生成
例外:並列を表す機能語による複数句の候補
science
and
科学 技術 に
technology
充足度
充足度=
対応リンク数 × 2
英語の内容語の数 + 日本語の内容語の数
• 多くの内容語が対応している候補を優先する。
充足度
対応リンク数 × 2
充足度=
英語の内容語の数 + 日本語の内容語の数
in science technology
in science technology
情報 技術
情報 技術
1× 2
2× 2
2 + 2
=0.5
2 + 2
=1
句数
句数 = 英語の句の数 + 日本語の句の数
• 多くの句からなる候補を優先する。
• 1句同士からなる候補を優先しない。
近傍支持度
近傍支持度=英語の周辺の候補数+日本語の周辺の候補数
• 周辺の他の候補が多く存在する
• 他の候補に指示されている
近傍支持度
近傍支持度=英語の周辺の候補数+日本語の周辺の候補数
science
科学
~
~
science and technology
科学に
加え
技術
近傍に存在する他の候補数 = 1
近傍支持度
近傍支持度=英語の周辺の候補数+日本語の周辺の候補数
science
科学
~
~
science and technology
科学に
加え
技術
近傍に存在する他の候補数 = 2
評価基準による採用
充足度 > 句数 > 近傍支持度
候補B
候補C
候補E
候補D
:
候補K
1
0.5
0.5
0.25
:
0.2
3
4
1
3
:
1
0
2
1
6
:
2
評価の割合と閾値
100%
80%
60%
40%
20%
0%
0
0.5
1
1.5
2
2.5
3
閾値