Document

Kyoto University
Language Knowledge Engineering Lab.
EBMT System of KYOTO Team in PatentMT Task at
NTCIR-9
Toshiaki Nakazawa, Sadao Kurohashi
[email protected]
[email protected]
Graduate School of Informatics, Kyoto University
Alignment Model
System Description
P({e, f }, a)  PG (; p$ )  PM (e, f ) P(a | {e, f })
Translation Examples
Input:
ウイスキーはオオム
ギから製造される
the
hydrogen
水素
は
現在
is
や
石油
から
製造
オオムギ
から
製造
natural
gas
and
petroleum
さ
れる
さ
れる
whisky
is
Step 1 & 2
produced
from
barley
at
Step 3
Step 2
Related Work [DeNero+, 2008]
produced
from
天然ガス
ウイスキー
は
Step 1
 e, f 
Proposed [Nakazawa+, 2011]
He
C1
彼 は
He
C1
は
is
C2
です
is
C2
です
my
C3
私 の
my
C3
の
brother
C4
兄
brother
C4
兄
present
ウイスキー
We
investigated
whisky
を
調査
した
・・・・・
Output:
whisky is
produced
from barley
Step 3
・・・・・
オオムギ
He
彼 は
is
私 の
my
兄
He
は
is
私
my
の
兄
brother
です
Dependency tree-based reordering
Simple position-based reordering
Dependency Relation
Model Decomposition
P({e, f }, a)  PG (; p$ )  PM (e, f ) P(a | {e, f })
 e, f 
PG (; p$ )  p$  (1  p$ )
彼
He
 1
私
Null
私
の
my
兄
borther
は
is
の
my
彼
He
は
is
PM (e, f )  p N (e, f )  (1  p ) J (e, f )
兄
borther
です
Non-null
です
# of steps for going up
P(a | {e, f })  P( D | {e, f })   fe ( R f ) ef ( Re )
rel(“彼 は”, “です”) = (1, 0)
rel(“He”, “is”) = (Up, Down) = (1, 0)
rel(“私 の”, “兄”) = (1, 0)
# of steps for going down
 e, f 
dependency of phrases
私
彼
です
brother
barley
彼
rel(“brother”, “is”) = (1, 0)
rel(“my”, “brother”) = (1, 0)
dependency relations
rel(“兄”, “です”) = (1, 0)
cf. [DeNero+, 2008]
P(a | {e, f })   (a  ( j, k ))  b
| pos ( e j )  pos ( f k )s|
aa
She
髪
• Initialization
long
– Create heuristic phrase alignment like ‘grow-diag-finaland’ on dependency trees using results from GIZA++
– Count phrase alignment and dependency relations
• Refine the model by Gibbs sampling
hair
rel(“long”, “hair”) = (0, 1)
rel(“hair”, “she has”) = (1, 2)
rel(“髪 が”, “長い”) = (0, 1)
– Operators: SWAP, TOGGLE, EXPAND
NTCIR-9 PatentMT Results
Baseline 1
28.95
2.62
髪
long
hair
が
長い
rel(“彼女”, “は”) = ?
rel(“彼女”, “長い”) = (0, 2)
N(“彼女”) = 1
# of NULL words on the way to
non-null parent
Translation Samples
Japanese -> English
Adequacy Acceptability
は
has
が
長い
彼女
NULL
She
は
has
Model Training
BLEU
彼女
NULL
English -> Japanese
BLEU
Chinese -> English
Adequacy Acceptability
BLEU
Adequacy
0.474
31.58
2.60
0.47
30.72
3.29
2.05
0.40
17.80
2.41
N/A
N/A
N/A
N/A
KYOTO
(official)
21.14
2.38
0.436
24.52
23.90*
KYOTO
(fixed)
23.01
N/A
N/A
25.58*
• Found bugs in official results!
* segmenter is different from the official one
– Available translation examples are not fully extracted
– Not all combinations of the examples are investigated
• Bug fixed version of KYOTO system is competitive to others
• Human evaluation results should be much better than the official
ones (BLEU tends to underestimate EBMT results)
Input: 図 30 に おいて 、 図 27 及び 図 29 と 同一の 要素 は 同一の 参照
番号 で 参照 し 、 その 説明 は 省略 する 。
Output: In FIG. 30 , the same elements as those of FIGS. 27 and 29 are referred to
by the same reference numerals , and a description thereof will be omitted .
Input: そして、第1ウォータージャケット35a内の冷却 水は、第1冷却水流出口
35cを通じ、第1ウォーターマフラ63内の排気へ供給される。
Output: The cooling water in the first water jacket 35a is supplied to the inhibits
the exhaust gas in the water first muffler 63 , way the first cooling water
outlet 35c .
Input: The outputs of the above sensors are supplied to an engine control unit
(ECU) 27 .
Output: 以上の各センサの出力は、エンジン制御回路(以下「ECU」と表記する)
27に供給される。
Input: The polarization converter 414 converts the light from the second lens
array 413 into uniform linear polarized light , thereby enhancing the light
utilization efficiency of the optical device 44 .
Output: 偏波変換器414は、第2レンズアレイ413からの光を均一なの直線偏
光に変換するものであり、これにより、光学装置44での光の利用効率
が高められている。
NTCIR-9 PatentMT, Japan, Dec. 6-9, 2011