創造情報学輪講 - Core Software Group, The University

○Wenting Gu*, Koichi Sasada+, Shigeru Chiba*
*The University of Tokyo
+ Heroku, Inc.
Written in more than one language
 Need to be same

◦ One modified, others need to do the same
modification.
2
En
Fr
Ja
Cn
edition
Relationship
between languages
3

A
Ruby Manual
E
D
B
write
Japanese
English
write
F
 Japanese version and English version are not
same
 The order of paragraph may be different
C

User’s Demand: keep the same
4
Hard to keep documents in different
language the same.
 Why?

◦ Difficult to find difference
◦ Difficult to locate the specific place where
need to be modified
5
English Document
日本語文書
Windows Internet Explorer 9 has a
streamlined look and many new features
that speed up your web browsing
experience. The first thing you'll notice
when you open Internet Explorer 9 is the
simplified design. You can find most
command bar functions, like Print or
Zoom, when you click the Tools button.
Tabs automatically appear to the right of
the Address bar, but you can move them so
they appear below the Address bar, as they
did in previous versions of Internet
Explorer. You can always show the
Favorites and then selecting them on a
menu.
タブはアドレス バーの右に自動的に表示されます
が、以前のバージョンの Internet Explorer と同
様に、タブを移動してアドレス バーの下に表示する
ことができます。お気に入りバーを右クリックし、メ
ニューで選択することにより、常に表示させること
ができます。定期的に訪問する Web サイトを
Windows 7 デスクトップ上のタスク バーに固定す
ることで、それらの Web サイトにアクセスできます。
Windows Internet Explorer 9 は、整理されたイ
ンターフェイスと、Web 閲覧環境を高速化する多く
の新機能を備えています。 [ツール] ボタン をク
リックしたときに、印刷、ズームなどのほとんどのコ
マンド バー機能が表示されます。
Can’t find differences between the
two documents easily.
6
Goal
Make it easy to correspond documents
and manage document version
Proposal
 Locating
and displaying differences by
existing sentence alignment algorithm
7
9
10
11
12
13
Modify the second sentence.
Delete the first sentence.
Add a paragraph
14
15
16

Getting corresponding relationships between
paragraphs and sentences
◦ By using existing sentence alignment techniques
to calculate the similarity of sentences and
paragraphs

Tracking changes
By comparing with old version

Displaying differences
18

Several sentence alignment algorithms:
Word-correspondence-based
Reliable Measures for Aligning Japanese-English
News Articles and Sentences [2003, Masao Utiyama,
Hitoshi Isahara]
Fast and Accurate Sentence Alignment of Bilingual
Corpora[2002, Robert C. Moore]
Longest Sorted Sequence Algorithm for Parallel Text
Alignment [2005, T Ildefonso]
19

Paragraph alignment in the document
1. Compare with number of sentences
2. Calculate similarity between two sentences
3. Compare with total similarities in paragraph

Sentence alignment in each paragraph
1. Reuse the result in Paragraph similarity 2.
2. Allow 1 to 1, 1 to 2, 1 to 3, 2 to 1, 3 to 1
20
21
Event
A
B
write
Target Time
En
En
Ja
Ja
write
C
write
D
write
Cn
Cn
Fr
Fr
Note:
Different color means contents
are not same.
22
Target Time
Event
En
Ja
Cn
Fr
En
be modified
be modified
Ja
Ja
Cn
Cn
Fr
Note:
Different shape means the
modification is not same.
23

Correspondence relationships
between sentences and paragraphs
are not 100% correct.
◦ Allowing users modify relationships
between paragraphs.
◦ Recalculate relationships between
sentences when the relationship between
paragraphs modified.
24

The first time to make two documents the
same, displaying differences inaccurately.
◦ Once two documents are aligned,
modifications will be showed more correctly.

If sentence alignment technique is more
efficient, our system will be more useful.
25

Huberdeau et al., WikiSym '08, 2008
◦ Describing a tool called the Cross-Lingual Wiki
Engine (CLWE) to support completely open-ended
collaborative translation workflows
26



Wiki-based
Support completely open-ended
collaborative translation workflows in
cross-lingual documents
List changes
◦ But do not show corresponding areas where need to
be modified.

Do not support documents which already
have differing content like the Ruby manual
27
Update “Ja” based on “En”
The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can
find most command bar functions, like Print or Zoom, when you click the Tools button , and your
favorites and feeds appear in Favorites Center when you click the Favorites button.
WindowsInternet
InternetExplorer
Explorer 9 has a streamlined look and many new features that speed
up your web browsing experience.
Note: This edit session will expire in 24 minutes. Preview or Save your work to
restart the edit session timer.
Edit:
Windows IE 9 は、整理されたインターフェイスと、Web 閲覧環境を高速
化する多くの新機能を備えています。
28
2
languages -> N languages
(Major languages)
 Adding version control function
 Make an Evaluation
29

Problem
◦ Difficult to correspond documents in different
languages in collaborative working

Proposal
◦ Developing a repository with friendly UI to make
it easy to manage cross-lingual documents
 Giving correspondence relationships between
sentences and paragraphs: using existing sentence
alignment techniques
 Tracking changes
 Showing difference locations
30
廣津先生:
類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば
もっと上げることができたりしますか?
[10:51:00] 高橋: ああちがう
[10:51:14] 180度以外: 私は質問の意図が間違いました?
[10:51:18] 高橋: 廣津先生:
文が対応していないとダメなの?

* グーさん質疑応答

文が対応していないとダメなの?

パラグラフの順番が入れ替わるというようなことを行っていたが,

そういうのはよくあるのか?

一段落がに段落にわかれていたらどうするの?
柴山先生:
パラグラフの順番が入れ替わるというようなことを行っていたが,
そういうのはよくあるのか?

あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから
一段落がに段落にわかれていたらどうするの?

一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?

今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの

システムを使うと言語間の段落を揃えることができるんだよーという方針なのか?

方針の違いによって設計方針かわるとおもうんですけど

類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば

もっと上げることができたりしますか?

[10:49:28] SASADA Koichi (ko1): 質問者の名前も書きましょう

[10:50:06] 高橋: 大山先生の隣の方ってだれでしたっけ?

[10:50:35] SASADA Koichi (ko1): 柴山先生

[10:50:48] 180度以外: 質問をき記録して、ありがとうございます。

[10:50:50] 高橋: 廣津先生:
あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから
一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?
今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの
システムを使うと言語間の段落を揃えることができるんだよーという方針なのか?
方針の違いによって設計方針かわるとおもうんですけど
廣津先生:
類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば
もっと上げることができたりしますか?
[10:51:40] SASADA Koichi (ko1): ちょっと途中変だったね>回答
[10:52:14] SASADA Koichi (ko1): 私が書き直すとこうなる:
[10:52:16] SASADA Koichi (ko1): 廣津:
質問:パラグラフの内容が対応していないのはどうするのか?

文が対応していないとダメなの?
柴山:
質問:パラグラフの順番が入れ替わるのは多いのか?

パラグラフの順番が入れ替わるというようなことを行っていたが,

そういうのはよくあるのか?
質問:最終目標は,パラグラフの順番などを揃えたいのか?
それとも異なるままで編集したいのか?

柴山先生:

一段落がに段落にわかれていたらどうするの?

あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから

一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?

今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの

システムを使うと言語間の段落を揃えることができるんだよーという方針なのか?

方針の違いによって設計方針かわるとおもうんですけど
廣津;
コメント: 類似度の計算で,日本語は未定義野品詞をみていくと結構とれたりします.
[10:57:14] SASADA Koichi (ko1): この発表面白いなあ
[10:58:12] 180度以外: [10:52] SASADA Koichi (ko1):
<<< パラグラフの順番が入れ替わるのは多いのか?A:それほど多くないけど、今回は極端な例を挙げました。でも、
段落の数が足りなくて、段落の対応関係をすぐ分からないため、段落対応して、文の差分を表示するのがユーザーに
対して、使いやすいと思います。
こう答えだらいいかな?(そして、多分 段落が足りない文書を例でしたら、もっど説明しやすいかも、そして、最終目標
はパラグラフの順番などを揃えたいことは自然かな)
[10:58:34] SASADA Koichi (ko1): そう答えられたらよかったね
33