大量のWeb 文書からの 対訳テキスト抽出手法

1
大量のWeb 文書からの
対訳テキスト抽出手法
*斎藤 大
田浦 健次朗
近山 隆
東京大学
{std, tau, chikayama}@logos.ic.i.u-tokyo.ac.jp
JSSST ’07 : 情報爆発(3)
2015/10/1
2
JSSST ’07 : 情報爆発(3)
2015/10/1
対訳テキスト
対訳テキスト:
意味内容は同一
異なる言語で記述
対訳コーパス:
対訳テキストの集合
English
One thing was certain,
--it was the black kitten's
that the WHITE kitten had had
fault entirely.
nothing to do with it.
一つ確実なのは、
――もうなにもかも、
白い子ネコはなんの関係も
黒い子ネコのせいだったのです。
なかったということ。
自然言語レベルの翻訳関係
日本語
3
JSSST ’07 : 情報爆発(3)
2015/10/1
対訳コーパス
• 多言語処理分野の有用なリソース
▫ 統計的機械翻訳
▫ 対訳辞書構築
• 既存のコーパスに制限が存在
言語
英-仏
英-日
ジャンル
政府公式文書
ソフトウェアマニュアル
数
不十分
新規構築が困難
4
JSSST ’07 : 情報爆発(3)
2015/10/1
目的
Webから自動で対訳コーパスを生成
大量
多様な言語
Web
- 対訳テキストの自動判定手法 [06 福島]
- 大量のテキストの計算コスト削減手法
5
JSSST ’07 : 情報爆発(3)
発表の流れ
• 概要
• 関連研究
• 提案手法
▫ 対訳判定
▫ 判定数削減
• 実験・評価
• まとめ
2015/10/1
6
JSSST ’07 : 情報爆発(3)
発表の流れ
• 概要
• 関連研究
• 提案手法
▫ 対訳判定
▫ 判定数削減
• 実験・評価
• まとめ
2015/10/1
7
JSSST ’07 : 情報爆発(3)
2015/10/1
STRAND [Resnik et al. 03]
•
URL マッチング
http://www.hostname.com/index.html.en
http://www.hostname.com/index.html.ja
1. Language-Specific Substrings[LSSs]を削除
(Japanese : ja, jp, jpn, euc, sjis,…)
2. LSSs を削除された URL でマッチング
3. 文字列が一致したペアのみ詳細な比較
8
JSSST ’07 : 情報爆発(3)
2015/10/1
DOM Tree Alignment [Lei et al. 06]
• HTML→DOM Tree
link
• リンク構造を利用
▫ タグの“alt”
▫ リンク名
“English version”
“In English” …
link
• Parallel link: 対訳テキスト中で“同じように”
リンクが張られているペア
9
JSSST ’07 : 情報爆発(3)
2015/10/1
関連研究まとめ
• STRAND
○計算コストが低い
×取得可能な対訳が少ない
• DOM Tree Alignment
○一つの対訳発見で複数の対訳取得の可能性
×DOM Tree変換は計算コストが高い
10
JSSST ’07 : 情報爆発(3)
発表の流れ
• 概要
• 関連研究
• 提案手法
▫ 対訳判定
▫ 判定数削減
• 実験・評価
• まとめ
2015/10/1
11
JSSST ’07 : 情報爆発(3)
2015/10/1
概要
Crawler
Web
…
…
…
…
対訳候補ペアの絞込み
対訳判定 [福島 06]
12
JSSST ’07 : 情報爆発(3)
2015/10/1
対訳判定 [福島 06]
▫ 低コストな対訳判定
▫ HTML情報を利用しない
▫ テキスト名詞抽出→意味ID変換→比較
13
JSSST ’07 : 情報爆発(3)
2015/10/1
意味ID変換
• 対訳辞書からグラフを構築
▫ 意味的に連結している
単語は同じID
• 意味ID数:
約10,000
[EDR電子化辞書]
Sense
Movie
感覚
1
意味
2
Film
映画
Hobby
趣味
Taste
味
3
14
JSSST ’07 : 情報爆発(3)
2015/10/1
テキスト→意味ID列変換
テキスト 955
辞書を使ってテキストを数列に変える。
…
辞書
1704
1704
…
数列
3173
955
3173
sort
(955, 1704, 3173)
+テキスト中の位置情報
15
JSSST ’07 : 情報爆発(3)
2015/10/1
対訳の評価
• tscore (translation score)
T1:(106, 335, 455, 567, 1704, 3173, 7421)
T2:(335, 567, 567, 1704, 4014, 5449, 7421)
score= 4
12
0
3
tscore = 4/(7+7)
tscore  score
O(#T1# T 2)
# T1 # T 2
16
JSSST ’07 : 情報爆発(3)
tscore threshold
• Fry Corpus[05 Fry]
• tscore threshold
0.102
• F値
0.982
• Speed
200,000 pairs/sec
2015/10/1
17
JSSST ’07 : 情報爆発(3)
2015/10/1
対訳候補ペアの絞り込み
• 対訳判定自体の計算コスト
• Web上の対訳テキスト抽出の計算コスト
▫ 単純な全対全比較→コスト: O(n2 )
▫ URL マッチング→制限が強すぎる
 JapaneseとEnglishで
90,000,000URL → 4,000URLペア→ 1,000ペア
 jaやenが含まれない対訳も存在(ニュース記事等)
18
JSSST ’07 : 情報爆発(3)
2015/10/1
計算コスト削減
Sample
→無駄な対訳判定を削減
前提:対訳テキストは互いに似ているので
特定のサンプルテキストとの距離は
同程度となる
▫ 距離の尺度(類似度) : tscore
▫ 距離が近いテキストペアのみ判定
English
日本語
19
JSSST ’07 : 情報爆発(3)
2015/10/1
計算コスト削減
•
流れ
1.
2.
3.
4.
(n:テキスト数)
サンプル数によって
精度や計算時間が変化
サンプルテキストを選択 (<<n)
各テキストとサンプルの距離を計算
最も近いm個のサンプルに振り分け
同じグループ内でのみ全対全比較
①振り分け時間
②対訳判定時間
20
JSSST ’07 : 情報爆発(3)
2015/10/1
次元削減
• 意味ID数:約10,000 を削減することで高速化
▫ 振り分けにかかる時間を削減
• “有用”な意味IDを抽出
▫ LDA (Latent Dirichlet Allocation)を用いる
▫ トピック分類に役に立つ単語を抽出
21
JSSST ’07 : 情報爆発(3)
2015/10/1
LDA [Blei et.al. 03]
• 多重トピック文書のモデル化
▫ トピックが生成される確率
▫ (トピックから)単語が生成される確率
• 事前にトピック数を与える
• 変分ベイズを用いてパラメータ推定
• トピック毎に単語の出現確率が
数値として示される=比較可能
22
JSSST ’07 : 情報爆発(3)
発表の流れ
• 概要
• 関連研究
• 提案手法
▫ 対訳判定
▫ 判定数削減
• 実験・評価
• まとめ
2015/10/1
23
JSSST ’07 : 情報爆発(3)
2015/10/1
実験概要
• 実験内容
▫ 単純な全対全手法との計算コスト比較
▫ サンプル数による正解率と計算コストの変化
▫ 意味ID数削減による振り分けコスト比較
• 実験環境
▫ データ:Fry Corpus [Fry 05]
 日英対訳ニュース記事のURLペア一覧
 事前にHTMLを意味ID列に変換
▫ 環境
 CPU : Xeon 2.4GHz Dual
 Memory : 2GB
 OS : Linux (Debian)
24
JSSST ’07 : 情報爆発(3)
2015/10/1
• Fry Corpus
▫ 200~6400ペア
• 全対全比較
Execution Time [sec]
計算コストの評価
ランダムサンプリング
(Top3)
n^2
sampling(√n/2)
sampling(√n)
# of pairs
テキスト数が増えるほど時間差大
サンプル数 n の方がコスト削減
25
JSSST ’07 : 情報爆発(3)
2015/10/1
精度と計算時間の評価
• ランダムサンプリング
▫ サンプル数増加すると
 誤分類率→増
 実行時間→少
miss classification ratio
execution time
# of samples
誤分類率と実行時間のトレードオフ
execution time [sec]
▫ 400ペア
miss classification ratio [%]
• Fry Corpus
26
JSSST ’07 : 情報爆発(3)
2015/10/1
次元削減の評価
• Fry 6400ペアに対してトピック数20でLDA
▫ 各トピックの分類に有用な意味IDを抽出
 Top20 : 152個 (/400個)
 Top50 : 350個(/1000個)
• 単語比較回数削減
▫ 200ペアの全対全比較
×4/9
normal
LDA50
比較回数
×1/4
LDA20
1.69 × 10^8 7.66 × 10^7 3.80 × 10^7
• 振り分け時の誤分類率と単語比較回数を測定
27
JSSST ’07 : 情報爆発(3)
2015/10/1
miss classification ratio[%]
次元削減の評価
normal
誤分類率を維持しつつ
計算コスト削減
振り分けの高速化
LDA50
LDA20
normal
# of samples
# of word comparison
normal
2/3
LDA50
lda50
1/2
LDA20
lda20
tscore
# of samples
28
JSSST ’07 : 情報爆発(3)
2015/10/1
実験まとめ
• 計算コストの評価
▫ サンプリングを行うことで計算コスト削減
• 精度と計算コストの評価
▫ サンプリングの精度と計算時間はトレードオフ
• 次元削減の評価
▫ 精度は維持したまま振り分け時の計算コスト削減
29
JSSST ’07 : 情報爆発(3)
発表の流れ
• 概要
• 関連研究
• 提案手法
▫ 対訳判定
▫ 判定数削減
• 実験・評価
• まとめ
2015/10/1
30
JSSST ’07 : 情報爆発(3)
まとめ
• Webからの対訳テキスト抽出
▫ 高速な対訳判定手法
▫ 対訳判定回数の削減手法
 サンプリング
 LDAを用いた次元削減
▫ 日英対訳コーパスを用いた評価
2015/10/1
31
JSSST ’07 : 情報爆発(3)
2015/10/1
今後の課題
• 並列化
• 軽量なクラスタリング
▫ サンプリングより精度の良い振り分け方法
• 実際のWebを対象
▫ ニュース記事
▫ Web Directory
32
JSSST ’07 : 情報爆発(3)
2015/10/1