スライド

スーパー関数に基づく日中機
械翻訳システム
趙
欣
A1-Group
背景
 機械翻訳の必要性が急速に増える
世界規模のネットワークの発達によって、世界中の人たちと
の距離が非常に近くなった現在は、コミュニケーションツール
としての機械翻訳システムの需要は非常に高まっている。
 今までの機械翻訳研究ではたくさんの問題が残され
る
用例、統計と知識に基づく翻訳システムの研究は著しく増大
して、自動的な高品質翻訳システムの構築にねらっている。
目的
 ユーザが求めているシステム
翻訳速度が速い、操作することと更新することが簡単、安価
なシステムが要求された。
 スーパー関数(Super Function(SF))に基づく翻訳シ
ステム
スーパー関数を用いて、構文解析と意味解析を行わずに原
言語を目標言語に翻訳する。
SFの概念

SFは原言語文型パターンと目標言語文型パターンの一致性
を示す関数です。
SF_O(O_STRing,O_VARiable) =>SF_T(T_STRing,T_VARiable) (1)
O:原言語 ;
T:目標言語;
STRing:固定的な自然言語の文字列
VARiable:単語、句、文などの変数。
定式(2)としてSF定式(1)を書き直します:
f  ( x1 , x2 ,..., xn )
Xi(i=1,..n):変数
n:変数の数。
(2)
SFの概念
 SFは複合関数でありえます、言い換えれば、SFの中の変
数はSFでありえます。
f1: (J_VARiable)1のみならず(J_VARiable)2 =>
不但(C_VARiable)1 而且(C_VARiable)2
f2: (J_VARiable)重要である =>
(C_VARiable)是重要的.
例:
仕事のみならず健康は重要である。 =>
不但工作而且健康是重要的.

例において、SF f2の変数はSF f1でありえます。
SFの表示
 本研究では、入力文の名詞以外の部分をSFに認めます。
 SFを表わすために、二つのアーキテクチャーを考慮する:
方向グラフ
変形テーブル
日本語:製品は主として米国とドイツに販売されております。
中国語:製品主要販売到美国和徳国。


製品
1
製品
1
は主として
主要販売到
米国
2
美国
2
と
和
ドイツ
3
徳国
3
方向グラフの例
に販売されております。
。
SFの表示
 変形テーブル(NTBとETB)
ノードテーブル(NodeTaBle(NTB)) エッジテーブル(EdgeTaBle(ETB))
Node
1
2
3
4
日本語
中国語


は主として
主要販売到
と
和
に販売されております。
。
NTBの例
Edge
(中)
1
2
3
位置(日)
1
2
3
位置
1
2
3
ETBの例
 方向グラフと変形テーブルの間の転換することが簡単。
SFBMTの処理過程
日本語
中国語
形態素処理
形態素処理
形態素解析
翻訳処理
日中対
応辞書
SF
ベース
システムの流れ
翻訳の手順
1. 入力文
入力された日本語文をファイルに書き込む。
2. 形態素解析
茶筌を実行して形態素解析する。入力文を形態素解析した
結果をファイルに出力。
3. 形態素解析の結果を処理する
形態素解析されたファイルから名詞を抽出し、それと残れて
いるのノード部分をつなげてSFとする。そしてそれぞれ名詞
ファイルとノードファイルに出力する。名詞部分を辞書と照合
し、SF部分をノードファイル(SFベース)と照合する。
翻訳の手順
4. 形態素処理
ノードファイルと変形テーブルを読み込んで配列に取り、全て
が一致するものを探し目標言語のSFを配列に取る。名詞フ
ァイルから名詞を、辞書ファイルから全ての語を配列に取り
込み翻訳させる。エッジファイルから対応する順序を探し配
列に取っておく。取り込んでおいた配列を順番に並べる。
5. 出力文
並び替えたものを出力させる。
実験
 OS: WindowsXP
 開発言語:
JavaScript
Perl
 応用ツール:
茶筌Chasen: 日本語形態素解析システム
NihaoWin: 中国語入力システム
 コーパス:
「日中対照ビジネス文書大全」
旅行会話文書集の一部(4517文)
実験状況
 SFベース:
コーパス「日中対照ビジネス文書大全」と旅行会話文書集
から人工的に抽出して作ったのもの。今までSFの数は大体
2300個である。
例:
日: 製品は主として米国とドイツに販売されております。
中: 製品主要販売到美国和徳国。
Z&Z&1
は主として&主要販売到&2
と&和&3
に販売されております。&。&0
実験状況
 翻訳例:
日: 製品は主として米国とドイツに販売されております。
製品/は/主として/米国/と/ドイツ/に/販売/さ/れ/て/おり/ます。
名詞1/は主として/名詞2/と/名詞3/に販売されております。
名詞1/主要販売到/名詞2/和/名詞3/。
中: 製品主要販売到美国和徳国。
実験状況
 問題例1: 名詞の数が不一致
日: 上記乙波はお受け願えるに違いないと信じております。
中: 相信上述报价能被贵方所接受.
Z&相信&1
Z&Z&2
ははお受け願えるに違いないと信じております。&能被贵
方所接受.&0
処理方法:
日本語と中国語の名詞を一対一のように作ります。
 問題例2: 同じ意味だが原例文と違う
日: 当社輸入の商品は季節商品である。
中: 我社进口的商品季节性是很强的.
作ったSFによって翻訳されるのは:
中: 我社进口的商品是季节商品.
実験状況
 予想的な画面:
テスト用の日中対応辞書を使って、実験をやりました、辞書の単
語数が少ないだから、良い実験結果は出来ません。
まとめ
 SFを用いて日中機械翻訳システムを構築した。
 提案手法の有効性を検証するために、手作り
の辞書を使って、テスト実験をやりました。
 テスト実験の結果によって、本手法が有効であ
る。
今後の予定
 今から日中対応辞書を作る予定です。
 辞書が出来たら、本格的な実験を行う
 複合名詞の場合の処理
 コーパスからSFを自動的に抽出する方法
参考文献
[1]. Fuji Ren 1999 Super Function based Machine Translation,
Communication of COLIPS, vol.9 No.1,pp.83-100
[2]. Fuji Ren SFBMT Project and Tool Development for
Development for Acquisition of Super-Functions Proceedings of
The IASTED International Conference on Artificial Intelligence
And Sote Computing(ASC99), pp462-467.
[3]. 吉村賢治 自然言語処理の基礎 pp52-80
[4]. 第一回大学と科学公開シンポジウム組織委員会編 日本語の
特性と機械翻訳 pp92-144
[5]. 野村浩郷:言語処理と機械翻訳 pp25-436
[6]. 日本認知科学会編 佐藤 理史著「アナロジーによる機械翻訳」
pp1-31