日英・英日翻訳システム利用の手引 - 情報基盤センター - 名古屋大学

日英・英日翻訳システム利用の手引
第四版
名古屋大学情報連携基盤センター
平成17年4月
2
1
名古屋大学情報連携基盤センター
はじめに
ATLAS はクライアント・サーバ機構で動作する日英・英日翻訳システムです。クライアントモジュー
ルは nucc および hpc で利用できます。本手引きでは、ATLAS を利用した翻訳の仕方を紹介します。
本センターで導入した ATLAS は表 1 に示すとおり、137 万語の基本辞書に加えて 13 種類の専門用
語辞書を備えています。
表 1: 翻訳用辞書
種別
基本辞書
専
門
用
語
辞
書
情報処理
電気・電子
物理・原子力
機械
工業化学
土木・建築
農林・水産
生物
生化学
医学
金融・経済
法律
住所・氏名
辞書名
BASIC
INFO-PROC
ELECTOR(ON)ICS
PHYSICS
MECH-ENGINE
INDUST-CHEM
ARCHITECTURE
AGRICULTURE
BIOLOGY
BIO-CHEM
MEDICAL
ECONOMICS
LAW
ADDRESS
単語数
1,370,000
96,000
33,000
54,000
57,000
63,000
31,000
21,000
21,000
47,000
241,000
36,000
6,000
172,000
翻訳システム利用の手引
2
3
翻訳を始める前に
2.1
環境設定の確認
ATLAS のクライアントを利用するためには、ATLAS HOME などの環境変数や各種コマンドへの
path が設定されていなければなりません。nucc, gpcs いずれのホストでも大型センターが提供した環
境設定ファイル.cshrc を利用していれば、翻訳に必要な環境が設定されますが、自作の .cshrc を
利用しているために翻訳に必要な環境設定がされない場合には、
source /etc/skel/local.cshrc
を .cshrc に追加してください。
2.2
翻訳辞書の選択
ATLAS は翻訳時には基本単語辞書の他に、6 種類の辞書を使用することができます。どの辞書を使
用するかは、 .altrc で設定します。
まず、atlenv コマンドでサーバで設定されている翻訳環境がどうなっているかを調べます。atlenv
は、
atlenv -m {je|ej} [-s d|g]
で日英翻訳(je)あるいは英日翻訳(ej)の辞書環境(-s d)あるいは文法環境(-s g)を表示しま
す。-s オプションを省略した場合は、辞書環境(d)を表示します。
以下は日英翻訳の辞書環境を表示させています。
✓
✏
nucc% atlenv -m je
MODE = Japanese to English
USER DICTIONARY = {
a49999a; a49999a’s-dic
}
SPECIAL DICTIONARY = {
AGRICULTURE; 農林水産用語辞書 5.0
PHYSICS; 物理・原子力用語辞書 5.0
ADDRESS; 住所・氏名用語辞書 5.0
ECONOMICS; 金融・経済用語辞書 5.0
MEDICAL; 医学用語辞書 5.0
;
MECH-ENGINE; 機械用語辞書 5.0
;
LAW; 法律用語辞書 5.0
;
INFO-PROC; 情報処理用語辞書 5.0
;
INDUST-CHEM; 工業化学用語辞書 5.0
;
ELECTRONICS; 電気・電子用語辞書 5.0
;
BIO-CHEM; 生化学用語辞書 5.0
;
ARCHITECTURE; 土木・建築用語辞書 5.0
;
BIOLOGY; 生物用語辞書 5.0
}
✒
✑
ここで ; が以降はコメントです。したがって、この例では、農林水産、物理・原子力 、住所・氏名、
金融・経済、医学の 5 種類の専門用語辞書を使用する設定になっています。
4
名古屋大学情報連携基盤センター
翻訳時に使用する辞書を設定するためには、一旦 atlenv の出力を .atlrc というファイルに書き
込んでエディタで編集します。
✓
✏
nucc% atlenv -m je > .atlrc
nucc% vi .atlrc
✒
✑
なお、atlenv はサーバで設定されている環境を表示するだけなので、.atlrc で設定を変更した後
に atlenv を実行しても出力される情報は変わりません。
2.3
翻訳文法の選択
翻訳時の文法として選択できるものは、
日英翻訳 25 種類
英日翻訳 8 種類
あります。文法の設定は、.atlgopt-je あるいは .atlgopt-ej で行ないます。
まずは、atlenv で翻訳文法の設定を調べます。
✓
✏
nucc% atlenv -m je -s g
;1. 主語のない平叙文の訳 『部品を取り外す』『部品を取り外します』
;
1:受動形 『Parts are detached.』
;
2:主語を(*S)かitで訳す 『(*S) detaches parts.』
;
3:だ/する体を命令形 『Detach parts.』『Parts are detached.』
;
4:だ/する体+です/ます体を命令形 『Detach parts.』
GRM1 = 0
;2. 省略された主語の訳 『明日到着する』
;
1:(*S) 『(*S) will arrive tomorrow.』
;
2:it 『It will arrive tomorrow.』
GRM2 = 0
....
✒
✑
atlenv の出力では、文法に関する説明がコメントとして付いています。各文法の設定値(GRMn)
はすべて 0 となっています。0 は未選択を意味しており、実際の翻訳時は default 値として 1 の文法が
使用されます。
.atlgopt-je の設定は、atlenv の出力を書き込んだ後、エディタでそれぞれの文法の番号を設定
してください。
✓
✏
nucc% atlenv -m je -s g > .atlgopt-je
nucc% vi .atlgopt-je
✒
✑
5
翻訳システム利用の手引
3
csh モードでの翻訳
csh モードでの翻訳は atlje(日英翻訳)あるいは atlej(英日翻訳) コマンドを利用します1 。こ
れらのコマンドを引数なして実行すると、原文入力待ちとなります。
標準入力から原文を入力してリターンキーを押すと、それに対する訳文が表示され、さらに原文入
力待ちとなります。コマンドの終了は、EOF (CTL-D) です。
✓
✏
nucc% atlje
ATLAS はクライアント・サーバ機構で動作する日英・英日翻訳システムです。
ATLAS is Japanese-English and an English-Japanese translation system which
works by the client server mechanism.
ATLAS は表に示すとおり、137 万語の基本辞書に加えて 13 種類の専門用語辞書を備えています。
ATLAS has 13 kinds of technical dictionaries in addition to a basic dictionary
of 1,370,000 words as shown in the table.
nucc%
✒
✑
altje や atlej では文章の翻訳よりも、辞書代わりに単語の翻訳に利用する方が便利でしょう。
✓
nucc% atlej
statistics
統計量
cumulative
累積している.
a cumulative measure
累積している測定
a cumulative measure of the
メモリの量の累積している基準
nucc%
amount
of
✏
memory
✒
✑
ある程度まとまった量を翻訳するには、予め原文をファイルに作成してから翻訳する方が便利です。
その場合は、atlje の引数にファイル名を指定します。
原文ファイルは EUC コードで作成します。atlje は、原文のファイル名を与えて翻訳する場合に
は、前処理として文の切り出し機能が働くため、原文ファイルの形式は自由です2 。以下は原文ファイ
ルの例です。
1
atlje, atlej を は じ め 、本 節 で 紹 介 す る コ マ ン ド(filesep, lrtaiyaku)の コ マ ン ド の 説 明 は
$ATLAS HOME/sample/README を参照してください。
2
パイプ機能を利用して原文ファイルを標準入力に渡す場合は、文の切り出しを行なう前処理が働きません。
6
名古屋大学情報連携基盤センター
✓
✏
nucc% cat file.ja
1.はじめに
3月1日から新システムが稼働します。新システムは、スーパーコンピュー
タ、アプリケーションサーバ、画像処理システム、メールサーバ、媒体変換シ
ステム、データアーカイブサーバなどから構成されます。
スーパーコンピュータとアプリケーションサーバは同じ機種になりました。
そこで、本センターではこれらを一体的に運用し、利用者はアプリケーション
サーバに login することにより、両方のシステムが利用できます。
nucc%
✒
この原文ファイル名(file.ja)を引数に与えて atlje を実行すると、一文一文切り出されて翻訳
されます。先頭が J> で始まる原文と E> で始まる訳文が交互に表示されます。
✓
✑
✏
nucc% atlje file.ja
J> 1. はじめに
E> 1. Introduction
J>
E>
J> 3 月 1 日から新システムが稼働します。
E> The new system operates on March 1.
J> 新システムは、スーパーコンピュータ、アプリケーションサーバ、画像処理システム、
メールサーバ、媒体変換システム、データアーカイブサーバなどから構成されます。
E> The new system is composed of the super computer, the application server,
the image processing system, the mail server, the recording medium conversion
system, and the data archive server, etc.
J> スーパーコンピュータとアプリケーションサーバは同じ機種になりました。
E> The super computer and the application server became the same models.
J> そこで、本センターではこれらを一体的に運用し、利用者はアプリケーションサーバに
login することにより、両方のシステムが利用できます。
E> Then, these can be operated in this center as one body, and the user use both
systems by doing login to the application server.
nucc%
✒
✑
このように、atlje の出力は原文と訳文が混在しているため、翻訳結果を抽出するためのコマンドが
用意されています。以下の例では、atlje の結果を一旦 out に書き込み、日本語文と英文を分離する
ためのコマンド filesep を実行しています。filesep コマンドは、原文(out.js)と訳文(out.es)
を生成します。
翻訳システム利用の手引
7
✓
✏
nucc% atlje file.ja > out
nucc% filesep out
nucc% cat out.es
1. Introduction
The new system operates on March 1.
The new system is composed of the super computer, the application server, the
image processing system, the mail server, the recording medium conversion system,
and the data archive server, etc.
The super computer and the application server became the same models.
Then, these can be operated in this center as one body, and the user use both
systems by doing login to the application server.
nucc%
✒
✑
なお、filesep が生成するファイルは文単位にに改行されているため、段落などの整形が必要です。
一方、各文の翻訳結果をよりわかりやすく表示するためのコマンド(lrtaiyaku )が用意されてい
ます。以下の例は、atlje の出力として生成した原文訳文の混在ファイル out を指定して対訳を表示
しています。
lrtaiyaku は、翻訳の各文について原文と訳文を左右に分けてページイメージで出力しますので、翻
訳性能を評価するのに適しています。
8
名古屋大学情報連携基盤センター
ここで紹介した atlje および atlej は、翻訳を行なうコマンド(atltrns)の前後に、アルファ
ベットのコード変換(ASCII → EUC)と文の切り出しの前処理を行なうコマンドと、J> や E> を付
加し、コード変換(EUC → ASCII)を行なう後処理のコマンドをパイプで接続したものです。出力形
式を変更したい場合は、atlje を利用者のディレクトリにコピーして適宜編集して利用してください。
翻訳システム利用の手引
4
9
Openwindows 上での翻訳
SUN ワークステーションのウィンドウシステム Openwindows 上では対話的に翻訳作業が進められ
る対訳エディタ atledit3 が利用できます。
atledit は専用のウィンドウを表示しますので、実行する前にウィンドウサーバ側でクライアント
ホストからのウィンドウ表示ができるように設定しておく必要があります。サーバホストで、以下のコ
マンドを実行してください。
✓
✏
myhost% xhost +133.6.1.160 (または +133.6.1.153)
133.6.1.160 being added to access control list
myhost%
✒
次に、nucc または hpc へ login し、 DISPLAY 環境変数にウィンドウサーバを設定します。
✓
✑
✏
nucc% setenv DISPLAY 133.6.xxx.yyy:0
nucc% atledit
nucc%
✒
✑
atledit を実行すると、シェルのプロンプトが戻ってきて、新たに原文側と訳文側のウィンドウが
表示されます。
3
atledit は、同時に利用できるクライアント数に制限があります。
10
名古屋大学情報連携基盤センター
まずは、原文ファイルを読み込みます。原文側のウィンドウのファイルメニューのプルダウンメニュー
からロードを選びます。すると専用ウィンドウが表示されますので、原文のファイル名を入力し、 ロード
をクリックします。なお、atledit にはこれまでの翻訳用コマンドのような文章の切り出し機能があり
ません。1 文は「。」までか、改行までと定義されています。したがって、文章の途中で改行がはいっ
ているような原文は整形する必要があります。
原文全体を翻訳する場合は、翻訳メニューから 全文 を選択します。すると、訳文側に一行ずつ翻
訳結果が表示されていきます。翻訳が終了すると、原文側のウィンドウのフレーム部分に「翻訳が終了
しました。」というメッセージが表示されます、
翻訳システム利用の手引
11
訳文の編集は、通常の編集機能の他、編集メニューに cut & paste などの機能が用意されています。
訳文が満足のいくものとなったら、訳文側のファイルメニューから保存を選択します。原文ファイル
のロードの際と同様、ウィンドウが表示されるので、ファイル名を入力し、 保存 をクリックします。
一部分だけ翻訳をやり直す場合は、原文を編集した上で、翻訳メニューの セレクト/一文 を選び
ます。翻訳対象の文章は、マウスで選択し、反転表示させておきます。一方、翻訳結果は、訳文側の
ギャレット(▲、◆)の位置に挿入されますので、所定の位置にギャレットを移動させておきます。
12
名古屋大学情報連携基盤センター
atledit の終了は、どちらかのウィンドウの左上角のウィンドウ・メニューから 終了 を選択して
ください。
なお、atledit は動作環境ファイルとして .atleditrc を使用します。.atleditrc がないと、atledit
は毎回その旨メッセージを出しますので、 環境 メニューで作成してください。
翻訳システム利用の手引
5
13
単語登録
サーバが持っている基本辞書や専門用語辞書に相応しい訳語がない場合には、利用者辞書に単語登
録することができます。利用者辞書は利用者別に作成されており、辞書名は課題番号と同じです。
利用者辞書を編集する機能は、登録(atlsadd)、削除(atlsdel)、検索(atlslst)を行なうコマ
ンド群とこれらの機能が統合されている Openwindows 上のツール(atlsedit)と、が用意されてい
ます。
利用者辞書に単語を登録するためには、
• 品詞対(日本語の品詞と英語の品詞)
• 日本語表記
• 英語表記
• 属性リスト
の4項目の情報が必要です。属性リストは、翻訳に利用するための属性値の並びで、品詞によって必
要な属性が違います。例えば名詞対では、複数形の語尾変化の属性と意味分類の属性が必要です。具体
的な属性値は、マニュアルを参照してください。
辞書登録データを作成する際には、atlslst を利用して辞書に登録されている単語情報を利用する
と便利です。atlslst は辞書名を指定する必要がありますので、表 1 の辞書から選んでください。検
索する単語は、
e 英語表記
または、
j 日本語表記
で指定してください。なお、検索する単語のリストを予めファイルに作成しておくこともできます。
14
名古屋大学情報連携基盤センター
以下に、基本単語辞書(辞書名: BASIC)の検索例を示します。検索の終了は、EOF(Control-D)
を入力します。すると、検索の履歴が表示されます。
✓
✏
nucc% atlslst -d BASIC
e Internet
;e Internet
名詞−名詞 インターネット Internet 7 50
; ×名詞−名詞 インターネット Internet 1 3
名詞−名詞 インタネット internet 1 3
名詞−名詞 インターネット internet 1 0
e intranet
;e intranet
; ×名詞−名詞 イントラネット intranet 1 50
e motherboard
;e motherboard
; ×名詞−名詞 マザーボード motherboard 1 11
名詞−名詞 マザーボード motherboard 1 11
; ■表示履歴■[辞書名:BASIC][日英翻訳優先モード]
;
[出力:7語][正常:7語][異常:0語]
;
[2005年4月19日16時49分14秒]
✒
✑
辞書に登録する場合は、辞書名(a49999a)を指定して altsadd を起動します。atlslst と同様、
会話的に登録データを入力することもできますが、ここでは、登録予め作成した以下の辞書登録のデー
タで登録してみます。住所辞書に登録されていない、最近の市町村合併でできた新しい市町村名を辞書
に登録します。
✓
✏
nucc% cat toroku.dat
; 辞書登録データ
;
名詞−名詞 愛西 Ainishi 7 45
名詞−名詞 いなべ Inabe 7 45
nucc% atlsadd -d a49999a toroku.dat
; 辞書登録データ
;
; ◎日英名詞で登録
名詞−名詞 愛西 Ainishi 7 45
; ◎日英名詞で登録
名詞−名詞 いなべ Inabe 7 45
; ■登録履歴■[辞書名:a49957a][日英翻訳優先モード]
;
[入力:2語][正常:2語][既登録:0語][異常:0語]
;
[2005年4月19日17時11分45秒]
✒
✑
altsadd は、登録結果を出力します。◎ は正常に登録できたことを示しています。
一方、atlsedit は、対話的に登録データを作成することができます。atlsedit は Openwindows
上にウィンドウを表示しますので、4 節の atledit の場合と同様に、サーバ側で xhost によりクライ
アントのウィンドウが表示できるように設定しておきます。またクライアントホストでは、DISPLAY
環境変数にウィンドウサーバを設定します。
翻訳システム利用の手引
✓
15
✏
nucc% setenv DISPLAY 133.6.xxx.yyy:0
nucc% atlsedit
nucc%
✒
✑
atlsedit を実行するとシェルのプロンプトが戻ってきて、辞書エディタのウィンドウが表示されま
す4 。
辞書に登録されているデータを検索する場合には、日本語または英語の欄に検索したい単語を記入
し、 検索 メニューから 入力語の検索 を選びます。
検索の結果、単語の一覧と先頭の単語の詳細情報が表示されます。
詳細情報は、属性が数字ではなく言葉で表示されます。また、検索対象の辞書も、.atlrc に指定さ
れている辞書を同時に検索します。
検索結果を利用して単語登録する場合は、 参照登録 メニューを選びます。すると、現在参照してい
る単語情報を記載した登録用のウィンドウが表示されますので、適宜編集して登録します。
4
ウィンドウが表示されるまでに1分以上かかります。
16
名古屋大学情報連携基盤センター
以下に、「丸亀」の情報を検索した結果を利用して、「四国中央」を登録する例を示します。
翻訳システム利用の手引
A
17
マニュアル
• FUJITSU S ファミリー ATLAS 翻訳クライアント・サーバ使用手引書 V5.0 用
J2S1-0311-01
• FUJITSU S ファミリー ATLAS 翻訳の手引 V5.0 用
J2S1-0321-01