MT Plus/PatSpread技術資料

多言語高精度翻訳MT Plusと
それを用いた外国公報翻訳サービス Pat Spread
日本特許翻訳株式会社
2015年4月3日
2015 PatSpread/ MT Plus
1
グローバルな特許調査とその課題
図1 世界の特許出願件数動向(特許庁データより)
特許庁データ(図1)から明らかなように、日本特許のみならず米国特許・中国
特許・欧州特許・韓国特許など外国特許調査が必須になってきている。特許庁JPlatPatや日本特許情報機構 JGPG検索サービスでは、いち早く外国特許公報を
日本語で検索して、公報テキストを日本語で表示する検索サービスを提供してい
る。機械翻訳技術が特許の世界で広く利用されだしてきている。
2015 PatSpread/ MT Plus
2
ルールベース翻訳から統計的機械翻訳へ
翻訳業界での新しい動向
欧米圏の言語では、S(主語)-V(動詞)-O(目的語)の語順が同一であり、このような言語間の機械翻訳
は精度がよく広く実用化されている。一方日本語ではS-O-Vとその語順が大きく異なり、英日の統計
的機械翻訳(SMT)の精度はルールベース翻訳を上回ることができなかった。
2010年頃を境に、あらかじめ訳文対となる英文をS-O-V形式の語順変換を行ってからSMTを適用す
る方法を用いることで、英日でも「わからない」⇒「わかる」へ質的に精度が向上し、2013年の
NTCIR-10タスクで、SMTがルールベースの精度を上回ることが初めて立証された。注1)
SMTの特許業界への適用事例も2013年に相次いで発表された注2) 。
注1)Isao Goto, Ka Po Chow,Bin Lu,Eiichiro Sumita and Benjamin K. Tsou. Overview of the Patent Machine Translation Task
at the NTCIR-10 Workshop. NTCIR-10, 2013.
注2) 2013年3月21日 (独)情報通信研究機構-日本発明資料株式会社 “英語特許文”の高精度「自動翻訳ソフトウェア」を開発
(http://www.nict.go.jp/press/2013/03/21-1.htm)
2013年3月28日 (独)情報通信研究機構-一般財団法人日本特許情報機構 NICTの高精度な中日自動翻訳ソフトウェアがJapioの
サービスに (http://www.nict.go.jp/press/2013/03/28-1.htm)
特許専用の翻訳システムMT Plus
これまで一般的に用いられてきたルールベース翻訳ソフトでは重要な英単語の訳し分けの
誤りが多い注3)ことが大きな問題となっていた。情報通信研究機構(以下NICT)のSMTエンジン注4)
を採用することで訳し分け並びに読んで理解可能な特許翻訳が可能となったことから、弊社ではSMT
エンジンをコアとする独自ハイブリッド翻訳システムMT Plus実用化した 。
注3)英文公報では、公報中に繰り返し出現する発明のキーワードで、同じ単語が別の公報では異なる意味をもつことが少なく
ない。例えば、communicateは「連通する」、「通信する」、developは「開発する」、「現像する」、applicationは同一公報
内でも「出願」、「塗布」、「印加」、「応用」、「アプリケーション」などの訳し分けが必要となる。統計的機械翻訳以外で
は訳し分けが難しい。
注4) NICT内山将夫主任研究員等は機械翻訳技術への貢献を認められ、2014年6月AAMT長尾賞を受賞した。
2015 PatSpread/ MT Plus
3
MT Plus 翻訳システム
翻訳業界でのMT活用
2014年6月AAMT講演会での株式会社ヒューマンサイエンス徳田等の「取り扱い説明書」英語⇒ヨー
ロッパ各国言語への翻訳事例
MTは「使うかどうか」から「いかに使いこなすか」の段階に!
使いこなしのポイントは、「プリエディット」→MT→「ポストエディット」の「プリエディット」
にある。
このプリエディットにより同じMTでもpoor→ medium→ good→excellentと精度が向上する。
人手評価でGood+excellentが占める割合
エンジン
ルールベース
SMT
プリエディット前
47%
63%
特許業界での英日SMT実用化
プリエディット後
67.5%
92%
弊社では、米国特許の翻訳事例、中国実案の翻訳事例から1万件以上の校正・修正作業を
学習して独自にプリエディットエンジン、ポストエディットエンジンを開発し、これら
に適合するカスタマイズ SMTエンジンからなる英日自動翻訳システムMT Plusを実用
化した。このシステムにより、特許庁向けにすでに100万件の中国実案の英日翻訳納品実
績を持つ。
プリエディット
エンジン
原文を修正(エン
コード)
SMTエンジン
・特許文のみから抽出され
た約3億のエントリーフ
レーズを有するフレーズ
SMTエンジン
ポストエディッ
トエンジン
・翻訳日本語のデ
コード
図2 MT Plus翻訳システムの構成
2015 PatSpread/ MT Plus
4
MT Plus
•
•
•
MT Plusは、MT Plusの精度向上と併せて多言語対応を可能とした。現時点
では、英語・中国語・韓国語から日本語に翻訳可能な多言語翻訳システムで
あり、社内評価結果では他社比較で以下のように高精度であることが確認さ
れている。
MT Plusの翻訳精度
中日、韓日の翻訳例を以下に示す。MT Plusでは、手がかり句分析により、
公報特有の文体に従った翻訳文となるよう工夫されている。
中国実案翻訳結果の比較例
CN202577804請求項1
一种太阳能建筑结构,其特征在于,包括混凝土构件和光伏板,所述混凝土构件与所述
光伏板贴合在一起,且所述光伏板位于所述混凝土构件的外侧
MT Plus中日翻訳
ソーラー建物構造であって、以下のものを含む。コンクリートとソーラー電池パネル、前記コ
ンクリート部材と嵌合しソーラー電池パネルと前記ソーラー電池パネルは、前記コンクリート
部材の外側に配置されることを特徴とする,ソーラー建物構造。
韓日翻訳結果の比較例
KR2007-0097923発明の名称
原文
리튬 전지용 양극 활물질, 그 제조 방법 및 그를
포함하는리튬 이차 전지
MT Plus韓日翻訳
リチウム電池用正極活物質、その製造方法及びそ
れを用いたリチウム二次電池
A社 韓日翻訳
A社中日翻訳
リチウム電池用正極活物質、その製造方法および
太陽電池パネル部材とコンクリートを含むが、具体的な部材や光発電パネルを貼り合わせ
て、太陽光発電パネルが外に配置され、前記太陽建物の構造は、コンクリート部材と述べた。 彼含むリチウム二次電池
C社 韓日翻訳
B社 中日翻訳
リチウ電池用正極活物質, その製造方法及びそれ
太陽建築構造,その特徴は,コンクリート部材と太陽光板,前記コンクリート部材と前記太
陽光パネル貼り合わせ,且つ前記太陽光板は前記コンクリート部材の外側に位置している。 を含むリチウム二次電池
2015 PatSpread/ MT Plus
5
翻訳精度の評価
• 翻訳精度=訳語の精度[1] *語順の正確性[2]
[1]訳語の精度
訳し分けができるか、特許公報で使われない用語がないか、未知語
の発生が少ないか、非テキスト表現(化学式・数式・数値大小や範囲指定な
ど)が適切かどうか
• 誤り発生率で評価
•
•
•
•
•
[2]語順の正確性
語順を規定するルール体系→文法
特許公報特有の表現に焦点をあてた文法書の例題正解率で評価
2015 PatSpread/ MT Plus
6
英日と中日機械翻訳精度比較[1]
その1
比較の観点
1.発明特定事項を特定するために必要な下記事項をチェック
1.1.技術分野と公報原文
① 化学(化学式を含む)
公報 中国実案、米国特許 (英日評価用)
②物理(数値範囲指定+数式含む)
公報 中国実案、米国特許 (英日評価用)
③自動車
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
④マーキング
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
⑤医療
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
⑥電気通信
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
⑦機械
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
⑧建築
公報 中国実案、 (発明の名称+要約部英日、請求の範囲 中日評価用)
1.2.評価システム
①MT Plus
②A社
③B社
④D社
2015 PatSpread/ MT Plus
7
英日と中日機械翻訳精度比較[1]
その2
1.3.評価対象の段落
①発明の名称
②要約
③請求の範囲 第一請求項 必要があれば第二請求項
1.4.評価方法
①1.3.で定義される段落単位あたりの誤り数
②段落中に同じ語で複数誤りがあっても1とカウントする。
1.5.誤りの定義
①訳語が付与されない未訳語があれば未訳語1につき誤り数1とする
②訳し分けができていない語(例:lightを光と訳すべきところを軽いと翻訳
するなど重要な用語での誤り)があれば誤り数1とする。
③関係代名詞や表現の誤訳(例:前段とのつながりで、whereを「どこ」と訳す
④数式の誤り 原文比較での誤り
⑤化学式の誤り 構造式の誤り(語順含む)
⑥部番(構成要素の名詞語尾の数字やアルファベット記号)付与の誤り
⑦数値範囲指定の誤り
⑧日本特許公報では用いられない用語(例:service lifeを年功勤続など)
2015 PatSpread/ MT Plus
8
MT Plusと他社システムの翻訳精度[1]
図3 MT Plusと競合他社翻訳精度比較[1]注5)
表の値とバーの縦軸は段落1件あたりの誤り数で、値が小さいほど高精度であることを示している。MT
Plusでは、統計的機械翻訳と独自辞書により、テキスト部の翻訳精度が高いこと、さらに、数式や化学式
(上付き文字や下付き文字に隣接する化合物名)などの非テキスト部についても正確に翻訳できるよう改善
されており、総合評価では図3のように他社翻訳結果に比べて高い翻訳精度を有している。中日翻訳では、
単語数から算出した正解率はMT Plusでは99%に相当する。
注5)AAMTジャーナル56号(2014年6月発行)に掲載。
2015 PatSpread/ MT Plus
9
語順の正確性の精度評価(中日)[2]
語順=文法
文法書の例題を用いて語順の正確性を評価
中国特許に特化した文法書:「中国語特許明細書を読む。書く。 日中特許翻
訳仕様 技術系の中国語学習書 」雙田 飛鳥、沈 海泊、 安 秋順 (2012/11)
―
日本発明資料(株)で販売
本文の最初の部分の抜粋
中国語の「文成分」には、「主語」、「述語」、「目的語」、「定語」、「状語」、「補語」の6種類があり
ます。
本章では、「文成分」に関して、次の5つの項目について解説します。
①文成分のまとめ(2.1)
②定語(2.2)
③状語(2.3)
④補語(2.4)
⑤主語、述語、目的語(2.5)
ナラビの基本Rule
「文」、「節」は、次の[ナラビの基本Rule I]にしたがいます。
「定語」と「名詞」は、次の1ナラビの基本Rule Ⅱ]にしたがって並べられます。
[ナラビの基本Rule I ]
主語 + 状語 + 述語
+
補語
+
目的語
[ナラビの基本Rule Ⅱ]
定語+名詞
2015 PatSpread/ MT Plus
10
本文の構成例
2.2.1名詞+"的"
一般の中国語では、〔名詞+"的"〕が「定語」の典型例です。
【005】
[日]:接続機構の構成部材
[中]:连接机构的构成部件
[解説]
この"的"は、所属を表す"的"です。
具体的には、"构成部件"が"连接机构"の一部であることを表しています。
〔例文の構造〕は、次のとおりです。
连接机构的 构成部件
(定語)
(名詞)
この「定語」の構造は、次のとおりです。
连接机构 的
(名詞) (定語の"的")
2.4.1.2 "为"
文法用例辞典:P56左欄⑥
Why-文法書:P241
"为"は、「・・・になる」という意味です。
【026】
[日]:第3領域は、第1領域および第2領域を包囲して設けられる。
[中]:第3区域设置为包围第1区域和第2区域。
[解説]
"包围第1区域和第2区域"は、「目的語」(節)であり、設置された結果です。
[中国語の例文]を直訳すると、「第3領域は、設けられて第1領域および第2領域を包囲し
てなる」になります。
"为"を"成"または"成为"に置き換えても文の意味は変わりません。なお、この"成为"も
「結果補語である動詞」です。
〔例文の構造〕は、次のとおりです。
第3区域
设置
为
(主語)
(動詞)
(結果補語)
包围第1区域和第2区域
(目的語)
この「目的語」(節)の構造は、次のとおりです。
包围
第1区域和第2区域
(動詞)
(目的語)
2015 PatSpread/ MT Plus
11
文法書の例題[2]
例題の最初の1~17の例を以下に示す。次ページの評価では最初の例題100件(例題
中に複数の例題を含む)を取り上げ、採点を行った。
【001】
1.一种处理装置,用于处理数据,其特征在于,具备:
接收单元,其接收数据;
处理单元,其处理由所述接收单元接收到的数据;以及
显示单元,其显示由所述处理单元处理过的数据,
所述处理单元控制所述接收单元和所述显示单元。
【002】
1.一种处理装置,用于处理数据,其特征在于,具备:
接收数据的接收单元;
处理由所述接收单元接收到的数据的处理单元;以及
显示由所述处理单元处理过的数据的显示单元,
所述处理单元控制所述接收单元和所述显示单元。
【003】
8.根据权利要求1至7中任意一项所述的处理装置,其特征在于,
具备发送单元,其发送由所述处理单元处理过的数据。
【004】液体成分是从由A、B以及C组成的组中选出的至少一种。
【005】连接机构的构成部件
【006】A和B的最短距离
【007】输出的直流电流
【008】与连接部件的卡合
【009】从加熱装置向冷却室的送风
【010】向接收装置的信息
【011】节点传输的信息
【012】液体向外部的流出
【013】组合物A对于物质B的比
【014】发送信息的发送部
【015】在转动轴上固定的端部
【016】控制部从存储部读出的信息
【017】连续地回收液体。
2015 PatSpread/ MT Plus
12
文法書の例題と回答による評価[2]
採点基準
完全に正解=3点、部分的に正解1点、不正解0点
採点者:
雙田飛鳥氏(例題の著者)
満点
A社
MT Plus
得点
342
123
209
間違っている例:
正解率
35.96%
61.11%
問題
操作部借助于突起部与主体部卡合。
正解
操作部は、突起部を介して本体部と係合する。
MT Plus 操作部は、突起部と本体部により係合する。 A
社
操作部係合部と本体部により投影。
配点/得点
3
0
0
雙田氏コメント:
全体的な感想は、一文が主語+状語+動詞+目的語という一番シンプル
な構造の場合、ほぼ完璧に機械翻訳ができていると思いました。
目的語が節の場合、目的語が動詞+目的語になったりしますが、そのよ
うなケースなどの場合、調整が必要になっていると思いました。
私は、中日機械翻訳の日本語を見たことがなかったのですが、目的に応
じて使うことができると思いました。
2015 PatSpread/ MT Plus
13
プレーンテキストからXML対応の翻訳システムへ
XML対応翻訳システムMT Plus
公報原文はXMLで記述されており、XMLはタグにより構造化されたドキュメ
ントである。翻訳システムは一般にタグを破壊することが多く、XML非対応
の翻訳システムでは、公報原文をプレーンテキスト化して翻訳し、翻訳結果
はプレーンテキストで表示される。この場合、数式・上付き文字・下付き文
字・化学式・テキスト中への図挿入・表組み・構成要素段落構造などの公報
原文の重要な情報が失われることがある。(数式タグが破壊される例を次
ページに示した)
・MT Plusは、公報XMLに対応可能なシステムであり、タグ情報が破壊さ
れない改善を行っている。またMT Plusでは、弊社の保有する電子組版技術
(XML組版)により、翻訳結果を原文タグ情報を反映した独自のXML文書に再
構築してpdf化するため、公報原文情報を損なうことなく文書化することが可
能となっている。
XMLパーサー
プリエ
ディットエ
ンジン
各国の公報XML
形式それぞれに対
応してエンコード。
図4
多言語SMT
エンジン
ポストエ
ディットエ
ンジン
独自XML化
独自の統一XML
/SGML形式に再構
築してからpdf化
XML対応MT Plus翻訳システム
2015 PatSpread/ MT Plus
14
翻訳システムのXML非対応の事例(数式XML)
•
•
•
•
•
•
これまでの翻訳ソフトではプレーンテキストベースのため、原文XMLのタグをデコードできない場合が多
かった。たとえば、USP/CN/EP/WOでは複雑な数式は公報原文XMLのmathMLタグで定義されており、
以下のA社、B社の例では、XML非対応のため、タグが破壊されている。その結果、これらの翻訳結果
からは、公報原文イメージを参照しないと発明特定事項が理解できないという課題があった。
中国実案CN201344035 第一請求項:
【原文XML】 <claim-text>1.内外侧刃角不对称的过渡盘形滚刀刀圈,其刀圈刃两侧面关于其刀刃所<br />在平面不对称,内侧刃角比外侧刃角小2Θ角度,其特征在于,
所述<br /><maths
num="0001"><![CDATA[<math><mrow><mi>&Theta;</mi><mo>=</mo><mi>arctan</mi><mfrac><mrow><mi>sin</mi><mi></mi><mi>&Phi;</mi><mi>c
os</mi><mi>&alpha;</mi></mrow><mrow><mi>cos</mi><mi></mi><mi>&Phi;</mi><mi>sin</mi><mi>&theta;</mi><mo></mo><mi>sin</mi><mi></mi><mi>&Phi;</mi><mi>sin</mi><mi></mi><mi>&alpha;</mi><mi>cos</mi><mi>&theta;</mi></mrow></mfrac><mo>,</mo
></mrow></math>]]></maths>其中,α为过渡盘形滚刀安装角,θ为三分之<br />一贯入度时的接岩角,Φ为点A与过渡盘形滚刀轨迹圆圆心的连线与通过过渡盘
<br />形滚刀最大切深点的轨迹圆半径的夹角。<br /></claim-text>
【A社】その非対称性に平面のブレードナイフの刃側を鳴らす1側縁角不斉遷移ディスクカッターナイフリング、内では、ことを特徴とするブレード角度小角2Θ角
の外縁よりも内側には言った<数学ID = "math0001" NUM = "0001"> <数学> <[CDATA [<MROW!> <マイル>&シータ; </ miです> <カ月> = </月> <マイル>
アークタンジェント</ miです> <mfrac> <MROW> <マイル>罪</ miです> <マイル> </ miです> <マイル>&ピピ; </ miです> <マイル> COS </ miです> <マ
イル>&α; </ miです> </ MROW> <MROW > <マイル> COS </ miです> <マイル> </ miです> <マイル>&ピピ; </ miです> <マイル>罪</ miです> <マイル
>&シータ; </ miです> <カ月> - </月> <マイル>罪</ miです> <マイル> </ miです> <マイル>&ピピ; </ miです> <マイル>罪</ miです> <マイル> </ miです
> <マイル>&α; </ miです> <マイル> </ miです> <マイル>&シータCOS; </ miです> </ MROW> </ mfrac> <カ月>、</月> </ MROW>]]> </ math>はID
= "icf0001"ファイル= " Y2008201245830002C1.tif「WI = "69"彼は= "9"トップ= "47"左= "18" IMG-コンテンツ= "描く" IMG形式= "TIF"向き= "ポートレート"イン
ライン= "YES" /> </数学>、αは、遷移ディスクカッター取付角度であり、θは第三の岩浸透時間を選ぶ角、Φは、遷移プレートとの接続の中心部を通って円形
ディスクカッター軌道遷移点である円のカット点軌跡角半径のカッター最大深度。
【B社】1内外側刃角が対称ではない遷移円盤状刃回転ホブ,その[刀圈刃]2の側面は刃に平面をしていないという,内側刃外刃よりも小さい2Θ
角度,その特徴は,前記Theta;=arctansinΦcos&alphacos&Phisin&シータ;;;&-sinΦsin&alphacos&シータ;;ここ
id="icf0001"file="Y2008201245830002C1.tif"wi=69"The"="9"トップ"="47"left"="18"imgcontent="drawing"img""-format="tif"オリエンテーション
="portrait"インライン="yes"/>は",αは皿ホブ遷移取り付け角,θは分の一を貫入時の[接岩角],[Φ为点]Aと遷移円盤状軌跡[圆圆心]ホブ
の結線により過渡皿ホブ最大切り込み点の軌跡円半径の角度。
【PatSpread】mathMLに対応するため、数式の高精細な表示が可能。
2015 PatSpread/ MT Plus 15
XML対応の翻訳明細書PatSpread
•
•
•
•
•
PatSpreadは、米国特許、中国特許・実案、韓国特許、ヨーロッパ特許、WO特許
の五大特許庁の外国公報を多言語翻訳システムMT Plusにより日本語化されたXML
対応のPDF翻訳明細書である。
公報原文はXML形式で各国特許庁より提供されており、PatSpreadは数式や化学式、
図、改行などのXMLタグ情報を翻訳結果に反映可能とした。あわせて、PatSpreadは
以下に述べるメリットを有する2頁見開き形式(スプレッド)で提供される。
一般に、公報種別(公開・登録)や国により公報の段落の順序が異なるが、PatSpread
では、書誌情報、発明の名称、要約+代表図、請求の範囲、詳細な説明、図面とい
う順番に規格化されている。
その結果、PatSpreadでは、最初の頁に発明特定事項に関係する重要情報が、次ペー
ジ以降に詳細な説明、最後に図面という順番でどの公報でも同じように表示される。
そのために、翻訳結果をPatSpreadXML形式に変換してからXML⇒PDF出力を行って
いる。
PatSpreadの大きな特徴は、図5のように、2頁分の情報が見開き状態で横長表示さ
れ、PCディスプレイの縦横比率に適合するためPC画面上で見易いというメリットを
持つ。2頁を同時に表示するもうひとつのメリットは、フロントページが「発明の名
称、要約、代表図、請求の範囲が1画面に集約」されるため、発明特定事項の理解が
しやすくなり、調査する上で使いやすいというメリットがある。(PatSpread自身は
全文全頁に対応)
2015 PatSpread/ MT Plus 16
PatSpreadフロントページサンプル
中国特許
図5 中国特許フロントページのPatSpreadサンプル。
中国語原文XMLからMT Plusにより日本語を生成した。フロントページは、書誌的事項(出願人は参考で翻
訳したが括弧内の中国表記が正式のもの)、発明の名称、要約、代表図(大きく表示)、請求の範囲の表示
可能な部分で構成されている。
2015 PatSpread/ MT Plus
17
PatSpread図の挿入サンプル 中国特許
図イメージ部
図の説明部
本文テキスト部
図6 図と図の説明の本文への挿入例
従来の公報では、本文テキストと図の説明、図面が別々の頁にあるため、検索システムで2画面表示するなどの工夫が必
要。NEFスプレッドでは、本文中に図と図の説明を組み込むことで精読しやすくすると同時に、 90°回転した図の向
きも自動検知して正しい向きにしている。
右の図の例では、図内の3111などの番号を左の頁の本文が説明しているため、図面の参照に威力を発揮。
PatSpreadでは、見開き2ページでレイアウトの自由度が高いため、図面は大きく表示される。
2015 PatSpread/ MT Plus
18
PatSpreadXMLの表示上の特徴1
・USPや中国特許の数式XMLに
対応しているため、複雑な数式
を高精細に表示することが可能
・本文中への化合物構造式の表
示や下付き文字に続く化合物名
が正しく翻訳される。
・図面、図面の簡単な説明が本
文中に図を参照している位置に
挿入され、見やすい。(従来ど
おり図面と説明のページ(最
後)と併用)
図7 中国実案の数式の例
図8 USP 染料化合物の化学
構造式が挿入されている例
図9 韓国特許(リチウムイオ
ン電池)のSEM写真の本文へ
の挿入例
2015 PatSpread/ MT Plus
19
PatSpreadXMLの表示上の特徴2
・表のセルデータは翻訳
される。
(右表は韓国特許の例)
・表の中にイメージデー
タを挿入したり、長い表
を頁で自動分割して、見
出し部分をつけるなど見
やすく表示することが可
能。(表全体はイメージ
データとして表示)
図10 XML
テーブルへの対応
2015 PatSpread/ MT Plus 20
PatSpread利用シーン
PatSpreadを用いたグローバル調査
調査報告書や技術文献利用
審査部門・知財部・調査・研究開発部門
・調査報告書へコピーペーストで引用的
精査した結果
特許情報検索システム
な利用や添付公報としての利用。
(機械翻訳による検索・照 従来は日本公報ダウンロードで ・研究開発部門では新規テーマ提案時あ
よかったが・・・
会)
るいは先端技術文献として利用
グローバル調査のアウトプット:
図9 詳細は次ページ参照
外国公報原文、特に中国や韓国
では内容がわからない
PatSpread(USP/EP/PCT/CN/KR)公報
外国特許情報検索と照会
検索+スクリーニング
民間サービス+特許庁J-PlatPat
韓国特許本文例
図11 本文中の図・表の扱い
図・表も本文に組み込
まれ、表は翻訳されて
表示。外国特許を技術
文書としての利用も可
能。
2015 PatSpread/ MT Plus
21
まとめと将来への展望
•
•
•
•
これまでの特許機械翻訳では、訳語精度の課題とあわせて、数式、化学式、文中へ
の図挿入などの原文XML情報が欠落していたり、翻訳で破損することがあり、翻
訳文と公報原文イメージを相互参照する必要があった。PatSpreadでは、テキスト
の高精度化と併せてこれまであまり問題視されてこなかった非テキスト部の情報が
損なわれないような改善を行った。
その結果、主要五大特許庁の外国公報を日本語で、公報原文を参照しなくとも素早
く内容把握することが可能となり、調査/審査生産性向上が期待されるものである。
特許検索サービス分野では、はじめに述べたように中国・韓国を含む五大特許庁か
ら発行される外国特許の日本語対応が急務の課題であり、膨大な特許文献を精査す
るためには、正確で見易い特許翻訳が強く望まれている。公報XML対応の高精度な
機械翻訳以外にその解決手段はなく、MT Plus/PatSpreadが外国特許調査/審査の
生産性向上に寄与することを願ってやまない。
PatSpreadの将来のロードマップは、プリエディットでさらなる文法精度向上並び
に特許庁とNICTとの協業の成果で得られる対訳文収録増大による訳語精度の向上
と併せて、ドイツ語、フランス語、ロシア語などへの多言語対応の成果を取り込ん
でいくことを計画している。
2015 PatSpread/ MT Plus
22