多言語特許検索システムの研究開発 - 自然言語処理研究室 (徳永研

多言語特許検索システムの研究開発
−特許情報処理の国際化に向けて−
藤井 敦
筑波大学 図書館情報学系
〒 305–8550 茨城県つくば市春日 1–2
科学技術振興事業団 CREST
[email protected]
1
はじめに
して日本語のページは約 7%である(それでも英語につ
いで 2 位である).すなわち,日本語のページしか読ま
社会の情報化や国際化が急速に進む中で,国内外の多
ないユーザは,ウェブ上に流通する情報の爪先ほどしか
くの企業が自国以外での特許権利化を目指した海外出願
利用していないことになる.情報が力を持つ現代社会に
を重視する傾向にある.また,多くの国において,プロ
おいて,これは危機的状況であり,多言語検索や言語横
パテント(特許重視)政策が推進されている.このよう
断検索が果たす役割は大きい.
な時代の流れを背景にして,日本国内ユーザが海外出願
以上の背景を踏まえ,筆者は言語横断検索の研究とそ
された特許を検索する,もしくは海外ユーザが日本に出 れを応用した特許検索システムの開発を行ってきた.本
願された特許を検索するといった需要は今後確実に増え 稿は,2 章で言語横断検索について複数の観点から概説
るであろう.しかし,従来型の検索サービスでは言葉の
する.次に,3 章で筆者が研究開発した特許検索システ
違いが大きな障壁になり,ユーザに過度の負担を強いる
ム「 PRIME 」を紹介する.
ことになる.そこで,特許検索サービスが果たす役割も
変わりつつある.
外国語情報を母国語によって検索することを目的とし
た技術として「多言語検索( Multi-lingual Information
Retrieval )」がある.最近では「 言語横断検索」とい
う言葉もある.これは,言葉の違いを越えて情報を検
2
言語横断検索の基礎
2.1
定義
複数の言語を同時に扱う情報検索を総称して「多言語
索するという意味の英語「 Cross-Language Information
検索」と呼ぶ.しかし,一口に多言語検索と言っても以
Retrieval( CLIR )」の和訳として 1990 年代後半から使 下に示すように様々な処理がある.
われている用語である.
a. 多言語データベースの中から,文字コードなどに基
このような新しい日本語が生まれた理由の一つに,イ
づいて文書の言語を特定し,指定された言語で書か
ンターネットなどのネットワークや CD-ROM などの大
れた文書だけを検索する処理.
容量記録媒体を介した外国語情報の氾濫がある.コン
ピュータや携帯電話などがあれば,オフィスや自宅を問
b. 質問言語と異なる言語で書かれた文書を検索する処
わず,誰でも簡単に,これらの情報を取得できるように
理.ただし,質問と文書はそれぞれ単言語で記述さ
なった.しかし,いくら素材(コンテンツ)があっても,
れている点に注意を要する.
必要な情報を選んで利用するためには,それなりのワザ
やコツが必要である.思ったようなページが検索できな
い,何を検索キーワードにすればよいか分からないなど
の不満は,インターネット検索を経験した人なら一度な
らず感じたことがあるだろう.
ワールド ワイド ウェブに存在するページのうち,約
c. 複数言語で書かれた文書を検索する処理.
d. 複数言語で書かれた検索質問を用いた検索処理.
ここで,b を特に「言語横断検索( CLIR )」と呼ぶ.本
稿では b のみに焦点を当てるので,以降,多言語検索と
70%が英語で書かれていると推定されている.それに対 言語横断検索をほぼ同義で用いる.
CLIR に必要な要素技術は,情報検索,自然言語処理, 少しでもあると欲しい文書がほとんど 検索されないこ
とがある.そこで,辞書にないキーワードでも何とかし
する国内外の学会で CLIR に関する発表が増えている. て翻訳する必要がある.大量のテキスト(例えばウェブ
機械翻訳,人工知能など 多岐に渡り,これらの分野に関
ページ )から対訳を自動抽出して利用する手法や,カタ
2.2
概要
カナ語などの外来語を元の外国語に文字列や音節の単位
で置換する手法を併用すると効果的である.
言語横断検索の役割は,ユーザが検索質問を母国語で
入力すると,それに関連する外国語文書を検索し,その
結果をユーザの母国語で提示することである.理想的に
は,ユーザは端末の背後で外国語文書が検索されている
ことを意識する必要がない.
(b) 文書翻訳型
質問翻訳型の対極にある方式で,検索対象となるデー
タベース中の全文書をあらかじめ翻訳してユーザ言語ご
そこで,まず思い付くのは,検索質問を対象の外国語
とにデータベースを作っておく.文書の翻訳には機械翻
に機械翻訳してから検索を行い,検索された文書をユー
訳システムが使われることが多い.質問型よりも検索精
ザの言語に機械翻訳する方法である.
度が高いという実験報告があるものの,ウェブのように
しかし,現状では,ユーザが思い付きで入力したキー
ワードからウェブページのようにあまり形式的でない文
日常的に更新され増え続ける文書群を対象にする場合は
コストが高いため,実用上の問題がある.
書までを自在に訳せる万能な機械翻訳は困難である.そ
こで,少しでも理想に近づけるための方法がいくつか提
案されている.以下「検索」と「提示」という 2 つの観
点から言語横断検索の手法について説明する.また,国
内外の研究動向について紹介する.
(c) 中間言語型
質問と文書の両方を中間的な表現に置き換える方式で
ある.中間表現として,シソーラス(語を意味に応じて
分類した辞書)の意味分類を使う方法がある.この方式
2.3
情報の検索に関する手法
検索質問か対象文書のどちらか,あるいは両方を翻訳
では,質問や文書は「人工物」や「記憶媒体」などの抽
象概念の組み合わせとして表現される.
また,単言語検索で用いられるベクトル空間法を拡張
して,通常の単言語検索に帰着させることが言語横断検 して,言語の表層的な違いに依存しないベクトル空間
索の成功の鍵を握る.このような観点から,従来の言語 を構成する手法がある.ベクトル空間法では,索引語を
横断検索は以下に示す 3 つの方式に分類できる.各方式
軸とした一種の概念空間を構成し,検索質問や文書は全
には長所・短所があり,どれが最適かを一概に決めるこ
て当空間上のベクトルとして表現される.そこで,質問
とは難しい.それぞれの方式の特徴をよく理解し,目的
や文書の関連度はベクトル間の内積(角度成分)などに
に応じて適宜使い分ける必要がある.
よって計算される.
質問翻訳型や文書翻訳型の場合,言語の組ごとに辞書
(a) 質問翻訳型
や機械翻訳システムを用意しなければならない.それに
対して,本方式では中間言語への対応だけがあれば良い
検索質問を対象文書の言語に翻訳してから検索を行う ので,3 言語以上の言語横断検索への拡張が比較的容易
方式である.翻訳以降の検索処理は単言語検索と同じな であるという利点がある.
ので,既存の検索エンジンやデータベースを変更せずに
流用できるという利点がある.
検索質問は短いキーワード やフレーズが多いので,対
訳辞書などを使って比較的簡単に実装できる.ただし ,
2.4
情報の提示に関する手法
検索結果にはユーザに必要な文書だけが含まれている
辞書を引くだけでは訳語が一意に定まらないことが多い
とは限らない.不要な文書を避けてユーザを適切な文書
ので,語の共起頻度などを使って訳語の曖昧性を解消す
に導くためには,検索結果を効果的に提示することが重
ることで検索精度が良くなることが知られている.
要である.
しかし,検索質問は短いので,翻訳誤りや翻訳漏れが
提示の際に,検索結果中の全文書を完璧に翻訳する必
要は必ずしもない.必要なものか,そうでないかを区別
では特許検索も行われ,日本特許公報を日英韓中の 4ヶ
して,残った文書だけを精緻に翻訳すればよい.ウェブ
国語で検索するためのテストコレクションが整備された.
対応の機械翻訳システムが流行る理由の一つは,結果が
実用システムも存在する.ウェブ上の検索エンジンで
「大雑把に分かればよい」からである.機械翻訳システ
は,例えば Altavista4は比較的早くから入出力インタフ
ムの訳質に不満があれば,手作業で翻訳する必要があろ ェースに機械翻訳を用いている.また,最近は Excite5な
う.しかし,仮にそうだとしても,大規模な外国語デー どの検索サイトも言語横断機能を提供している.
タベースの中を当てもなく彷徨うよりは安上がりである.
提示に関する従来の研究では,検索結果中の頻出キー
ワードをユーザ言語に翻訳する手法が主流である.被験
者を使った実験の結果,文書を翻訳せずに提示する場合
に比べて,検索効率が向上することが報告されている.
3
多言語特許検索システム PRIME
3.1
研究開発の歴史
筑波大学 図書館情報学系(旧図書館情報大学)石川・
2.5
国内外の研究動向
藤井研究室において 1998 年 4 月より CLIR に関する種々
の手法 [2, 3, 4, 5, 7, 16, 17] を提案し ,NTCIR ワーク
言語横断検索に関する研究は最近始まった訳ではなく, ショップに参加して有効性の評価を行ってきた [1, 6].
初期の研究開発事例は 1960 年代にまで遡る [10].もっ
これらの研究成果を応用し,以下に示す機関や企業と
とも当時は「 Cross-Language Information Retrieval 」や
の受託研究を通して,多言語特許検索システム「 PRIME
「言語横断検索」などという研究分野があった訳ではな ( Patent Retrieval In Multi-lingual Environment )」の
い.それが今日のような状況に至った背景には,本稿の
冒頭でも述べたように,電子化された外国語文書の流通
がある.また,別の大きな背景として,システム評価用
研究開発を行い,国内初の商用サービスを実現した6 .
• (財)日本特許情報機構( 2000 年 7 月–2001 年 3 月)
のベンチマーク(テストコレクション )が整備されたと
– プロトタイプシステムの実装 [8, 14]
いう点が挙げられる.
言語横断検索のテストコレクションとは,ある言語で
• ( 株)パトリス( 2001 年 4 月–2002 年 3 月)
書かれた検索質問と,それとは別の言語で書かれた文書
– パテントファミリーを用いた対訳抽出 [9, 11]
の集合である.さらに,各検索質問に対する正解も含ま
– PRIME への文書クラスタリング機能追加 [15]
れている.大規模なテストコレクションの作成には膨大
なコストを要するものの,一旦作ってしまえばシステム
の性能評価を繰り返すことが容易になる.そこで,被験
者をその都度使わなくても,様々な手法を比較評価しな
• (株)パトリス,(株)クロスランゲージ( 2002 年
4 月–2003 年 3 月)
がらシステムを改善できるので,研究を進めやすくなる.
– 文書クラスタリング手法の評価実験 [13]
また,研究者自身が独自に作成したデータを用いた評
– 韓国語を対象にするための対訳抽出 [12]
価結果よりも,一般に公開されているテストコレクショ
– 日英/英日特許検索サービス開始
ンを用いた評価結果の方が客観性が高く,学会等に受け
入れられやすい.
参加者がシステムの性能を互いに比較評価するワーク
ショップとして,米国の「 TREC 」1 ,欧州の CLEF2が
ある.ここでは,欧州言語を中心とした言語横断検索用
のテストコレクションが作られた.
3.2
システムの概要
PRIME のシステム構成を図 1 に示す.この図におい
て,破線はオフライン処理(ユーザが利用する前にあら
日本では,国立情報学研究所が主催するワークショッ かじめ行っておく処理),実線はオンライン処理を表す.
プ「 NTCIR 」3において,日本語,英語,中国語を含むテ
現在,本システムが対象とする質問言語および文書言語
ストコレクションが整備された.第 3 回の「 NTCIR-3 」 は日本語と英語である.
1 http://trec.nist.gov/
4 http://www.altavista.com
3 http://research.nii.ac.jp/ntcir/
6 http://patolis-e.patolis.co.jp/
2 http://clef.iei.pi.cnr.it/
5 http://www.excite.co.jp
ユーザが入力した質問は,翻訳部によって文書言語に
更新
翻訳される.質問は,対訳辞書を用いて単語や複合語の
質問
対訳辞書
翻訳
翻訳モデル
対訳抽出
単位で翻訳する.しかし,一般に単一の語に対して複数
の訳語が定義されており,訳語候補を全て用いると不要
な特許が数多く検索されてしまう.そこで,検索対象の
特許データベースから抽出した言語モデル(語の共起情
言語モデル
報)を利用して訳語の曖昧性を解消する.すなわち,た
くさんの訳語候補の中から,特許中で連語としてよく使
検索
特許DB
われるものが有力候補として選択される.
PRIME は,機械翻訳用に作成されたクロスランゲー
日米対応特許
優先権主張番号に
基づく対応付け
提示
ジ社の専門用語辞書を対訳辞書として利用している.本
辞書はコンピュータや機械工学など 19 の専門分野で構
結果
成され,合計約 100 万件の日英対訳を定義している.し
かし,固定的な対訳辞書を用いるだけでは,日々増えつ
図 1: PRIME のシステム構成
づける新しい発明に関する新語を的確に翻訳することは
困難である.そこで,対訳関係にある特許( 対応特許)
から定期的に訳語を自動抽出して,対訳辞書を更新する. を索引語として抽出する.翻訳された質問からも,同様
の処理によって単語を抽出し,索引と照合する.本シス
これについては,3.5 節で詳しく説明する.
テムは確率型の検索手法を用いて質問に対する各文書の
それでも,なお翻訳できない語が存在する.外国語
の多くは音訳によってカタカナ表記されることが多い
適合度を計算し,適合度が高い文書から順番に出力する.
(「 collaboration 」と「コラボレーション 」など ).そこ
ユーザが単件の特許を選択すると,文書翻訳部がユー
で,対訳辞書に未登録のカタカナ語は「翻字」と呼ばれ
ザの母国語で表示する.ここでは,クロスランゲージ社
る処理によって音節の単位で翻訳し,単語対訳を合成す
の機械翻訳システム「 PAT-Transer 」を用いている.
る.音節の数は限られているため,少数の音節単位の翻
訳を用意するだけで,多数の単語対訳を自動的に作り出
3.3
すことが出来る.
3.3.1
質問の翻訳が終了すると,検索部によって,翻訳され
た質問に関連する特許を検索する.現実の利用では,言
語ごとに量や質の異なる特許が混在するデータベース
が検索対象となる.しかし,研究開発の過程においては
情報機構で作成された日英特許抄録を用いた.英語抄録
は特許庁から PAJ (Patent Abstracts of Japan) として
CD-ROM で配布されている.
抄録は,日英それぞれについて 1995–1999 年の 5 年分
( 約 175 万件)を収録している.公報は,資源の制約等
の問題から 5 年分全てを対象とはせずに,1995–1999 年
の中で対応特許を構成する日本と米国の公報(それぞれ
約 32,000 件)を収録した.
確率モデル
図 1 に示したように,検索質問翻訳には「対訳辞書」
「翻訳モデル」
「言語モデル」を用いる.
日英特許に対して均一な環境を用意した.具体的には,
対訳関係にある日英特許公報(全文)と(財)日本特許
検索質問翻訳
我々の検索質問翻訳の特長は,専門用語などに多く見
られる複合語を効率的に翻訳する点にある.そこで,以
下では複合語の翻訳に焦点を当てて説明する.
既存の対訳辞書に定義されている複合語の約 95%は,
原言語と目的言語で複合語を構成する単語の数と語順が
一致する.そこで我々は,複合語内の語順を保持したま
ま,対訳辞書に定義されている単語や複合語に分割しな
がら翻訳候補を導出する.
なお,可能な分割が複数ある場合は分割数最小の分割
だけを考慮する.また,辞書に定義されていない単語に
対しては翻字処理( 3.3.3 )を用いて対訳を導出する.た
各データベースはオフラインで索引付けする.日本語 だし,日英翻訳の場合は,翻字の対象はカタカナ語に限
文書は形態素解析システム「茶筌」7を用いて単語に分割 定される.
し,名詞を索引語として抽出する.英語文書からも名詞
7 http://chasen.aist-nara.ac.jp/
しかし,単語などの細かな単位に分割すると訳語曖昧
性が組合せ的に増加するため,統計的手法を用いて訳語
曖昧性を解消する.今,ユーザ言語の複合語 U と,文書
英語
日本語
言語における翻訳候補の 1 つ D を次のように定義する. address space control block アドレス 空間 制御 ブロック
U
= u1 , u2 , . . . , un
D
= d1 , d2 , . . . , dn
associative learning
associative memory
associative record
compressor research facility
correlation function
factor correlation
hash associative memory
訳語曖昧性の解消は,P (D|U ) を最大化する D を選択
することであり,ベイズの定理によって式 (1) のように
相関 学習
連想 メモリ
結合 レコード
圧縮機 研究 施設
相関 関数
因子 相関
ハッシュ 連想 記憶
変形できる.複数の翻訳候補を許容する場合は,P (D|U )
の値が大きい D から順に選択する.
arg max P (D|U ) = arg max P (U |D)·P (D)
D
D
図 2: 専門用語辞書の例
(1)
英語
address
associative
block
compressor
control
correlation
facility
factor
function
hash
learning
memory
record
research
space
ここで,P (U |D) と P (D) がそれぞれ「翻訳モデル」と
「言語モデル」である( 図 1 ).これらは,式 (2) のよう
に細かな単位の確率に分解して近似する.
n
P (U |D) ≈
P (ui |di )
i=1
n−1
P (D)
≈
(2)
P (di+1 |di )
i=1
ここで,P (di+1 |di ) は,文書コレクションから抽出した
語の共起情報を用いて推定する( 図 1 ).P (ui |di ) の推
定については 3.3.2 で説明する.
3.3.2
図 3: 英日単語辞書の例
翻訳モデルの推定
3.3.1 で説明したように,専門用語の複合語は原言語
と目的言語で語順を保持しているものが多い.しかし ,
日本語には語の区切りがないため,英単語との対応付け
が困難である.しかも,日本語分割の難しさは単語数の
日本語
アドレス
相関, 連想, 結合
ブロック
圧縮機
制御
相関
施設
因子
関数
ハッシュ
学習
メモリ, 記憶
レコード
研究
空間
EM アルゴ リズムによって収束した単語対応確率に基
づいて翻訳モデル P (ui |di ) を推定する.図 3 において
「相関」は「 associative 」と 1 回,そして「 correlation 」
と 2 回対応しているので,式 (3) が成り立つ.
増加に伴って顕著になる.
自然言語処理の研究では,文や文章の対訳から単語や
句の対訳を抽出する手法が提案されている.そこで,こ
P (associative | 相関)
=
1/3
P (correlation | 相関) = 2/3
(3)
れらの手法を応用すれば,複合語対訳から単語対訳を抽
出することができる.我々が対象とする複合語対訳は文
本来ならば,P (ui |di ) は辞書ではなく,単語単位の対応
や文章に比べると短い上に語順が保持されているため, 付けがなされた 2 言語コーパスを用いて推定することが
好ましい.しかし ,そのような言語資源は高価である.
比較的高い精度で単語対訳を抽出できると考えた.
具体的には,EM アルゴ リズムによって再推定を繰り
また,専門用語辞書ではその分野で使われやすい単語が
返しながら,原言語と目的言語の単語対応確率を収束さ
繰り返し使用される傾向があるため,本推定法は分野依
せる.その結果,日本語 23,313,英語 10,724 の単語対
存の統計頻度をある程度反映している.
訳を新たに抽出し,対訳辞書を拡張した.複合語 600 を
しかし,上記の手法では翻字によって導出された di に
無作為抽出して調査した結果,約 95%は正しく日本語分
対しては翻訳モデル P (ui |di ) を計算できない.このよう
割され,日英単語対訳が抽出できた.
な場合は,翻字処理で計算されるスコア,すなわち ui
図 2 に日本語分割後の専門用語辞書の一部を示す.図 3 から di が導出される尤度に基づいて翻訳モデルを計算
は,図 2 から作成した英日単語辞書である.
する( 3.3.3 ).
3.3.3
翻字処理
テ
te
キ
ki
ス
su
ト
to
$
t
3
1
2
3
0
がら翻訳したように,単語を文字列に分割しながら翻
e
0
0
0
0
0
訳することができる.その結果,対訳辞書に定義され
x
1
2
1
1
0
t
3
1
2
3
0
$
0
0
0
0
3
カタカナとアルファベット文字列の対応関係を記述し
た辞書があれば ,3.3.1 で複合語翻訳を単語に分割しな
ていない単語の翻訳が可能になる.この処理を「 翻字
( transliteration )」と呼ぶ.
我々の翻字法の特長は,文字列単位の対訳辞書(翻字
辞書)を自動的に作成する点にある.
まず,翻字辞書の作成について説明する.カタカナを
図 4: 日英文字列の類似度マトリクスの例
ローマ字表記したものは,元の英語綴りと多くのアル
ファベットを共有しやすい.例えば「システム (si-su-te-
mu) 」と「 system 」からは,共通するアルファベットを
基準として「シ -sy 」
「ス-s 」
「テ-te 」
「ム-m 」のような文 データベースから抽出した単語の頻度分布によって式 (2)
の P (D) を計算する.その結果,文書データベースに存
字列対応を抽出できる.
しかし「 L/R 」や「 C/K 」のように日本語の発音では
類似する組も存在する.そこで,アルファベット間の類
在しない単語 D に対しては常に P (D)=0 になるので,
出力から削除される.
似度( 表層一致 3,日本語の発音が同じ 2,子音ど うし
実際には,単語として成立しない候補は,辞書引きし
1,それ以外 0 )を定義し ,日本語発音が同じアルファ
ながら目的言語の文字列を作る段階で刈り込むことがで
ベット 21 組を定義した.すると,文字列対応を特定す
きる.まず,文書データベースから抽出した単語一覧に
る処理は,図 4 のようなマトリクスから類似度最大の
対して,先頭からのすべての部分文字列の一覧をあらか
パスを探索する問題に還元できる.
じめ作成しておく.そして,この一覧に定義されていな
図 4 は「テキスト( te-ki-su-to )」と「 text 」の対応の
いものは辞書引きの段階で削除する.
例であり,先頭の文字から「 $ 」までの矢印が類似度最
大パスを示す.その結果「テ-te 」
「キス- x 」
「ト -t 」のよ
うな文字列対応が抽出される.ここで,類似度は文字列
の先頭アルファベットだけに基づいている点に注意が必
3.4
PRIME の実行例
要である.また「 $ 」は単語の終端に付ける特殊文字で
あり,自分自身とのみ正の類似度を持つ.類似度を最大
化するパスは,グラフの探索アルゴ リズムによって効率
的に特定できる.
以上の処理によって,カタカナ列 423,アルファベッ
ト列 1,018 を含む翻字辞書を作成した.
翻字処理は複合語翻訳と類似している.まず,翻字辞
書を引きながら入力された単語を分割し,分割数が最小
になる分割だけを考慮する.そして,統計的手法によっ
て翻字の曖昧性を解消する.すなわち,式 (1) と (2) に
英日検索サービスを例にとって,PRIME の実行過程を
示す.なお,日本人ユーザが英語の特許を検索する場合
も原理は同じである.図 5 はウェブブラウザ上で動作す
る入力インタフェースである.通常のウェブ検索システ
ムと同じように入力ボックスに検索質問を入力する.こ
こでは「 natural language processing 」と「 information
retrieval 」の AND 検索を実行している.
検索( Search )ボタンを押すと検索質問が翻訳され,
おいて,U と D を単語,ui と di を翻字辞書に定義され
文書検索が実行されて図 6 に遷移する.ここでは,検索
た文字列対訳と考え,P (D|U ) を最大化する単語 D を選
された文献リストの英訳が表示されている.ユーザが選
択する.P (D|U ) は単語単位の翻訳モデルとしても利用
択した単件特許に対して,英文抄録( 図 7 )や公報全文
する点に注意が必要である.また,P (ui |di ) は翻字辞書
の機械翻訳結果( 図 8 )が表示される.
作成時における文字列対応の頻度に基づいて推定する.
ただし,文字列単位に翻訳すると,単語として成立し
ないような誤った結果が多く出力される.そこで,文書
この実行例で分かるように,外国人ユーザは日本語を
一切使わずに必要な情報を取得することが可能である.
図 5: PRIME の検索質問入力インタフェース
3.5
パテント ファミリーに基づく対訳抽出
部分が明らかにされていれば完全に同一内容である必要
はない.しかし,一般的に内容が大きく逸脱することは
3.5.1
概要
特許制度にはパリ条約による優先権主張を伴う出願制
度がある.パリ条約に加盟している国( 2000 年 1 月時
点で 157ヶ国)の在国人であれば,第 1 国で出願した特
許に基づいて,同一内容の特許をパリ条約に加盟してい
る第 2 国にも出願することができる.第 2 国に出願した
ないため,対応特許の内容は非常に類似している.
言い換えれば,対応特許には潜在的に対訳関係にある
単語が数多く含まれている.これらを抽出することが出
来れば,PRIME に用いる対訳辞書を( 半)自動的に更
新することが可能となる.
自然言語処理の研究分野では,複数言語の文書から単
特許は,第 1 国で出願した日まで出願日が遡及される. 語や複合語の対訳を自動抽出する手法が提案されている.
米国など 一部の国を除くと,先願主義(先に出願した者 筆者らは,この手法を特許分野に応用した.
が優先的に特許権利を得る制度)を採用している国が多
同一の発明を複数国に出願する方法には,優先権主張
いため,優先権主張制度は国際的に大きな効力を持つ. 制度を利用する以外にも,各国への個別出願や国際出願
このように,同一の発明に関して複数国に出願された
がある.しかし,これらの方法で出願された特許に関し
特許の集合を「パテントファミリー」と呼び,パテント
ては,対応特許を特定することが容易ではない.それに
ファミリーを構成する特許を「対応特許」と呼ぶ.対応
対して,優先権主張制度に基づいて出願された場合は,
特許は第 1 国と第 2 国でそれぞれ出願した特許間の構成
特許に固有の優先権主張番号によって対応特許を機械的
図 6: 検索結果一覧表示
に特定することができる.現在は日本と米国に出願され
た対応特許を対象としている.
日本は公開制度を採用しているため,特許が出願され
願した内容に基づいて日本に優先権主張されたことが分
かる.また「 (31) 優先権主張番号」と「【 21 】Appl.No. 」
によって,両者が対応特許であることが分かる.
ると,まず特許公開公報が発行され,特許が登録される
と登録公報が発行される.すなわち,同一特許に対して
2 種類の公報が存在する.
公開公報と登録公報を比較すると,前者は件数が圧倒
3.5.2
対訳抽出
特許公報は項目によって構造化されているので,日米
的に多いのに対して,後者は件数が少ないものの発明内 で対応する項目を特定することで,対訳抽出の精度を高
容の質が高い.しかし,言語的な質に顕著な違いはない めることができる.
ので,本研究では件数が多い公開公報を用いた.米国に
日本特許公報は【公開番号】,
【 出願日】,
【 出願人名】,
は公開制度がないため,登録公報のみ発行される.そこ 【出願人住所】,
【 発明の名称】などが記載された書誌的
で,米国の特許については登録公報を用いた.
事項と,
【 要約】,
【 請求の範囲】,
【 発明の詳細な説明】,
【 図面】などの項目から構成されている.し
パテントファミリーを構成する日本公開公報と米国登 【実施例】,
録公報の例(抜粋)を図 9 と図 10 にそれぞれ示す.この かし,項目の分布や項目名の表記は特許公報ごとにばら
例では,日本公報中の「 (31) 優先権主張番号」と「 (33)
【優先権主張国】米国(US)」によって,米国に先に出
つきがある.
これは米国登録公報においても同様である.しかも対
図 7: 英文抄録の表示
1995–1999 年の 5 年間に出願された約 32,000 件の対
のずれも生じる.そこで,対応する日米特許中の対訳箇 応特許を用いた実験の結果,ノヴァの対訳辞書に登録さ
所を完全に特定することは容易ではない.一部の対応特 れている 100 万語の他に,年間平均で約 3,000 語の新語
応特許は完全に同一内容ではないため,日米間で項目
許について各項目間の対応を人手で分析した結果,
「発
対訳を抽出することが出来た.図 11 に抽出された対訳
明の名称」と「要約」は全件で対応したので,当該項目
の例を示す.優先権主張制度が存続する限り,対応特許
を対象に対訳自動抽出を行った.なお,米国登録公報に
は今後も出願されて漸進的に増加する.そこで,本手法
おいて「 発明の名称」と「 要約」は,それぞれ [54] と
を用いることで新語対訳を定常的かつ迅速に収集するこ
[ABSTRACT] で示されている.
とが期待できる.
対応する特許項目において,頻繁に共出現する日本語
と英語は対訳関係であることが多い.例えば,日本公報で
「情報検索」が出現するときに,米国公報に「 information
4
おわりに
retrieval 」が決まって出現すれば,両者は対訳である可
本稿は,特許情報処理の国際化に向けて,外国語情報
能性が高い.そこで,日本語と英語の特許から単語と複 を検索するための言語横断検索について概説し,さらに
合語を抽出し,それぞれの組み合わせに対して,統計的
筆者らが研究開発した特許検索システム PRIME を紹介
な相関係数によって関連度を計算し,関連度が高い日英 した.今後は,PRIME の対象言語として韓国語を追加
対を対訳として自動抽出する.
する予定である.
図 8: 公報全文の機械翻訳結果
謝辞
本稿で紹介した研究成果は,石川徹也教授(筑波大学
図書館情報学系)との共同研究,
( 財)日本特許情報機
構,( 株)パトリス,( 株)クロスランゲージとの受託
研究によるものである.
参考文献
[3] Atsushi Fujii and Tetsuya Ishikawa. Cross-language information retrieval using compound word translation.
In Proceedings of the 18th International Conference on
Computer Processing of Oriental Languages, pp. 105–
110, 1999.
[4] Atsushi Fujii and Tetsuya Ishikawa. Applying machine
translation to two-stage cross-language information retrieval. In Proceedings of the 4th Conference of the
Association for Machine Translation in the Americas,
pp. 13–24, 2000.
[1] Atsushi Fujii and Tetsuya Ishikawa. Cross-language
information retrieval at ULIS. In Proceedings of the
1st NTCIR Workshop on Research in Japanese Text
Retrieval and Term Recognition, pp. 163–169, 1999.
[5] Atsushi Fujii and Tetsuya Ishikawa. Cross-language
information retrieval based on query keyword translation: An Internet search application. International Journal of Computer Processing of Oriental
Languages, Vol. 13, No. 1, pp. 1–13, 2000.
[2] Atsushi Fujii and Tetsuya Ishikawa. Cross-language
information retrieval for technical documents. In Proceedings of the Joint ACL SIGDAT Conference on Empirical Methods in Natural Language Processing and
Very Large Corpora, pp. 29–37, 1999.
[6] Atsushi Fujii and Tetsuya Ishikawa. Evaluating multilingual information retrieval and clustering at ULIS.
In Proceedings of the 2nd NTCIR Workshop Meeting
on Evaluation of Chinese & Japanese Text Retrieval
and Text Summarization, 2001.
図 9: 日本公開公報の例
図 10: 米国登録公報の例
アルケニル含有ポリジオルガノシロキサン
イオントラップ質量スペクトロメータ
インド リルアルキルピペラジニルピリジン
エアバッグキャニスタ
ジオルガノポリシロキサンポリマー
シリコーン感圧接着剤組成物
セルローストリアセテート写真
セルローストリアセテート写真フィルムベース
加硫性エラストマーコンパンド
感熱色素転写システム
小型走査共焦点顕微鏡
電子マネーシステム
蠕動ポンプ
alkenyl-containing polydiorganosiloxane
ion trap mass spectrometer
indolylalkylpiperazinyl pyridine
air bag canister
diorganopolysiloxane polymer
silicone pressure sensitive adhesive compositions
cellulose triacetate photographic
cellulose triacetate photographic film base
vulcanizable elastomeric compound
thermal dye transfer system
miniature scan confocal microscope
electronic-monetary system
peristaltic pump
図 11: 辞書未登録対訳の例
[7] Atsushi Fujii and Tetsuya Ishikawa. Japanese/English
cross-language information retrieval: Exploration of
query translation and transliteration. Computers and
the Humanities, Vol. 35, No. 4, pp. 389–420, 2001.
[8] Masatoshi Fukui, Shigeto Higuchi, Youichi Nakatani,
Masao Tanaka, Atsushi Fujii, and Tetsuya Ishikawa.
Applying a hybrid query translation method to
Japanese/English cross-language patent retrieval. In
ACM SIGIR Workshop on Patent Retrieval, 2000.
[9] Shigeto Higuchi, Masatoshi Fukui, Atsushi Fujii, and
Tetsuya Ishikawa. PRIME: A system for multi-lingual
patent retrieval. In Proceedings of MT Summit VIII,
pp. 163–167, 2001.
[10] P.E. Mongar. International co-operation in abstracting
services for road engineering. The Information Scientist, Vol. 3, pp. 51–62, 1969.
[11] 福井雅敏, 樋口重人, 藤井敦, 石川徹也. 日米対応特許
コーパスを用いた対訳抽出手法. 情報処理学会研究報告,
2001-NL-145, pp. 23–28, 2001.
[12] 金玉錦, 藤井敦, 石川徹也. 韓国語コーパスからの外来語
自動抽出と言語解析への応用. 言語処理学会第 9 回年次
大会発表論文集, 2003.
[13] 牧田光晴, 樋口重人, 藤井敦, 石川徹也. 特許検索における
分類手法の比較検討. 情報処理学会研究報告, 2002-NL151, pp. 95–101, 2002.
[14] 樋口重人, 福井雅敏, 藤井敦, 石川徹也. 特許情報を対象
とした言語横断検索システムの開発. 言語処理学会第 7
回年次大会発表論文集, pp. 445–447, 2001.
[15] 樋口重人, 牧田光晴, 藤井敦, 石川徹也. 多言語特許検索
システム prime. 言語処理学会第 8 回年次大会発表論文
集, pp. 196–199, 2002.
[16] 藤井敦, 石川徹也. 技術文書を対象とした言語横断情報
検索のための複合語翻訳. 情報処理学会論文誌, Vol. 41,
No. 4, pp. 1038–1045, 2000.
[17] 藤井敦, 石川徹也. 質問翻訳と文書翻訳を統合した日英言
語横断情報検索. 電子情報通信学会論文誌, Vol. J84-D-II,
No. 2, pp. 362–369, 2001.