米国公開特許明細書 和文抄録テキストデータ仕様

米国公開特許明細書 和文抄録テキストデータ仕様
平成17年4月
特
許
1
庁
1 納品媒体とファイル記録方式 ........................................................................................................................................................................................................ 3
2 各ファイルの概要 .......................................................................................................................................................................................................................... 3
2.1 テキストファイル ........................................................................................................................................................................................................................3
2.2 イメージファイル ........................................................................................................................................................................................................................3
3 CD−Rのボリューム識別子の作成基準 ...................................................................................................................................................................................... 4
4 ファイル名称 ................................................................................................................................................................................................................................. 4
5 ディレクトリ構造 .......................................................................................................................................................................................................................... 5
6 テキストファイルの詳細 ............................................................................................................................................................................................................... 6
6.1 テキストファイルの論理構造 ......................................................................................................................................................................................................6
6.2 テキストファイル中で使用するタグ ...........................................................................................................................................................................................7
6.3 改行制御文字................................................................................................................................................................................................................................7
6.4 抄録文の記録内容詳細 .................................................................................................................................................................................................................8
6.5 図面 ..............................................................................................................................................................................................................................................9
7 イメージファイルの記録内容詳細............................................................................................................................................................................................... 10
2
1
納品媒体とファイル記録方式
(1)納品媒体はCD−R(ライトワンスCD)である。
(2)CD−Rの物理フォーマット、論理フォーマットはCD−ROM公報仕様(意匠、商標、公開・国際商標、審決:第3版)準拠である。
(3)和文抄録のデータは、文献毎に、書誌事項、抄録文等を記録するテキストファイルと、代表図面を記録するイメージファイルの2つで構成される。
(4)同一文献のテキストファイルとイメージファイルは必ず同一媒体内に存在する。
(5)テキストファイルで使用する文字コードは、EUC(CD−ROM公報仕様(第4版)準拠)である。
(6)イメージファイルのファイルフォーマットは、CD−ROM公報仕様(第4版)準拠のTIFF(G4圧縮)のファイル形式である。
2
各ファイルの概要
2.1 テキストファイル
WIPO−ST.32を基本としたSGMLで記述されている。
SGMLタグうち、頁のレイアウトを表現するタグや頁区切りを表現するタグは記録されていない。
記録するサブドキュメントは「書誌事項」、「抄録文」、「図面」の三つで構成される。ただし、代表図面が無い場合は「図面」のサブドキュ
メントは記録されていない。
書誌事項は基本的に公報上の英語表記のまま、抄録文は発明の名称も含めて日本語による和文で記録されている。
2.2 イメージファイル
CD−ROM公報仕様(第4版)に準拠したフォーマットで記録されている。
抄録文作成時に選択された複数の図、式、表を再配置、合成し、一つ定型サイズのイメージデータとして記録されている。
個々の式と表には、それぞれ式番と表番を合成される。図に関しては公報上の
3
Fig.n
をそのまま残されている。
3
CD−Rのボリューム識別子
ボリューム識別子は次の通り作成されている。
4
①
②
③
④
JA
UP
2002
001
①発行国識別
JA
固定…Japan
②文献識別
UP
固定…US
Pre−grant
③発行年
米国公開特許明細書の公報発行年(西暦年4桁)
④番号
公報発行月
ファイル名称
各ファイルのファイル名は以下で作成されている。
・「テキストファイル」
:
yyyynnnnnnn.TXT
・「イメージファイル」
:
yyyynnnnnnn.IMG
※
先頭
yyyy
は西暦年、
nnnnnnn
は米国公開番号7桁。
4
5
ディレクトリ構造
ルートディレクトリ( \ )
――公報ディレクトリ( DOCUMENT 固定 )
――公報種別ディレクトリ ( USA 固定 )
………(3文字固定)
――千件単位ディレクトリ( yyyynnnn001 )
――100件単位ディレクトリ( yyyynnnnn01 )
――10件単位ディレクトリ( yyyynnnnnn1 )
――テキストファイル( yyyynnnnnnn.TXT )
――イメージファイル( yyyynnnnnnn.IMG )
――著作権ファイル( COPYRGHT )…固定
カッコ内はディレクトリ名またはファイル名を表す。
著作権ファイルのフォーマット
意
作
味
1
著
権
2
マスタCD−Rの作成年
長さ(バイト) データタイプ
内
容
例
27
文
字
Copyright (C) JPO and NCIPI
4
文
字
2001
5
6
テキストファイルの詳細
6.1 テキストファイルの論理構造
- <PATDOC>
¦
-<SDOBI>
・・・・(書誌事項を記録する節)
¦
¦
<B100>....</B100>
¦
¦
.....
¦
¦
<B900>....</B900>
¦
-</SDOBI>
¦
¦
-<SDOAB>
・・・・(抄録文を記録する節、詳細は6.4参照)
¦
¦
<P>米国公開特許和文抄録</P>
¦
¦
.....
¦
¦
<P>この発明は・・・(抄録本文を記述)・・・</P>
¦
-</SDOAB>
¦
¦
-<SDODR>
・・・・(代表図面の情報を記録する節、詳細は6.5参照)
¦
¦
¦
-</SDODR>
<EMI ID=000001 HE=160 WI=160 TI=AD IMF=TIFF>
- </PATDOC>
6
6.2 テキストファイル中で使用するタグ
タグの種類
タグの表記
意味
○:必須
(カンマの後のはエンドタグ)
文書構造を表す
<PATDOC>,</PATDOC>
サブドキュメント
<SDOBI>,</SDOBI>
書誌事項の項目
使用出来るサブドキュメント
△:無い場合あり
○
――
書誌事項
○
――
<SDOAB>,</SDOAB>
抄録文
○
――
<SDODR>,</SDODR>
図面を示す
△
――
○
書誌事項
<Bnnn>,</Bnnn>
詳細は 6.4 参照
抄録文の節
<P>,</P>
○
抄録文
図面を示す
<EMI ........>
△
図面
(<SDODR>の中では必須)
文字の制御機能用
<SP>,</SP>
上付き文字
△
抄録文、及び
<SB>,</SB>
下付き文字
△
書誌事項の「発明の名称(日本語)」
6.3 改行制御文字
抄録文の中での抄録本文に関してのみ、改行の個所(行の途中で
る。本仕様では復帰改行のCR LF(
0D0A
(注)16進表記法による数は、16進数字を(
。
で終わり次の行に改めて記述する場合)に限り、制御文字が記録されてい
)を用いている。それ以外の個所では一切記録されていない。
(16)
)16 で囲って表す。
7
6.4 抄録文の記録内容詳細
抄録文は次の10個の項目で構成されている。各項目は<P>で始まり</P>で終わる。
①抄録の種類
米国公開特許和文抄録
が固定で記録されている。
②公開番号
公開番号:
(例)
に続けて半角で 11 桁の公開番号を西暦年と通番の区切り記号に”/”を挿入し、12 桁で記録されている。
公開番号:2001/0012345
③公開日
公開日:
(例)
に続けて半角で
YYYY.MM.DD
の形式で記録されている。MM,DD はそれぞれ前ゼロ付き。
YYYY.MM.DD
の形式で記録されている。MM,DD はそれぞれ前ゼロ付き。
公開日:1994.04.19
④出願日
出願日:
(例)
に続けて半角で
出願日:1993.01.25
⑤本文頁数
明細書全文に相当する想定頁数。
(例)
本文頁数:
に続けて半角数字で記録されている。前ゼロ削除。
本文頁数:16
⑥クレーム数
明細書上のクレームの数。
(例)
クレーム数:
に続けて半角数字で記録されている。前ゼロ削除。
クレーム数:2
⑦図面数
明細書上の図面データの数(フロント頁の図は除く。式、表は含まない)。 図面数: に続けて半角数字で記録されている。前ゼロ削除。
(例)
図面数:39
なお、図面が一個もない場合は、
0
(ゼロ)を記録する。
8
⑧発明の名称
発明の名称△
に続けて発明の名称が記録されている。(半角、全角混在)
(例)発明の名称△サイクル効率の改善・・・の制御システム
⑨抄録文タイトル
抄録文
が固定で記録されている。
⑩抄録本文
先頭から抄録本文が記録されている。(半角、全角混在)
この項目に限り段落の区切りに CRLF が記録されている。最後の段落の終わりには CR△LF は記録されていない。
注)
:
は全角のコロン。
6.5 図面
代表図面がある場合は以下の固定文字列を記録されている。
代表図面が無い場合は<SDODR>,</SDODR>のタグは記録されていない。
<EMI ID=000001,HE=160 WI=160 TI=AD IMF=TIFF>
ID : イメージファイル内での該当するイメージの連続番号。常に一個しかないため固定で1である。
HE : イメージデータの縦方向の長さ。160mmである。
WI : イメージデータの横方向の長さ。160mmである。
TI : 図の種類。Abstract-Drawing の意で
AD
である。
IMF: イメージファイルのフォーマット。
TIFF
である。
9
7
イメージファイルの記録内容詳細
イメージファイルのフォーマット、記録内容は「CD−ROM公報仕様(第4版)」のイメージファイルと同じ。
本仕様での設定値は以下の通り。
・イメージデータのサイズは縦横とも162.6mm以内である。
・解像度は縦横とも1280dot(200DPI)とする。
・イメージファイル内のイメージデータの数は必ず1個となる。
・代表図面が無い場合はこのイメージファイル自体存在しない。(テキストファイルの図面の存在と対応する)
10