【資料4】書誌XML作成ツールについて - J-Stage

資料4
J‐STAGE3
書誌XML作成ツール
独立行政法人 科学技術振興機構
知識基盤情報部 電子ジャーナル担当
平成23年10月
J-STAGE3への登載方法と「本ツール」の位置づけ
■
BIBでの登載
■ H26年3月31日
ジャーナル・予稿集 BIB登載 / SGML登載
■
XMLでの登載
H24年3月1日
ジャーナル向け
ジャーナル向け
提供
書誌XML作成ツール
書誌XML作成ツール
予稿集向け
書誌XML作成ツール
H24年10月1日
予定
H24年3月1日
予定
練習
練習
書誌XML 登載
登載
書誌XML
全文XML 登載
登載
全文XML
■ H24年4月1日
注.内容、仕様が
変更となることがあります。
2
J-STAGE3 書誌XML作成ツール の ポイント
1.クラウドサービス
書誌XML作成ツールを、クラウドサービスとして提供し、
学協会でのこれまでのパソコン環境でも利用できる。
2.対象
J-STAGEへ登載する、日英の、横書き、透明テキスト付PDFの記事を対象とする。
3.「学協会の作業の流れ」と「技術のポイント」
a. 半自動構造化(90%の自動認識)
組版ソフトのPDF出力から、J-STAGE3に適合する書誌XMLを作成する。
・ 専門知識がなくても簡単に作れる。(実体参照も自動置き換えUnicode UTF8)
・ 組版ソフトに依存しない
b.簡単ビュー(10%の人手修正)
半自動構造化後の書誌XMLをビュー表示し、 元のPDFと照合して
人手で誤りを訂正する。
4.提供
スケジュール: 『平成24年3月~ β版』 『平成24年4月~ 正式リリース』
費用:
『J-STAGEをご利用の学協会向に無料提供』
注.内容、仕様が
変更となることがあります。
3
1.クラウドサービス
インポート
記事PDF
ファイル
書誌XML
作成ツール
エキスポート
書誌
XML
ファイル
インターネット
書誌XML
全文PDFファイル
検索用TXTファイル
電子付録ファイル
学協会パソコン
アップロード
J-STAGE 3
JST
4
2.書誌XML作成ツールの対象
ツール
の対象
入力
(a) PDF ファイル(透明テキスト付き)の
論文、 記事
書誌XML
出力
J-STAGE3 XMLデータフォーマットガイド
ライン の BIB-J(ジャーナル)
・PDFのバージョン 1.3~1.5であること
・PDFのセキュリティ(ページの抽出等)が
許可されていること
・フォントの埋め込みがなされていること
( サブセット埋め込み可)
・文字情報はアウトライン化・ラスタ画像化
されていないこと
(b) 論文、記事の言語は、日本語と英語 とする。
(c) 縦書きの論文、記事は、対象外とする。
全文XML
×
×
5
3.「学協会の作業の流れ」と「技術のポイント」
【学協会作業者】
a.記事登録
【本システム】
作業者のPC内
の「典型記事」
【連携システム】
登録
パターン
入力
PDF
b.記事入力
作業者のPC内
の「対象記事
PDF」
ブロック解析
c.構造化の
設定と実行
構造化
メタ解析
引用文献リンク先の
自動照合
引用文献解析
d.編集(簡単ビュー)
構造化したXMLを、
ビュー画面で確認し
誤りを直す。
XML
編集
出力
e. XML出力
JaLC*
作業者
パソコン内へ
「対象記事
XML」
引用文献リンク先の
自動照合
JaLC*
*Japan Link Center
学術コンテンツの所在情報を
一元的に管理し、それらの相互
リンクを実現する仕組
6
3ーa.記事登録
【学協会作業者】
a.記事登録
典型記事
【本システム】
登録
パターン
典型的な記事に基づき、ブロック特徴情報(赤枠)とメタ特徴情報(緑枠)とを登録する。
3ーb.記事入力
【学協会作業者】
a.記事登録
典型記事
【本システム】
【連携システム】
登録
パターン
入力
PDF
b.記事入力
作業者パソコン
内の
「対象記事
PDF」
書誌XMLファイルに変換する記事をインポートし、システム内の
記事PDFフォルダーに保存する。
8
3ーc.構造化の設定と実行
【学協会作業者】
a.記事登録
【本システム】
典型記事
【連携システム】
登録
パターン
入力
PDF
b.記事入力
作業者パソコン
内の
「対象記事
PDF」
ブロック解析
c.構造化の設定と実行
構造化
メタ解析
引用文献リンク先の
自動照合
引用文献解析
Unicode UTF8 コード
JaLC*
XML
① a.記事登録で登録したパターン(ブロック特徴情報群・メタ特徴情報群)を指定する。
② 書誌XMLファイルに変換する記事を、PDFフォルダーから、指定する。
③ 構造化を起動する。 解析結果が XMLフォルダーへ格納される。
*Japan Link Center
★実体参照も自動置き換え [ Unicode UTF8 コードの使用 ]
★引用文献に自動リンクが形成される。[ JaLCとの連携 ]
学術コンテンツの所在情報を
一元的に管理し、それらの相互
リンクを実現する仕組
9
3ーd.編集ーその1
【学協会作業者】
【連携システム】
【本システム】
b.記事入力
作業者パソコン
内の
「対象記事
PDF」
入力
PDF
ブロック解析
c.構造化の設定と実行
構造化
メタ解析
引用文献解析
d.編集(簡単ビュー)
XML
編集
引用文献リンク先の
自動照合
JaLC*
① 構造化した書誌XMLファイルを、ビュー画面に読み出し、
② 記事PDFと、目視照合し不一致がある場合、 書誌XMLファイルを修正し、
XMLフォルダーに保存する。 引用文献の修正は、都度、JaLCへ
*Japan Link Center
自動照合される。
学術コンテンツの所在情報を
一元的に管理し、それらの相互
★J-STAGE2のBIB作成のチェックと同様に、
リンクを実現する仕組
十分なチェックをお願いします。
10
3ーd.編集ーその2
編集イメージ
学協会の
パソコン
①書誌XMLファイルを読み出し、
J-STAGE3書誌画面相当の
ビュー画面で表示する。元のPDF画面と
同時に表示される。
②作業者は、両画面を照合し、
ビュー画面の誤りを、PDFをコピーして、
ビュー画面へペーストすることで
訂正する。
PDFファイル
XMLファイル
本ツール
③ビュー画面の修正は、書誌XMLファイルに反映される。
11
3ーe.XML出力
【学協会作業者】
【本システム】
【連携システム】
XML
e. XML出力
出力
作業者
パソコン内へ
「対象記事
XML」
書誌
XML
ファイル
XMLフォルダーから、必要な書誌XMLファイルを出力する。
書誌XML
全文PDFファイル
検索用TXTファイル
電子付録ファイル
アップロード
J-STAGE 3
JST
12
3.「学協会の作業の流れ」と「技術のポイント」 -
【学協会作業者】
a.記事登録
図
【本システム】
典型記事
【連携システム】
登録
パターン
入力
PDF
b.記事入力
作業者パソコン
内の
「対象記事
PDF」
ブロック解析
c.構造化の設定と実行
構造化
メタ解析
引用文献リンク先の
自動照合
引用文献解析
d.編集(簡単ビュー)
構造化したXMLを、
ビュー画面で確認して、
誤りを直す。
JaLC*
XML
編集
e. XML出力
出力
作業者
パソコン内へ
「対象記事
XML」
引用文献リンク先の
自動照合
JaLC*
*Japan Link Center
学術コンテンツの所在情報を
一元的に管理し、それらの相互
リンクを実現する仕組
13
3.「学協会の作業の流れ」と「技術のポイント」 -
解説
本システムの利用者はJ-STAGE3向けに、記事を編集・登載する学協会作業者を想定している。
(a) 記事登録
典型的な記事に基づき、ブロック特徴情報とメタ特徴情報をパターンフォルダーに登録する。
(b) 記事入力
書誌XMLファイルに変換する記事をインポートし、システム内のPDFフォルダーに保存する。
(c)構造化の設定・実行
① a.記事登録で登録したパターン(ブロック特徴情報群とメタ特徴情報群)を指定する。
② 書誌XMLファイルに変換する記事を、記事PDFフォルダーから、単一もしくは複数指定する。
③ 構造化を起動する。解析結果がXMLフォルダーに格納される。
★実体参照も自動置き換え [ Unicode UTF8 コードの使用 ]
★引用文献に自動リンクが形成される。[ JaLCとの連携 ]
(d) 編集
記事PDFと書誌XMLファイルを、目視照合し不一致がある場合およびエラー表示がある場合は、
書誌XMLファイルを修正し、XMLフォルダーに保存する。
★J-STAGE2のBIB作成のチェックと同様に、十分なチェックをお願いします。
(e) XML出力
XMLフォルダーから、必要な書誌XMLファイルを出力する。
用語の定義
・ 記事
研究論文、短報、総説、コメント、エラータ、技術報告、実施報告、症例、講演記録、解説、製品紹介、及び技術紹介など、学術雑誌上の掲載単位で、
本システムでは、レイアウトに一貫性がある記事を対象とする。
・ ブロック特徴情報
書誌事項(表題、副題、表題の英訳、著者名、著者所属など)のレイアウト上の物理的は位置情報を言う。
・ メタ特徴情報
ブロック特徴情報にて示す範囲内の、XMLタグ付け単位とタグ名で指定された情報を言う。
XMLタグ付け単位は、 J-STAGE3 XMLデータフォーマットガイドライン の BIB-J(ジャーナル)、BIB-P(予稿集) JATIS0.4要素一覧の要素名をいう。
14
参考1. 「J-STAGE2 BIB登載」と「J-STAGE3 書誌XML登載」での作業の違い
J-STAGE2 BIBでの登載
チェック
チェック
BIBの手動作成
BIBの手動作成
記事PDF
手作業
(コピーペースト)
テキストエディター
(テンプレート)
記事PDF
○
照
合
書誌
テキスト
エディター
(テンプレート)
手作業
(コピーペースト)
×
書誌XMLツールでの登載
記事の事前登録
記事の事前登録
記事PDF
書誌XMLの半自動作成
書誌XMLの半自動作成
記事PDF
チェック
チェック
記事PDF
○
手作業
(コピーペースト)
照
合
半自動作成(90%の自動化)
書誌
特徴
×
引用文献リンク
J-STAEG3 表示相当
ビュー画面
15