全文検索型 PDFデータ ベース 構築 要件定義ガイド

全文検索型 PDF データベース構築
要件定義ガイド
A
文書の整理
B
コード体系の設計
C
ファイル管理表の作成
D
PDF データの作成
E
単葉 PDF の編集
F
冊子 PDF の編集
G
製本 PDF の編集
H
総索引 INDEX の生成
I
注釈テキストの保守
J
適用業務の構築
K
電子署名
L
セキュリティ
M
その他(タイムスタンプ)
1
METAC2010/09/08
A.
文書の整理
A-1
電子化する文書の選別
A-1-1 対象となる文書全体から「見本」を抽出
A-1-1-① 紙のものはコピーをとる
A-1-1-② 電子データしかないものは紙に印刷する。
A-1-2 「見本」を紙ベースで整理・検討する。
A-1-2-① 電子化必要優先度を決める
A-1-2-② 電子化の処理レベルを決める。
A-2
電子化対象に決まった文書の分類(見本ではなく実体)
A-2-1 媒体
A-2-1-① 紙
A-2-1-② 電子データ(WORD.EXCEL..CAD)
A-2-2 色(白黒 2 値・256 色・フルカラー)
A-2-3 サイズ
A-3
文書の内容項目の分析
A-3-1 管理項目
A-3-1-① コード番号
A-3-1-② 文書番号(図番、地図番号)
A-3-1-③ ナンバリング(SEQ.№、総連番)
A-3-1-④ 文書名(台帳種別、本編・資料編)
A-3-2 実体項目
A-3-2-①
A-3-2-②
A-3-2-③
A-3-2-④
A-3-2-⑤
A-3-2-⑥
所属部署(管内)
路線名(ルート番号、上り下り)
キロポスト(距離程)
構造物種別(道路・橋梁・トンネル)
付属設備・機器種別(換気、ポンプ)
工事種別(.調査・施工・検査)
A-3-2-⑦ 実施年度
A-3-2-⑧ 担当業者
2
METAC2010/09/08
B.
コード体系の設計
B-1
既存のコードの体系を文書化
B-1-1 A の文書整理の作業でコードにマーキングをしておく
B-1-2 他部署で使われている共通コードの調査分析
B-2
コードのないものについては、新規にコード体系を決める
B-2-1 A の文書整理の作業でコード化する項目リストを作る。
B-2-2 項目の内容を分析して項目コードを設計する。
(コードには漢字かなは使わない)
B-3
項目コードを組み合わせて「複合コード」を設計する。
B-3-1 組合せの順列の設計(AAA_111_h16_001)
B-4
コード表の作成
B-4-1 コード体系表を EXCEL で作成する。
B-4-2 コード体系表を印刷する。
3
METAC2010/09/08
C.
ファイル管理表の作成
C-1
電子化する文書の一覧表を作成する。
C-1-1 冊単位のものは 1 冊 1 タイトル
(設計計算書・報告書など)
C-1-2 単葉のものは 1 枚 1 タイトル
(地図・図面・総括表など)
C-1-3 タイトル単位でコード体系に従って文書コードを付ける
C-2
EXCEL でファイル管理表を入力する。
C-2-1 「手書き用ファイル管理表記入シート」を作成して
文書の分類作業のときに書き込んでおく。
C-2-2 ファイル名・SHEET 名を分類体系に合わせる形で
EXCEL の「ファイル管理表」シートを設計する。
C-2-3 「ファイル管理表」シートにデータ入力する。
(全文検索の基礎データとなる。)
C-2-4
C-3
「ファイル管理表」シートを印刷する。
(スキャナー作業管理表として利用する)
「作業管理表」を作成する。
ファイル管理表に冊子として登録されている文書については
1 ページ1行単位でページ管理する
C-3-1 標準「作業管理表」シートを印刷する
C-3-2 冊子に総連番を付ける
(欠番のないようにナンバリングする)
C-3-3 「作業管理表」に冊子の構成内容を記入する。
C-3-3-① 表紙・序文
C-3-3-② 総目次・目次
C-3-3-③ 中扉(章・節)
C-3-3-④ 内容ページ・空ページ
C-3-3-⑤ 奥付け
C-3-4 「作業管理表」にページの種別を記入する。
C-3-4-① 用紙サイズ
C-3-4-② 色(白黒 2 値・256 色・フルカラー)
4
METAC2010/09/08
D.
PDF データの作成
D-1
紙文書をスキャナーで読み取る。
D-1-1 読み取り機器の選択
D-1-1-① 平板置き型スキャナー
D-1-1-② 用紙移動型スキャナー
D-1-2 読み取り条件設計
(代表的なページを選んでシュミレーション)
D-1-2-① イメージタイプ(白黒 256 色・写真)
D-1-2-② 解像度(dpi)
D-1-2-③ イメージ制御(露出・ガンマ・ハイライト)
D-1-2-④ 濃度補正
D-1-2-⑤ カラー調整
D-1-3 読み取りデータ格納フォルダー作成
D-1-4 スキャニング作業
D-1-4-① ファイル名・開始№をセット
D-1-4-② スキャニング実行
D-1-4-③ ファイル名を変更して登録
D-2
スキャナーデータを精錬(Photoshop)
内容の改ざんは許されないので、汚れの除去と退色の補正
に限定した作業を繰り返して、原本に忠実に電子化する。
D-2-1 回転(角度調整)
D-2-2 濃淡・鮮明度の調整
D-2-3 色の調整
D-2-4 全体の精白
D-3
スキャナーデータを PDF に変換
D-3-1
D-3-2
D-3-3
D-3-4
処理条件別フォルダに分類
PDF 変換条件設計
PDF 変換(個別処理)
PDF 変換(バッチ処理)
D-3-5 PDF を一つのフォルダ(PDF-Bulk)にまとめる。
5
METAC2010/09/08
E
単葉PDFの編集
E-1
ファイル管理表の内容を組み立てて「注釈」テキストを作成
E-1-1 EXCEL の別 SHEET に転写して編集
CONCATENATE 関数などを利用してテキストを結合
E-1-2 EXCEL から複写して WORD に貼り付け
E-1-3 WORD の編集機能で仕上げ
フォントの種別、色、サイズの変更
E-2
PDF に「注釈」テキストを貼り付ける。(Acrobat)
E-2-1 トップページに注釈を付加
原則としてページ最上段の左側の場所に書き込む
E-2-2 文書のプロパティに注釈を付加
E-2-2-① 文書のタイトル
E-2-2-② キーワード
E-2-2-③ 文書メタデータ
E-2-3 文書のプロパティの「開き方」を設定
E-2-3-① しおりパネルとページ
E-2-3-② 単一ページ
E-2-3-③ 全体表示
E-2-3-④ 文書タイトル表示
E-2-4 PDF を別名で保存する。
E-2-4-① PDF ファイル名
D-3-5 で作成された PDF のファイル名はスキャナーで読取した
「総連番」様式の仮の名前になっている。
正式のファイル名に変更してフォルダ(単葉PDF)に格納する。
6
METAC2010/09/08
F
冊子PDFの編集
単葉 PDF をバインドして冊子の形の PDF ファイルを作る。
冊子 PDF を PBS(PDF Booking Sheet)で編集することにより
全てのページに対応リンクした「ページしおり」を設定するのと合わせて
各ページの左上にページ番号と一致した「ページ注釈」を追記する。
F-1
C-3-3 で作成した「作業管理表」の記入内容に準拠して、
単葉 PDF をグループ別の分類フォルダーに格納する。
C-3-3-①
C-3-3-②
C-3-3-③
C-3-3-④
C-3-3-⑤
表紙・序文
総目次・目次
中扉(章・節)
内容ページ・空ページ
奥付け
F-2
グループ別バインダ PDF ファイル作成
F-2-1 Acrobat「複数ファイルからの PDF 作成」機能を使って
グループ別にバインドして複数ページ PDF を作成する。
F-3
全ての内容ページに「しおり」と「注釈」を付加する。
F-3-1 冊子 PDF の用紙サイズに合わせて PBS ファイル
(PDF Booking Sheets)を選択する。
F-3-2 MBS ファイルのページ内容を冊子 PDF のページ内容の
実体に置き換える。
F-3-3 置換済みの PBS ファイルから余分のページを削除して
冊子 PDF として別名保存する。
F-4
ノンブル{「ページ注釈」の位置を調整する。。
F-4-1 用紙サイズに合わせてノンブルの位置を調整する。
F-4-2 冊子全体が変則サイズの場合は一括変更を利用する
* I-2-2 規格外サイズの PDF の FDF ファイルを変更する。
F-5
冊子 PDF のプルーフリストを印刷する。
F-5-1 印刷条件
F-5-1-① 「文書と注釈」
F-5-1-② 「割り付け・4 ページ/A4」
7
METAC2010/09/08
G
製本 PDFの編集
グループ別に冊子化されたバインダ PDF ファイルを結合して、原本の
体裁に準じた製本 PDF ファイルを作る。
G-1
目次 INDEX の作成
G-1-1 目次ページを PDF OCR でテキスト変換する。
G-1-2 目変換テキストを WORD に転写し、「スタイル」機能で
見出し 1、見出し 2、見出し 3 のレベルを付ける。
G-1-3 WORD を PDF Maker で変換して目次「しおり」付きの
PDF を作成
G-2
PDF データの製本
G-2-1 冊子 PDF を結合。
G-2-2 表紙・目次ページの挿入
「目次しおり」のリンク先設定
G-2-3 双方向リンクの追加
G-2-3-① INFDEX へもどる
G-2-3-② ファイル名・文書タイトル
G-2-3-③ 目次
G-3
製本 PDF に「注釈」テキストを貼り付ける。(Acrobat)
G-3-1 トップページに「ファイル名・文書タイトル」注釈を付加
G-3-2 文書のプロパティに注釈を付加
G-3-2-① 文書のタイトル
G-3-2-② キーワード
G-3-3 文書のプロパティの「開き方」を設定
G-3-3-① しおりパネルとページ
G-3-3-② 単一ページ
G-3-3-③ 全体表示
G-3-3-④ 文書タイトル表示
G-3-4 PDF を別名で保存する。
G-3-4-① PDF ファイル名
8
METAC2010/09/08
H.
総索引 INDEX の生成
H-1
フォルダー単位でカタログ INDEX を生成
H-1-1 検索目的に適応したカタログ INDEX の設計
H-1-1-① INDEX ファイル名の設計
H-1-1-② INDEX 別フォルダー一覧表作成
(何を含んで何を除外するか)
H-1-1-③ 仕上がり「カタログ INDEX」の格納場所
(検索の流れにあわせてフォルダーを決める)
カタログ INDEX は、デフォルト条件のままであれば、その INDEX で
検索されるフォルダーと同じフォルダーに格納されるが、作成時に
「格納先フォルダー」を指定すれば、別フォルダーに格納できる。
(インデックスのリンクには全く支障は起こらない。)
H-1-2
(カタログ INDEX の原資テキスト)
H-1-2-① PDF 管理ファイル
ファイル管理表の登録内容テキスト
H-1-2-② PDF 実体ファイル
PDF ファイル名
原本の本文テキスト(全ページ)
製本済 PDF に付加されている「注釈」
製本済 PDF に付加されている「しおり」
H-1-2-③ FDF 管理ファイル
FDF ファイル管理表の登録内容テキスト
(注釈の履歴管理)
H-1-3
(カタログ INDEX の成果品)
H-1-3-① INDEX フォルダー(ファイル名とアドレス)
H-1-3-② INDEX_PDX(天眼鏡アイコン)
H-1-3-③ カタログ作業実行 log
9
METAC2010/09/08
I.
注釈テキストの保守
I-1
PDF の注釈テキストを FDF ファイルとして管理する。
I-1-1
PDF ファイルと FDF ファイルのツリー構造を設計する。
I-1-1-① 部門別履歴
I-1-1-② 暦年別履歴
I-1-2
FDF ファイル管理表を作成する
I-1-2-① FDF ファイル名のコード体系
I-1-2-② 履歴内容のタイトル
I-1-2-③ 母艦となる PDF ファイルの情報
(ファイル管理表のファイル名)
I-1-3
FDF ファイル管理表のデータベースを作成する。
I-1-3-① EXCEL シートの設計
I-1-3-② EXCEL シートに入力
I-1-3-③ PDF に変換
I-2
PDF のノンブル「ページ注釈」を FDF ファイルとして管理する。
I-2-1
PBS(PDF Booking Sheet)の PDF ファイルから
定型規格サイズの FDF ファイルを書き出す。
I-2-1-① A4、A3、他
I-2-1-② B5、B4、他
I-2-2
規格外サイズの PDF の FDF ファイルを変更する。
I-2-2-① 定型の MBS の FDF でページングする。
I-2-2-② FDF ファイルを変更して入れ替える。
10
METAC2010/09/08
J.
アプリケーション(適用業務)の構築と保守
J-1
カタログ機能で作成した全文検索用 INDEX と
PDF Booking Sheets 製本された PDF のしおり機能を
組み合わせることにより、利用目的に応じた双方向型
閲覧のできるデータベースを構築できる。
「しおり」設計
「注釈」設計
「双方向リンク体系」構造設計
J-2
カタログ機能は複数のフォルダーを対象として実行できる。
フォルダー体系の中で必要なものだけを取捨選択して
全文検索用 INDEX を生成する。
J-3
フォルダーの構成を設計するときに
利用者の目的や権限を考慮したツリー構造にしておけば
多種多様な全文検索用 INDEX を簡単に生成できる。
フォルダーに含まれる PDF の追加削除などの変化に応じて
カタログ機能を再実行するだけで、最新の全文検索用 INDEX
が再生成される。
フォルダーのツリー構造の設計
複数のカタログ INDEX による絞込み操作機能の設計
結び (A~J)
個別のシステム設計要件を列記したが、それぞれの設計作業は相互に
連関した内容を含んでいるため、システムの基本となるデータベースは
変化に対応できるフレキシブルな構造でなければならない。
この作業を「先にデザインをしてから」ではなく「データを電子化しながら」
最適の構造を構築することが「システム設計」の作業内容となる。
PDF を利用したデータベース設計の最大の利点は、PDF ファイルの構造
そのものがフレキシブルなものであるため、データベースの構築の試行錯誤
が可能であるということにある。
出来上がったデータベースの維持管理においても、この点が将来への展望
につながる支えとなる。
11
METAC2010/09/08
K
電子署名
L
セキュリティ(パスワード)
M
その他(タイムスタンプ)
文書の電子化の目的は「正しい記録」の保証と保存、及び公開が
簡潔明瞭に実行できる環境の実現にある。
A から J の作業工程により作成した電子文書が「正しい記録」として
利用できるようになるためには、電子署名、タイムスタンプ、パスワード
などで保護された形にしなければならない。
この分野の技術は既に確立しており、利用分野も広がっている。
PDF 形式の電子文書は、これらの要件に対応できる構造になっているため
PDF データベースとして構築されている内容を利用して、後から追認する形で
電子署名、タイムスタンプ、パスワードを付加することができる。
以
上
12
METAC2010/09/08