CSISクリアリングハウスの実装と分散連携に 関する計

ISO23950による分散検索の課題と
その解決案に関する検討
(株)トロピカルテクノセンター
情報開発部 贄 良則
平良 洋樹
本発表の流れ



ISO23950検索の仕組み
ISO23950が抱える問題点
クリアリングハウスノード連携案の紹介
–
–
–


階層配置型
ノード情報型
メタデータ複製型
メタデータ複製型の考察
まとめ
ISO23950の仕組み(1)
ISO23950 Client
(Origin)
1. ステートフルなプロトコル
2. 同時に複数のTargetを指
定可能
3. マシンアーキテクチャに
非依存
ISO23950 Server
(Target)
ISO23950の仕組み(2)
WWW Browser ISO23950 Gateway
1. WWWとISO23950との連
携にGatewayを用いる
2. Gatewayによる同報検索
ISO23950 Server
分散検索への取り組み
ISO23950 Gateway の問題点
WWW Browser ISO23950 Gateway
利用者が自らの判断で検索対
象ノードを指定しなければなら
ない。
48ノード ・・・ 38 秒
94ノード ・・・ 138 秒
205ノード ・・・ 216 秒
ISO23950 Server
分散検索への取り組み
国土交通省国土地理院ゲートウェイの例
利用者が自ら
選択する必要が
ある。
ISO23950クリアリングハウスへの補完
ノード連携による解決手法の模索
利用者は複数のクリアリングハウスノードの存在を意識せずに検索したい。

ISO23950の補完
–

ノード同士で事前に連携させることで解決できないか?
ノード連携手法の検討
–
–
–
ディレクトリ型
ノード情報型
メタデータ複製型
ノード連携手法の模索
検討:ディレクトリ型
長所:
(1)階層構造は直感的にわかりやすい。
日本
短所:
茨城
富山
沖縄
那覇
浦添
名護
地域ディレクトリの例
(1)最初に階層構造の定義が必要。
(2)検索の転送回数に比例して検索
レスポンスが劣化する。
(3)階層構造維持のための管理業務
が発生する。
(4)階層構造以外での検索指定では、
逆に非効率になる。
(5)どのノードが管理すべきかが不明瞭
なデータが発生した場合、仲裁が
必要となる。
ノード連携手法の模索
検討:ノード情報型
検索用
インデックス
を用意
メタデータ
長所:
(1)インデックスを共有すれば、どの
ノードに問い合わせても、そのノード
内で完結して処理できるため、高速
である。
ノード
短所:
ノード
ノード
インデックスを共有
(1)インデックス共有のための標準的
な手法が存在しない。
(2)何をインデックスとするかを決める
ことが難しい。
ノード連携手法の模索
検討:メタデータ複製型
メタデータ
ノード
メタデータ
ノード
ノード
メタデータ
メタデータそのものを共有
長所:
(1)メタデータを共有すれば、どの
ノードに問い合わせても、そのノード
内で完結して処理できるため高速。
(2)各ノードでデータの複製を保持する
ため、障害に強い。
短所:
(1)メタデータ共有のための標準的
な手法が存在しない。
(2)各ノードが用意すべきディスク容量
が多めに必要である。
(3)メタデータの著作権問題。
(4)複製タイムラグの問題。
メタデータ複製型
問題点と対応策(1)

メタデータ共有のための標準的手法の確立
–
各ノードが自律的に動作するアルゴリズムを提案する。



ノードの追加、削除も自動化する。(管理者の負担軽減)
ノードが追加されると自動的にメタデータの複製が開始される。
各ノードは、複製されたデータのオリジナルノードがどこかを
知っている。
メタデータ複製型
問題点と対応策(2)

複製データを格納するディスク容量の問題
–
個々のメタデータのサイズは非常に小さい。

–
容量の試算



–
10kbyte/1メタデータ程度
総メタデータ数10000 … 100Mbyte
総メタデータ数100000 … 1Gbyte
総メタデータ数1000000 … 10Gbyte
ハードディスクの大容量化の進展。

60GByte の HDD が 3 万円以下
メタデータ複製型
問題点と対応策(3)

メタデータの著作権問題
–
メタデータの著作権



–
基本的に公開されるべきデータ。
どの組織が作成したかがわかればよい。
改変されることは好ましくない。
電子署名の適用による解決が可能

電子署名 により、改変されていないかどうかを調べることが
可能になる。
メタデータ複製型
補足:電子署名
署名されたメタデータ
作成したメタデータ
第三者認証機関
(CA)
この文書は作
成元によって署
名されています。
署名
作成元の秘密
鍵
公開鍵
クリアリングハウスで公開
利用者
このメタデータは
作成元の署名が
ついているから
安心して利用で
きます。
メタデータ複製型
問題点と対応策(4)

複製タイムラグの問題
–
更新が頻繁に起こる場合、常に最新のメタデータを持
つことが難しい。



地理情報メタデータの場合、日々更新されるような性質の
データではない。
複製された過去のデータであっても、検索できないよりは検索
できた方が良いという解釈もある。
更新頻度とノード数をパラメータとした、最新状態率をシミュ
レーションにより測定中。
メタデータ複製型
ISO23950システムとの連携(1)

各クリアリングハウスノードがそれぞれ検索イン
ターフェースを提供する場合。
–
–
どのノードに問い合わせても結果が返る。
検索結果の情報をベースに、(メタデータを作成した)
オリジナルのノードに対して直接、検索をかける場合
には ISO23950 を使うことが可能。
メタデータ複製型
ISO23950システムとの連携(2)

一つの(あるいはいくつかの代表的な)クリアリン
グハウスゲートウェイが検索機能を提供する場合。
–
–
メタデータの(中央のゲートウェイへの)自動収集シス
テムとして有効に活用できる。
ゲートウェイ同士の情報交換としての利用も可能。
まとめ

ISO23950の問題点の明確化
–

利用者は複数のクリアリングハウスノードの存在を意
識しなくとも、検索を行える仕組みが必要。
分散連携方式の検討
–
–
階層型、ノード情報型、メタデータ複製型の検討
メタデータ複製型の課題と解決案




複製アルゴリズムの共通化が必要
データ容量に関する検討
著作権に関する検討
タイムラグに関する検討