Z39.50を 利用したデータベースの自動分類の試み

2000年1月25日(火)
修士論文最終発表
Z39.50におけるデータベース選択
支援機能の実現
石塚研究室
江草由佳
研究の背景
• Z39.50
– 情報検索のための通信プロトコル
– Z39.50を利用することにより異なるシステム間で
の相互利用が可能
• 様々なZ39.50データベースの存在
– OPAC
– 書誌データベース
– 全文検索システム(Abstract,新聞記事)
• 接続データベースの選択が困難
Z39.50におけるデータベースの選択(1)
• 必要なこと
– データベース接続情報をクライアントに登録
• データベース接続情報が分からないとデータベースに接続できな
いため
– データベースの組織化
• データベースの内容が分からなければ選択できないため
• 問題点
– データベース接続情報の入力の手間
– データベース接続情報の再利用が困難
• WWW上の収集サイトやクライアント独自の形式で記述されてい
るので、それぞれの形式に変換しなければならない
– 自分でデータベースを組織化しなければならない
Z39.50におけるデータベースの選択(2)
• 解決策
全てのデータベース接続情報を収集し組織化し
て、あらかじめクライアントに登録しておく
データベースが増加しているので、全てを登録
するのは困難
Z39.50におけるデータベースの選択
(3)
• 解決策
データベース接続情報の相互利用
• 利用者が収集・組織化したデータベース接続情報
を利用者同士で利用可能にする
お互いに補完できるので全てを収集し組織化し
なくてもよい
研究の目的
• データベース選択支援機能の実現
– WWWの枠組み
– データベース接続情報の収集・加工・流通・利用のサイクル
• データベース選択支援システムの構築
– WWWブラウザ
– Z39.50クライアント
– 既存のデータベース接続情報の変換機能
WWWの枠組み
• ハイパーテキストの概念に基づく分散型情報システム
– HTTP
インターネット上でファイルの送受信を行うためのプロトコル
– HTML
機種に依存しないハイパーテキストのための文書形式
– URL
インターネット上に存在する様々なリソースを表すためのアドレス
• 情報共有システム
– 個人や組織が作成したコンテンツをお互いに利用できる点に
優れている。
データベース接続情報の
相互利用
• Z39.50用URL
– Z39.50サーバを一意にあらわすためのURL
書式)z39.50s://ホスト名[:ポート番号]/データベース
名
例) z39.50s://lib.ulis.ac.jp:210/opac
• Z39.50用URLを扱えるアプリケーションの開発
– WWWブラウザ
– Z39.50クライアント
データベース接続情報の
収集・加工・利用・流通のサイクル
• 収集
– データベースの存在
• 加工
– データベースの内容
• 流通
– データベース接続情報を相互利用
• 利用
– データベース接続情報の表示
– データベース検索
システムの全体図
HTMLファイル
http://….
z39.50s://….
データベース接続情報変換部
Z39.50クライアント
医学: WWWブラウザ
Medline
既存の
MDX_Health
BioDigest
データベース
経済: HTMLで記述
加工
情報
ABI-INFORM
WilsonBisunes
NewYorkTimes
表示
表示
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
システムの全体図
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
既存の
データベース
加工
情報
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
システムの全体図
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
既存の
データベース
加工
情報
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
システムの全体図
HTMLファイル
http://….
z39.50s://….
データベース接続情報変換部
Z39.50クライアント
医学: WWWブラウザ
Medline
既存の
MDX_Health
BioDigest
データベース
経済: HTMLで記述
加工
情報
ABI-INFORM
WilsonBisunes
NewYorkTimes
表示
表示
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
データベース接続情報の変換部
既存のデータベース接続情報をZ39.50用URLに変
換し、組織化する
1. データベースに関する情報を収集・公開してい
るサイトから取得
2. データベース接続情報をZ39.50用URLに変換
3. データベースをサーバごとに並び替える
4. データベースを分野ごとに自動分類
5. よく使うデータベースをまとめる
6. HTMLで記述しWWW上で公開
自動分類の方法
Medline
Agricora
MDX_health
BioDigest
ABI-INFORM
……
データベース
Medline
female 897
animal 654
drug 396
Agricora
corn 120
beef 422
apple 347
分野を代表
医学:Medline
教育:ERIC
MDX_Health
female 34
drug
13
walk 239
・
・
全インデックス語
とヒット件数
相
関
係
数
の
計
算
教育の適合度
ERIC:1.00
EducationIndex:0.87
医学の適合度
NewYorkTimes
: 0.67
Medline:1.00
Agricora:0.25
Agricora:0.20
Medline:0.46
MDX_Health:0.82
BioDigest: 0.66
ABI-INFORM:0.46
適合度から分類
医学:
Medline
MDX_Health
BioDigest
教育:
ERIC
EducationIndex
システムの全体図
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
既存の
データベース
加工
情報
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
WWWブラウザ
• 機能
– HTML文書の表示
– HTMLファイルをHTTPを介して取得
– Z39.50用URLリンクを解析しZ39.50クライアン
トを起動
システムの全体図
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
既存の
データベース
加工
情報
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
Z39.50クライアント
• 機能
– WWWブラウザから渡されたZ39.50用URLを
解析してデータベースに接続
– データベースの検索
– 検索結果の取得
– 単体のみで利用可能
デモ
WWWとZ30.50を組み合わせた
システム
• WWWゲートウエイシステム
WWWゲートウエイ ネットワーク サーバの
ユーザの ネットワーク のマシン
マシン
マシン
WWW
ゲートウエイ
Z39.50
WWW
WWW
HTTP
サーバ
サーバ Z39.50
ブラウザ
Z39.50
オリジン
・WWWブ
ラウザさえ
あればよい
処理が
集中する
・セッションがきれる
・直接Z39.50でつながっていない
本システムとプロトコル
ユーザのマシン
ネットワーク
サーバのマシン
Z39.50
クライアント
Z39.50
オリジン
Z39.50
WWW
ブラウザ
HTTP
本システム
Z39.50
サーバ
WWW
サーバ
関連システム
• WAIS
– Directory-of-servers
• データベースに関する情報を扱うデータベース
– データベースの作成は困難
– ユーザからの発信は難しい
おわりに
• Z39.50とWWWの特性を活かした新しいシ
ステム形態の可能性
• ユーザが発信するデータベース接続情報
の利用
• データベース選択支援機能を実現