Z39.50を利用したデータベースの自動分類の試み

Z39.50におけるデータベース選択
支援機能の実現
石塚研究室
江草由佳
研究の背景
• Z39.50
– 情報検索のための通信プロトコル
– Z39.50を利用することにより異なるシステム間
での相互利用が可能
• 様々なZ39.50データベースの存在[6]
– OPAC
– 書誌データベース
– 全文検索システム(Abstract,新聞記事)
• 接続データベースの選択が困難
• 既存のクライアントはデータベース選択支
援機能がない。
研究の目的
• データベース選択支援
– データベースに接続するために必要な情報
の収集・加工・流通・利用をひとつの流れで
行えるシステムの開発
• 収集
– データベースの存在
• 加工
– データベースの内容
• 流通
– データベース接続情報を相互利用
• 利用
– データベース接続情報の表示
– データベース検索
データベースに接続情報の
収集・加工
• 収集
– データベース接続情報
• ホスト名、ポート番号、データベース名
– データベースに関する情報を収集・公開しているサイ
トから取得
• 加工
– データベースをサーバごとに並び替える
– データベースを分野ごとに自動分類
– よく使うデータベースをまとめる。
加工:自動分類の方法
Medline
Agricora
MDX_health
BioDigest
ABI-INFORM
……
データベース
Medline
female 897
animal 654
drug 396
Agricora
corn 120
beef 422
apple 347
分野を代表
医学:Medline
教育:ERIC
MDX_Health
female 34
drug
13
walk 239
・
・
全インデックス語
とヒット件数
相
関
係
数
の
計
算
教育の適合度
ERIC:1.00
EducationIndex:0.87
医学の適合度
NewYorkTimes
: 0.67
Medline:1.00
Agricora:0.25
Agricora:0.20
Medline:0.46
MDX_Health:0.82
BioDigest: 0.66
ABI-INFORM:0.46
適合度から分類
医学:
Medline
MDX_Health
BioDigest
教育:
ERIC
EducationIndex
データベース接続情報の
流通・利用
• 流通
– WWWの枠組みを利用
• Z39.50用URL
書式)z39.50s://ホスト名[:ポート番号]/データベース名
例) z39.50s://lib.ulis.ac.jp:210/opac
• HTML+HTTP
• 利用
– WWWブラウザの開発
– Z39.50クライアントの開発
システムの全体図
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
データベース
情報[6]
加工
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>
デモ
進行状況
• システム開発
– HTMLを解析しZ39.50データベースに接続
– 最新データベース情報を取り寄せ自動分類
今後の予定
• 機能の追加
• データベース接続情報の加工方法につい
ての検証
HTMLファイル
http://….
表示
z39.50s://….
表示
Z39.50クライアント
データベース
情報[6]
加工
医学:
Medline
MDX_Health
BioDigest
経済:
ABI-INFORM
WilsonBisunes
NewYorkTimes
WWWブラウザ
HTMLで記述
<HTML>
<body>
<h1>医学</h1>
<a href=“z39.50s...
<a href=“z39.50s...
……..
</body>
</HTML>