Z39.50のご紹介 副題:KOSMOSへの実装

Z39.50
KOSMOSIIへの実装と課題
慶應大学メディアセンター本部 入江 伸
[email protected]
Z39.50とは?
• 北米の標準規格:ANSI/NISO Z39.50-1995,
Information Retrieval (Z39.50): Application
Service Definition and Protocol Specification.
• 国際規格:ISO 23950:1998, Information and
documentation - Information retrieval (Z39.50) Application service definition and protocol
specification.
• 開発:ZIG - Z39.50 Implementors Group
何のために?
• 横断検索(同じインターフェースで)
– 分散しているデータベースを
– 異なるデータベースを
•
•
•
•
データタイプ
目録規則
ソフトウエア
プラットフォーム
博物館
図書館
資料館
検索要求
Facilities、構成要素
•
•
•
•
•
•
•
•
•
•
•
Initialization (初期化)
Application
Search (検索)
Retrieval (返戻)
Service
Result-set-delete (結果集合の削除)
Definition
Browse (拾い読み)
Sort (並び)
Access Control (アクセス制御)
Accounting/Resource Control (アカウント/情報源 制御)
Explain (詳細)
Extended Service (拡張サービス)
Termination (終了)
Services、サービス
•
•
•
•
•
•
Init(初期化)
Search(検索)
Present(返戻)
Scan(通覧)
Sort(並び順の変更)
Close(終了)
Protocol、対話の規則
• Client-Server model (クライアント・サーバー)
– Origin - Target
• Query Formation (検索式)
– type-1 query
• Reverse Polish Notation (逆ポーランド記法)
• Attribute Sets (属性集合)
– bib-1(書誌),GILS(米国政府文書),CIMI(博物館)
• Response Records (返戻レコード)
– MARC,SUTRS,GILS,GRS-1
Attribute set bib-1(Search)
• Use
– ...
• Relation
– less than
– less than or equal
– ...
• Position
– first in field
– first in subfeild
– ...
• Structure
– phrase
– word
– ...
• Truncation
– right truncation
– ...
• Completeness
– complete subfeild
– ...
Use attribute set (bib-1)
Use
Personal name
Corporate name
Conference name
Title
Title series
Title uniform
ISBN
ISSN
…
Value
1
2
3
4
5
6
7
8
Use
Value
Author-name
1003
Any
1016
…
Originから「Titleが“遺伝子”のも
のを検索しなさい」という要求
が来た場合、Targetで受け取る
情報は、、、、
Attribute-type=1 (Use)
Attribute-value=4 (Title)
query-string=遺伝子、、、
bib-1の実際
• 検索要求
タイトルが「遺伝子」かつ件名が「植物生理学」の本を探したい!!
• 検索式???インターフェース??マンマシーン?
SELECT TITLE=遺伝子 AND SUBJECT=植物生理学
• 逆ポーランド記法で表現???
遺伝子/4 植物生理学/21 AND
• APDU(Z39.50 application protocol data units)として表現?
OID 1.2.840.10003.3.1,attributeType=1,attributeValue=4,term=遺伝
子,attributeType=1,attributeValue=21,term=植物生理
学,operator=AND…(実際はコード化情報のみ)
• BER(ISO 8825 Basic Encoding Rules)により符号化、バイナリイメー
ジとしてターゲットへ….0101010001010100001001010001001001
KOSMOSへの実装 (1)
• Z39.50の実装とは???
– KOSMOSの検索機能を
– KOSMOSのインデックス仕様を
– KOSMOSのレコード形式を
Z39.50の仕様に、、、
対応させる???
KOSMOSへの実装 (2)
• KOSMOSの検索機能とZ39.50
–
–
–
–
–
ブール演算 (AND,OR,AND-NOT)
前方一致 (検索語?)
完全一致 (検索語/)
フレーズ
ワード
Z39.50
KOSMOS
KOSMOSへの実装 (3)
• KOSMOSのインデックス仕様とZ39.50
限定子へ展開
WebOPAC
書名・誌名中の語=遺伝子
ET=遺伝子
TW=遺伝子
TP=遺伝子
RT=遺伝子
ET=遺伝子
TS=遺伝子
KOSMOS Index
ET=遺伝子 RT=DNA
TP=分子 PN=ワトソン IS=8987-0987
IB=0987678909 SW=生物学...
Z39.50 Origin
Attribute-type=1 (Use)
Attribute-value=4 (Title)
query-string=遺伝子
KOSMOSへの実装 (4)
• KOSMOSのレコード形式とZ39.50
要求
Z39.50 Origin
SUTRS
Z39.50 Target
KOSMOS
KOSMOS
フォーマット
返戻
Usmarc
フォーマット
変換
KOSMOSへの実装 (5)
• Z39.50のKOSMOSへの実装とは、、、
1) Originの話すZ39.50の言葉をKOSMOSの
言葉に翻訳。
2) KOSMOSでOriginの要求を処理。
3) 結果をZ39.50の言葉に翻訳し、Originへ
返す。
Z39.50雑記
• Z39.50は、シンプル???
– いいえ、とても複雑です!!!
• データベース検索の手法が網羅されています!
• Z39.50は、新しい???
– いいえ、とても古いです!!!
• 通信のインフラが未整備な時代の仕様です!
• Z39.50は、完成されている???
– いいえ、未解決な部分があります!!!
• 多言語処理、Webベース(Stateless)
けれども
Z39.50は、、、
分散した異種のデータベースに対し、同時に
検索を投げかけることができる、唯一効果的
な手段であり、幅広い利用者の要求を満た
すものです!!!
ただし、、、効果を発揮するためには、Z39.50に精通する必
要があります。
対抗馬としては、XML、RDF、とWebの技術を使った仕組
みが考えられますが、、、
Z39.50コミュニティー?
• 各データベースがZ39.50Targetを実装すれ
ばいいだけ???
いいえ、検索に関して、基本的なルー
ルを合意、公開することが重要??
合意すべきルールとは?
• 文字コード、日本語
国内、海外、ローマ字、カナ、漢字、、、
• インデックス
ワード、フレーズ、フルフレーズ、、、
• 正規化
ストップワード、ストップキャラクタ、、、
共通のデータフォーマット?メタフォーマット
?マッピング?考える土台、土俵が必要?
参考文献
• Library of Congress: Z39.50 Maintenance Agency
http://lcweb.loc.gov/z3950/agency/
• NISO: Z39.50 Resource Page
http://www.niso.org/z3950.html
• Z39.50 for All (Paul Miller) Ariadne, Issue 21, September 1999)
http://www.ariadne.ac.uk/issue21/z3950/intro.html
• インテック・ウェブ・アンド・ゲノム・インフォマティクス株式会社:
Z39.50 Technical and Practical Information Home Page
http://z3950.isl.intec.co.jp/
Z39.50ClientGateway
Target
Z39.50ClientGateway
Web base Application
Browser
Http
Origin
Origin
Origin
Origin
Origin
Origin
Origin
Origin
Origin
Origin
KOSMOSII