Document

セマンティクスを利用した
図書検索システム
J0018 曽田晋太郎
越田研究室
1. 研究の背景
• 図書検索が必要になる機会は多い
– 資料検索など
• 松江高専の図書検索は使いにくい
改善されたシステムの開発が必要
2. 問題点と解決手法
① 人名での検索が困難である
② 本の内容からの検索が弱い
③ 関連した図書のまとまりがない
①人名表記 問題点
• 一つの人名には複数の表記があり、人名
から検索するのは難しい
– 区切り文字、言語、姓が先か?名が先か?
–例
• Agatha Christie
• アガサ・クリスティ
• アガサ=クリスティー
•表記の揺れを校正する必要
•抜本的な解決方法はない
①人名表記 解決手法
漸進的な解決方法
アガサ・クリスティ
区切り文字で分割
アガサ
クリスティ
AND検索
別々に検索して
ANDをとる
②キーワード検索 問題点
• 「このような内容の本」という検索がしたい
• 分類やキーワードといった情報が必要
– システムの運営者が入力する必要
– 図書館の規模や職員の能力に依存
• 既存の大規模なデータベースが利用でき
ないか?
②キーワード検索 解決手法
• Amazon E-Commerce Service(ECS)
– Amazon.comが提供するオンラインショッピン
グのためのWeb Service
– 商品タイトルは数千万以上
– 書籍の検索サービスとしても利用可能
– 検索結果はXMLとして出力される
本システムの要求に合致
③書籍の関連情報
• 問題点
– 同じシリーズの本が検索結果にバラバラに
現れると見にくい
シリーズなどの関連情報を考慮する必要
• 解決手法
– データベースにその情報を持たせる
3. 技術的課題
• データモデル
– データの概念的な表現
– データをどのような構造として捉えたか
• 例えば
–
–
–
–
リレーショナルモデル
XMLモデル
オブジェクト指向モデル
RDFモデル
• RDFモデルを本システムで採用
RDFとは
• RDF(Resource Description Framework)
• データを意味(semantics)に基づいて記述
• 主語、述語、目的語の三つ組み(トリプル)が
データ記述の単位
主語
リソース
述語
プロパ
ティ
目的語
リソース or
リテラル
RDFの優位点
リレー
ショナル
XML
オブジェク
ト指向
RDF
汎用性
○
△
×
○
分散性
×
×
×
○
拡張性
×
△
△
○
×
△
(SPARQL
)
問い合わ
せ言語の
標準化
○
(SQL)
△
(XQuery)
RDFの本システムへの適用
本
著者名
タイトル
ISBN
出版日
本のコレクション
(シリーズなど)
検索画面
人名と
キーワードで
別々の検索
追加機能
検索結果
人名「j.k.rowling」
人名「 J.K ローリン
グ」
同一の検索結果
おわりに
• 研究の成果
– 代表的な問題点に対して解決策が示せた
– RDFの柔軟性を持ったデータベースの開発
が可能であるとわかった
• 今後の課題
– 人名表記の校正アルゴリズムの改善
– ボトルネックの解消
– 評価実験の実施