セマンティクスを利用した 図書検索システム J0018 曽田晋太郎 越田研究室 1. 研究の背景 • 図書検索が必要になる機会は多い – 資料検索など • 松江高専の図書検索は使いにくい 改善されたシステムの開発が必要 2. 問題点と解決手法 ① 人名での検索が困難である ② 本の内容からの検索が弱い ③ 関連した図書のまとまりがない ①人名表記 問題点 • 一つの人名には複数の表記があり、人名 から検索するのは難しい – 区切り文字、言語、姓が先か?名が先か? –例 • Agatha Christie • アガサ・クリスティ • アガサ=クリスティー •表記の揺れを校正する必要 •抜本的な解決方法はない ①人名表記 解決手法 漸進的な解決方法 アガサ・クリスティ 区切り文字で分割 アガサ クリスティ AND検索 別々に検索して ANDをとる ②キーワード検索 問題点 • 「このような内容の本」という検索がしたい • 分類やキーワードといった情報が必要 – システムの運営者が入力する必要 – 図書館の規模や職員の能力に依存 • 既存の大規模なデータベースが利用でき ないか? ②キーワード検索 解決手法 • Amazon E-Commerce Service(ECS) – Amazon.comが提供するオンラインショッピン グのためのWeb Service – 商品タイトルは数千万以上 – 書籍の検索サービスとしても利用可能 – 検索結果はXMLとして出力される 本システムの要求に合致 ③書籍の関連情報 • 問題点 – 同じシリーズの本が検索結果にバラバラに 現れると見にくい シリーズなどの関連情報を考慮する必要 • 解決手法 – データベースにその情報を持たせる 3. 技術的課題 • データモデル – データの概念的な表現 – データをどのような構造として捉えたか • 例えば – – – – リレーショナルモデル XMLモデル オブジェクト指向モデル RDFモデル • RDFモデルを本システムで採用 RDFとは • RDF(Resource Description Framework) • データを意味(semantics)に基づいて記述 • 主語、述語、目的語の三つ組み(トリプル)が データ記述の単位 主語 リソース 述語 プロパ ティ 目的語 リソース or リテラル RDFの優位点 リレー ショナル XML オブジェク ト指向 RDF 汎用性 ○ △ × ○ 分散性 × × × ○ 拡張性 × △ △ ○ × △ (SPARQL ) 問い合わ せ言語の 標準化 ○ (SQL) △ (XQuery) RDFの本システムへの適用 本 著者名 タイトル ISBN 出版日 本のコレクション (シリーズなど) 検索画面 人名と キーワードで 別々の検索 追加機能 検索結果 人名「j.k.rowling」 人名「 J.K ローリン グ」 同一の検索結果 おわりに • 研究の成果 – 代表的な問題点に対して解決策が示せた – RDFの柔軟性を持ったデータベースの開発 が可能であるとわかった • 今後の課題 – 人名表記の校正アルゴリズムの改善 – ボトルネックの解消 – 評価実験の実施
© Copyright 2024 ExpyDoc