Activity Based Metadata for Semantic Desktop Search(担当:山田)

Activity Based Metadata for Semantic
Desktop Search
Paul-Alexandru Chirita, Rita Gavriloaie, Stefania Ghita,
Wolfgang Nejdl, and Raluca Paiu
ESWC 2005, Heraklion, Greece
山田@NII
Activity Based Metadata for Semantic Desktop Search
contributions
•コンテキスト情報を用いたデスクトップ検索を提案
•コンテキスト情報はデスクトップでの特定的な特徴
•コンテキスト情報と既存の情報の統合->メタデータ生成
•重要な事項:メタデータの生成のタイミングとメタデータの構造
•提案したものに基づくアーキテクチャとプロトタイプを提示
• コンテキスト情報:ある状況下であらゆる角度でみたときに重要であると思
われる要素
– アイデア,なんらかの要素,人物,発行者(物)等々
– レレバントな関連するもの全部.
背景
• ハードディスクの容量の増加
デスクトップ上で何か探すことが困難に
• 何か探すときweb上の方が探しやすくなってしまった.
PageRankingアルゴリズムの影響
デスクトップ上での検索がなぜ困難なのか
web上で利用できたものが利用できない(e.g.リンク情報)
デスクトップ上では代わりに何を用いるのか
デスクトップ上での,固有のコンテキスト情報を用いることを選択
(e-mailでの情報,ディレクトリ階層構造,ブラウジング時の振る舞い等)
コンテキストメタデータと検索, コンテキスト情報の表示
•ユーザはあるコンテキストに物事を結びつける傾向がある
デスクトップ検索の結果をリッチにするためにコンテキスト情報を使用すべき.
•Webサーチのユーザの振る舞い
•Navigational : URLがわからなくなった,特定のwebサイトの検索.
•Informational : 興味があるトピックに関する情報を探す.
•Resource seeking : 特定のリソース(流行歌,地図サービス等)を探したい
•デスクトップ検索の対象はNavigational.
•現在のデスクトップ検索ではデスクトップ特有の情報(コンテキスト情報)を用いていない.
•それらの例 (シナリオ):
•Email context
•明らかに有用である情報であるが現在の検索では用いられていない.
•例: ある物事に関する質問が含まれたメール.同じスレッド内の他のメールには
その答えが添付のドキュメント内にあるかもしれない.
•メールに添付してあるドキュメントをPC上に格納するとき,メールにあった情報
が欠落してしまう.
•File hierarchy context
•まれに用いられる.
•Web cache context
•ユーザのブラウジングのビヘイビア.
•レレバントな結果を探すときや結果の追加となるコンテキストを提供するときにこ
れを使用.
現在あるデスクトップ検索アプリケーション
Google desktop search : (使ってますか?)
• URL : http://desktop.google.com
• 対象:
– Email (Outlook, Outlook Express, Netscape, Thunderbird)
– ファイル (Text, Word, Excel, PowerPoint, PDF, Music, Video,
Images)
– Web History (IE, Netscape, Mozilla, Firefox, Opera)
– Chats (AOL Instant Messaging)
MSN desktop search application
• URL : http://beta.toolbar.msn.com
Spotlight Search
• URL : http://www.apple.com/macosx/tiger/spotlight.html
• For Mac OS X
Beagle desktop search  この論文の成果でこれを拡張 (Beagle++)
• URL : http://gnome.org/projects/beagle
• Open source project for Linux
Integrating Context Metadata Within
Desktop Search
Exploiting Email Context
シナリオ:
• distributed page rankingに興味がある人が仲間とこのト
ピックについて議論したことを覚えている.
• この仲間はメールで何らかの記事を送っていた.
• この記事はdistributed PageRankには触れていないが,
distributed trust networks(同じようなトピック)には触れ
ている.
• enhanced desktop searchで,この記事を検索する.
Email Prototype
String
Date
reply_to
name
Person
belongs_to
Mail
stored_as
Attachment
body
String
from
has_attachment
File
accessed
sent
to
MailAddress
Date
status
String
Association Rules : 自動的にメタデータ生成するために必要
subject
String
Exploiting File Hierarchy Context
シナリオ:
• Hanover(inドイツ)で撮った写真を探す.
• いつも訪れた都市名や地域名をディレクトリ名にしたところへ
写真を格納
• ディレクトリ名を忘れた場合,通常の検索では写真を探すこ
とが困難.
• このシナリオではドイツで撮ったことは覚えている.
• しかし“ドイツ”はファイル名やディレクトリ構造には現れない.
File Prototype
String
Attachment
VisitedWebPage
stored_from
Date
type
stored_from
last_accessed
owned_by
Person
subClassOf
name
String
Date
String
Directory
Date
created
name
in_directory
in_directory
last_modified
File
hypernym_to
hyponym_to
WordNetTerm
holonym_to
最も重要なプロパティ.
現在のファイルシステムで欠落している,
情報の起源示すことが可能
meronym_to
synonym_to
WordNet
語彙参照可能なシステム
:類義語等をサポート
Association Rules :以下の関連はWordNetを利用することで派生
Exploiting the Web Cache 1つめ
シナリオ:
•とある企業のインターシップのwebページを検索.
•以前そのページを訪れたことがある.
•そのページにはその企業のトップページからキーワードサーチで直接ジャンプした
が,キーワードを忘れてしまった.
•デスクトップ検索で最後に訪れたときのそのwebページのリンクのリストを提示する
ことが目的になる.可視化する.
WebPage Prototype
File
Date
accessed_at
stored_as
可視化するときに利用
VisitedWebPage
departed_to
arrived_from
Exploiting the Web Cache 2つめ
シナリオ:
•CiteSeerでの特定のトピックの論文をブラウズ.
•参照先ともっともレレバントな論文をダウンロード.
•それらの論文をデスクトップ上にすぐさま格納.論文間の関係がわからなくなってしまった.
•デスクトップ検索ではこの情報を保存し,これらを利用可能な形でメタデータを作成するこ
とが求められる.
Publication Prototype : WebPage を拡張したもの
VisitedWebPage
subClassOf
subClassOf
referenced_by
references
subClassOf
Publication
PDF_file
stored_as_pdf
stored_as_ps
subClassOf
subClassOf
File
Association Rule
PS_file
Desktop Search Architecture and Prototype
Beagle++: ドキュメントを探す
Interface: Googleと同様にシンプルに
Indexing : full-text index と additional metadata index の2つ
Beagle++: Additional Contextの表示
メタデータの生成,Indexing
event triggered metadata generation
メタデータの生成,indexingはon-the-fly(ファイルの修正のイベントが引き金にな
る)
イベントを監視する機能が必要 (ファイルの新規作成,メールの受信等を監視)
Linux 上で実現 (イベントを監視するために inotify-enabled linux kernelを用いる)
metadata generation applications
イベントのタイプやコンテキストに依存.
メタデータ生成:適切なmetadata generator application で実行
•metadata generator application:
•Email Metadata Generator
•Web Cache Metadata Generator
•File Metadata Generator
metadata generation applications
Email Metadata Generator
•JavaMail APIを利用
•受信したメールはMessage クラス(JavaMailで定義)から派生した個々のクラスへ振り分け
•受信したメールから生成されたメタデータの情報 (Fig.1を参考に)
 Sender and Recipient, Subject, Body and Status, Date when the email was sent or accessed,
Attachments, etc.
•Metadata : RDFとして格納,Jena toolkit (Semantic Web application 構築用Javaフレームワーク) を利用
File Metadata Generator
•実装 : Java とJWNL API
•生成したメタデータ:Type of the file, Name, Date of creation, Date of last change,
Location of file on the disk, WordNet additional metadata for the file name and the path
to the file
•アノテーション : RDFファイルとして格納
Web Cache Metadata Generator
•Indexing : キャッシュしていないページのブラウジングが引き金
•アノテーション : Access date,Connections between web pages (hyperlinks of the current page are
traversed)
•生成されたメタデータ : RDFファイルとして格納
Conclusions & Future Work
contextual information
 ほしいものを見つける,探したいものの利用頻度が増える
Future Work:
• 一般的なコンテキストの表示
• コンテキスト情報を用いたデスクトップでのランキング
• 同じことに興味があるグループメンバ間でのリソースやコンテキスト情報
の交換
 social semantic desktop
備考:
検索では大きく2つの問題がある.
• 検索結果がないので見つける
• 結果が多すぎるので困る
この論文では前者が対象,future workでは後者も考慮+α
付録
WordNet
•
•
•
English lexical reference system
POS – nouns, adjectives, adverbs, verbs organized in synonym sets
Relationships:
– Meronym - The name of a constituent part of, the substance of, or a member of
something. X is a meronym of Y if X is a part of Y.
– Holonym - The name of the whole of which the meronym names a part. Y is a
holonym of X if X is a part of Y.
– Hyponym - The specific term used to designate a member of a class. X is a
hyponym of Y if X is a (kind of) Y.
– Hypernym - The generic term used to designate a whole class of specific instances.
Y is a hypernym of X if X is a (kind of) Y.
– Synonym - a set of words that are interchangeable in some context. X is a synonym
of Y if Y can substitute X in a certain context without altering the meaning.
WordNet - Example
<rdf:Description rdf:about="file:\\C:\beautiful\home\plant\cat.txt">
<j.0:sense>computerized_tomography</j.0:sense>
<j.0:hyponym>jaguar</j.0:hyponym>
<j.0:hypernym>feline</j.0:hypernym>
<j.0:location_info>
<rdf:Description rdf:about="file:\\C:\beautiful\">
<j.0:synonym>ravishing</j.0:synonym>
<j.0:sense>beautiful</j.0:sense>
</rdf:Description>
</j.0:location_info>
</rdf:Description>