イントロダクション・A Semantic Web Primer輪読 1章(担当:大向)

セマンティックWeb・
メタデータ勉強会
国立情報学研究所 実証研究センター 助手
大向 一輝
自己紹介
大向 一輝(おおむかい いっき)
 国立情報学研究所 実証研究センター 助手(2005.4〜)
 研究テーマ
 情報共有
 セマンティックWeb・メタデータ
 Blog・SNS・Web2.0
 Semblog: RDFメタデータを用いたWebコンテンツの再編
集・共有プラットフォーム
 情報処理推進機構(IPA)未踏ソフトウェア創造事業・
スーパークリエータ
 有限会社グルコース CEO
背景
 セマンティックWeb研究の発展
 International World Wide Web Conference(WWW)では
1/3以上の発表がセマンティックWeb関連
 International Semantic Web Conference(ISWC)
 「1st WWWと同じくらいの盛り上がり」(TBL)
 セマンティックWeb技術への需要
 言葉の通じない他者(?)とのコラボレーションの必要性
 電子政府(EU)
 Eコマース(欧米)
 5年・1億ユーロの研究ファンド [ESWC05]
背景
 Web 2.0の世界
 CMSやWebサービスがWebの構造を根本的に変える
 XML化されたWeb
 RSS / FOAF / Microformats(XFN / hCal)
 APIを持つWeb
 Blog / SNS / Social Tagging / S**
 ユーザの行動の変化
 コミュニケーションの場としてのWeb
 量が質を生み出す
Webの未来
 Web2.0+セマンティックWeb=?
 コミュニティベースのSemantics
 テクノロジーベースのSemantics
 真の目的は?
 生活をよくする,楽にする
 「○○したい」のオーバーヘッドを下げる
 「検索」はこの問題の一部でしかない
この勉強会では
 セマンティックWeb研究のいまを知る
 輪読
 文献紹介
 Web 2.0のいまを知る
 サービス紹介
 一緒に使ってみる
 セマンティックWeb研究の若手・中核的コミュニティを作
る
 共同研究?
 Web 2.0の世界に殴り込み?
A Semantic Web Primer
著者
 Grigoris Antoniou
 University of Crete, Greece
 Rule
 Frank van Harmelen
 Free University, Holland
内容
 セマンティックWebの教科書(学部生向け)
 基本的なトピックはすべて収録
 とにかく用語を押さえる!
A Semantic Web Primer
Chapter 1
The Semantic Web Vision
Today’s Web
p.1
 現在のWebコンテンツは人間のためのもの
 動的生成のコンテンツでもDBの構造をそのまま表現しているもの
は少ない
 Webの使われ方
 検索・新たな情報の作成,コミュニケーション,ショッピング…
 ほとんどの作業は手でフォームを埋める
検索エンジン
 Web上の活動はソフトウェアによって十分に支援されてい
るとは言えない
 検索エンジンのおかげで何とかなっているが… (e.g.
Google, AltaVista, Yahoo)
 検索結果は多数・役に立つものは少数(High recall, low
precision.)
 何も出てこないこともある(Low or no recall)
 検索結果のクオリティは入力したキーワードに依存
 検索者のセンスが必要
 検索結果=1つのWebページでしかない
 人間が検索結果を読み解いたりまとめる必要がある
 検索結果を他のアプリケーションで再利用しにくい
Webの問題点
 コンテンツの意味がソフトウェアに理解できない:
semanticsの欠如
 2つの文の違い:
I am a professor of computer science.
I am a professor of computer science,
you may think. Well, . . .
 自然言語アプローチの限界
セマンティックWebアプローチ
 machine-processableな表現でWebコンテンツを表現し直
す
 知的処理を適用し,Webコンテンツを活用する
 既存のWebの代替物ではなく,進化
セマンティックWebがもたらすもの(1)
p.3
Knowledge Management
 組織内の知識の獲得・アクセス・管理
 大規模なビジネスでは最重要な活動: 内部知識=知的資産
 グローバルな組織ではとくに重要
 ほとんどの情報は形式化・組織化されていない(テキスト・音声・映
像)
問題点
 検索
 キーワードベースの検索エンジン
 情報抽出
 閲覧・検索・翻訳・まとめは人間の作業
 情報のメンテナンス
 用語の統一・古い情報への対処
 可視化
 見方を自分で定義できない
セマンティックWebがもたらすもの(1)
 個々の知識を概念ごとに組織化
 知識のメンテナンスと発見を自動化
 クエリーの拡張
 複数の検索結果をまとめる
 個人個人で情報の見方を定義できる
セマンティックWebがもたらすもの(2)
B2CのEコマース
 ユーザの行動: オンラインショップにアクセス→商品を閲
覧→選択→注文
 たくさんのショップを比較検討すればいいが,非常に時間
がかかる
 Shopbots
 ラッパーに依存: オンラインショップごとにプログラム
が必要
 ショップの構成が変わったら?
 テキスト処理による情報抽出
 エラーが多い
 すべての情報が抽出できるとは限らない
セマンティックWebがもたらすもの(2)
 エージェントが商品情報(価格・納期など)や利用規約
(プライバシーポリシー)を自動的に比較
 評判情報の取得
 交渉までやってくれる
セマンティックWebがもたらすもの(3)
B2BのEコマース
 現在はEDI(電子調達システム)が利用されている
 クローズドな技術, エキスパートにしか利用できない
 開発・保守が難しい
 企業の組み合わせごとにプログラミングが必要
 Webは電子調達インフラだが,EDIはWeb標準に従っていない
 セマンティックWebにおけるB2B
 オーバーヘッドの少ない契約プロセス
 企業ごとの用語の違いはstandard abstract domain modelsによって
解決可能
 データは変換・翻訳サービスを通じてやりとりされる
 オークション・交渉・契約の見積はエージェントによって(半)
自動化
セマンティックWeb技術
 Explicit Metadata(明示的なメタデータ)
 Ontologies(オントロジー)
 Logic and Inference(論理と推論)
 Agents(エージェント)
p.7
HTML
p.8
 Webコンテンツは人間向けに記述されている(ソフトウェア向けでは
ない)
 HTMLはWebページ用言語のデファクトスタンダード
 見た目を制御するための語彙(HTMLタグ)
<h1>川崎クリニックへようこそ</h1>
川崎クリニックは川崎市の○○にあります.治療は山田,鈴木,渋谷が担当します.
<h2>診察時間</h2>
月〜金 11:00 - 19:00<br>
土
15:00 - 19:00<br>
日・祝は休み<br>
ただし急患は随時受付
 人間は問題なく読める
 エージェントは...
 場所がどこかがわからない
 いつ開いているのかがわからない
明示的なメタデータ
 エージェントが処理しやすいような表現
 Metadata: data about data
 データの「意味」を規定するデータ
 セマンティックWebではテキスト操作に依存するのではな
く,メタデータの処理を行う
<company>
<location>川崎市</location>
<companyName>川崎クリニック</companyName>
<staff>
<therapist>山田</therapist>
<therapist>鈴木</therapist>
<secretary>渋谷</secretary>
</staff>
</company>
オントロジー
もともとは哲学用語
 「存在の本質についての学問」
転じて
 「ある概念についての明示的かつ定型的な仕様」
 An ontology is an explicit and formal specification of a
conceptualization
p.10
オントロジーの基本
 Terms(語) はあるドメインの重要な概念を表現する
 e.g. professors, staff, students, courses, departments
 Relationships(関係) は語と語の間をつなぐ: 典型的にはクラス階層
 a class C to be a subclass of another class C' if every object in C is
also included in C'
 e.g. all professors are staff members
 Properties(プロパティー・属性)
 e.g. X teaches Y
 Value restrictions(値の制約)
 e.g. only faculty members can teach courses
 Disjointness statements(互いに素である状態)
 e.g. faculty and general staff are disjoint
 Logical relationships between objects(論理関係)
 e.g. every department must include at least 10 faculty
クラス階層の例
University
People
Staff
Academic
Staff
Regular
Faculty
Staff
Student
Administration
Staff
Research
Staff
Tech Support
Staff
Visiting
Staff
Undergraduate
Postgraduate
オントロジーの役割
 オントロジーは各人の(各エージェントの)ドメインに対
する共通理解を可能にする: semantic interoperability
 専門用語間の意味の違いを埋める
 複数のオントロジー間の相互マッピング
 Web検索への適用
 オントロジーは検索エンジンの精度向上に寄与
 例:オントロジーを参照しているページだけを探す
 一般的な情報・特化した情報を有効利用
 検索に失敗した場合は,検索エンジンがユーザに対
してより一般的な検索語を提示
 検索結果が多すぎる場合,より専門的な検索語を提
示
Web Ontology Languages (1)
RDF Schema
 RDFはオブジェクトとそれらの関係を記述するための
データモデル
 RDF Schemaは語彙を記述するための言語
 RDFリソースの属性・クラスを記述
 属性・クラスの階層関係を定義するための意味論を提供
Web Ontology Languages (2)
OWL
 より表現力の高いオントロジー記述言語
 クラス間の関係
 e.g., disjointness
 Cardinality(濃度?)
 e.g. “exactly one”(ただ1つ存在する)
 属性のタイプを定義
 属性の特徴を定義 (e.g. 対称性がある)
論理と推論
 知識表現のための形式言語
 宣言的知識
 エージェントは与えられた知識から自動的に結論を推論する
前提
prof(X)
faculty(X)
faculty(X)
staff(X)
prof(michael)
得られる結論:
faculty(michael)
staff(michael)
prof(X)
staff(X)
p.12
論理・推論とオントロジー
 論理・推論は暗黙的なオントロジーを発見するために利用される
 想定外の関係や不整合の発見
 論理・推論はオントロジーよりも一般的
 エージェントの意思決定や行動の選択に用いられる
 論理・推論の表現力が高まるほど,結論を得るための計算コストが大
きくなる
 計算不可能な状態になった場合,結論を得ることが不可能になる.
 Explanations(説明):推論の各ステップをたどれるように
 セマンティックWebエージェントの行動に対してユーザの確信度
を高める
p.14
エージェント
 エージェントは自動的かつ能動的に動作する
 オブジェクト指向・コンポーネント指向の発展形
 セマンティックWebにおけるパーソナルエージェントの役
割




ユーザ情報・タスクの受け取り
Web情報の検索・他のエージェントとのコミュニケーション
ユーザの要求との比較,結論の選択
User
ユーザに返答
User
Agent
Browser
Search
Docs
Intelligent
Service
Docs
セマンティックWebエージェント技術
 メタデータ
 Webからの情報抽出・情報発見
 オントロジー
 検索・翻訳
 他のエージェントとのコミュニケーション
 論理・推論
 情報の処理→意思決定
 関連技術
 エージェント通信言語
 エージェントにおける確信度・目的などの形式的表現
 ユーザモデル
The Semantic Web Layer Cake
 セマンティックWeb環境を段階的に発展させる
 レイヤー構成
基本原理:
 下位互換性を確保
 上位についても部分的に理解できるようにするべき
p.17
The Semantic Web Layer Cake



XML layer
 基本文法として
RDF layer
 事実を表現するデータモデル
 シンプルなオントロジー言語としてのRDFS
Ontology layer
 より表現力の高いオントロジー記述言語
 W3C標準: OWL
 Logic layer
 オントロジー言語の改良
 アプリケーションに特化した宣言的知識
 Proof layer
 証明の生成, 交換, validation
 Trust layer
 デジタル署名
 推薦,エージェントの信頼性評価
本書の構成
 1章 Semantic Webのビジョン
 2章 XML
 3章 RDF
 4章 OWL
 5章 ルール・推論
 6章 アプリケーション
 7章 オントロジー工学
 8章 まとめ
 付録 OWL Syntax