セマンティックWeb・ メタデータ勉強会 国立情報学研究所 実証研究センター 助手 大向 一輝 自己紹介 大向 一輝(おおむかい いっき) 国立情報学研究所 実証研究センター 助手(2005.4〜) 研究テーマ 情報共有 セマンティックWeb・メタデータ Blog・SNS・Web2.0 Semblog: RDFメタデータを用いたWebコンテンツの再編 集・共有プラットフォーム 情報処理推進機構(IPA)未踏ソフトウェア創造事業・ スーパークリエータ 有限会社グルコース CEO 背景 セマンティックWeb研究の発展 International World Wide Web Conference(WWW)では 1/3以上の発表がセマンティックWeb関連 International Semantic Web Conference(ISWC) 「1st WWWと同じくらいの盛り上がり」(TBL) セマンティックWeb技術への需要 言葉の通じない他者(?)とのコラボレーションの必要性 電子政府(EU) Eコマース(欧米) 5年・1億ユーロの研究ファンド [ESWC05] 背景 Web 2.0の世界 CMSやWebサービスがWebの構造を根本的に変える XML化されたWeb RSS / FOAF / Microformats(XFN / hCal) APIを持つWeb Blog / SNS / Social Tagging / S** ユーザの行動の変化 コミュニケーションの場としてのWeb 量が質を生み出す Webの未来 Web2.0+セマンティックWeb=? コミュニティベースのSemantics テクノロジーベースのSemantics 真の目的は? 生活をよくする,楽にする 「○○したい」のオーバーヘッドを下げる 「検索」はこの問題の一部でしかない この勉強会では セマンティックWeb研究のいまを知る 輪読 文献紹介 Web 2.0のいまを知る サービス紹介 一緒に使ってみる セマンティックWeb研究の若手・中核的コミュニティを作 る 共同研究? Web 2.0の世界に殴り込み? A Semantic Web Primer 著者 Grigoris Antoniou University of Crete, Greece Rule Frank van Harmelen Free University, Holland 内容 セマンティックWebの教科書(学部生向け) 基本的なトピックはすべて収録 とにかく用語を押さえる! A Semantic Web Primer Chapter 1 The Semantic Web Vision Today’s Web p.1 現在のWebコンテンツは人間のためのもの 動的生成のコンテンツでもDBの構造をそのまま表現しているもの は少ない Webの使われ方 検索・新たな情報の作成,コミュニケーション,ショッピング… ほとんどの作業は手でフォームを埋める 検索エンジン Web上の活動はソフトウェアによって十分に支援されてい るとは言えない 検索エンジンのおかげで何とかなっているが… (e.g. Google, AltaVista, Yahoo) 検索結果は多数・役に立つものは少数(High recall, low precision.) 何も出てこないこともある(Low or no recall) 検索結果のクオリティは入力したキーワードに依存 検索者のセンスが必要 検索結果=1つのWebページでしかない 人間が検索結果を読み解いたりまとめる必要がある 検索結果を他のアプリケーションで再利用しにくい Webの問題点 コンテンツの意味がソフトウェアに理解できない: semanticsの欠如 2つの文の違い: I am a professor of computer science. I am a professor of computer science, you may think. Well, . . . 自然言語アプローチの限界 セマンティックWebアプローチ machine-processableな表現でWebコンテンツを表現し直 す 知的処理を適用し,Webコンテンツを活用する 既存のWebの代替物ではなく,進化 セマンティックWebがもたらすもの(1) p.3 Knowledge Management 組織内の知識の獲得・アクセス・管理 大規模なビジネスでは最重要な活動: 内部知識=知的資産 グローバルな組織ではとくに重要 ほとんどの情報は形式化・組織化されていない(テキスト・音声・映 像) 問題点 検索 キーワードベースの検索エンジン 情報抽出 閲覧・検索・翻訳・まとめは人間の作業 情報のメンテナンス 用語の統一・古い情報への対処 可視化 見方を自分で定義できない セマンティックWebがもたらすもの(1) 個々の知識を概念ごとに組織化 知識のメンテナンスと発見を自動化 クエリーの拡張 複数の検索結果をまとめる 個人個人で情報の見方を定義できる セマンティックWebがもたらすもの(2) B2CのEコマース ユーザの行動: オンラインショップにアクセス→商品を閲 覧→選択→注文 たくさんのショップを比較検討すればいいが,非常に時間 がかかる Shopbots ラッパーに依存: オンラインショップごとにプログラム が必要 ショップの構成が変わったら? テキスト処理による情報抽出 エラーが多い すべての情報が抽出できるとは限らない セマンティックWebがもたらすもの(2) エージェントが商品情報(価格・納期など)や利用規約 (プライバシーポリシー)を自動的に比較 評判情報の取得 交渉までやってくれる セマンティックWebがもたらすもの(3) B2BのEコマース 現在はEDI(電子調達システム)が利用されている クローズドな技術, エキスパートにしか利用できない 開発・保守が難しい 企業の組み合わせごとにプログラミングが必要 Webは電子調達インフラだが,EDIはWeb標準に従っていない セマンティックWebにおけるB2B オーバーヘッドの少ない契約プロセス 企業ごとの用語の違いはstandard abstract domain modelsによって 解決可能 データは変換・翻訳サービスを通じてやりとりされる オークション・交渉・契約の見積はエージェントによって(半) 自動化 セマンティックWeb技術 Explicit Metadata(明示的なメタデータ) Ontologies(オントロジー) Logic and Inference(論理と推論) Agents(エージェント) p.7 HTML p.8 Webコンテンツは人間向けに記述されている(ソフトウェア向けでは ない) HTMLはWebページ用言語のデファクトスタンダード 見た目を制御するための語彙(HTMLタグ) <h1>川崎クリニックへようこそ</h1> 川崎クリニックは川崎市の○○にあります.治療は山田,鈴木,渋谷が担当します. <h2>診察時間</h2> 月〜金 11:00 - 19:00<br> 土 15:00 - 19:00<br> 日・祝は休み<br> ただし急患は随時受付 人間は問題なく読める エージェントは... 場所がどこかがわからない いつ開いているのかがわからない 明示的なメタデータ エージェントが処理しやすいような表現 Metadata: data about data データの「意味」を規定するデータ セマンティックWebではテキスト操作に依存するのではな く,メタデータの処理を行う <company> <location>川崎市</location> <companyName>川崎クリニック</companyName> <staff> <therapist>山田</therapist> <therapist>鈴木</therapist> <secretary>渋谷</secretary> </staff> </company> オントロジー もともとは哲学用語 「存在の本質についての学問」 転じて 「ある概念についての明示的かつ定型的な仕様」 An ontology is an explicit and formal specification of a conceptualization p.10 オントロジーの基本 Terms(語) はあるドメインの重要な概念を表現する e.g. professors, staff, students, courses, departments Relationships(関係) は語と語の間をつなぐ: 典型的にはクラス階層 a class C to be a subclass of another class C' if every object in C is also included in C' e.g. all professors are staff members Properties(プロパティー・属性) e.g. X teaches Y Value restrictions(値の制約) e.g. only faculty members can teach courses Disjointness statements(互いに素である状態) e.g. faculty and general staff are disjoint Logical relationships between objects(論理関係) e.g. every department must include at least 10 faculty クラス階層の例 University People Staff Academic Staff Regular Faculty Staff Student Administration Staff Research Staff Tech Support Staff Visiting Staff Undergraduate Postgraduate オントロジーの役割 オントロジーは各人の(各エージェントの)ドメインに対 する共通理解を可能にする: semantic interoperability 専門用語間の意味の違いを埋める 複数のオントロジー間の相互マッピング Web検索への適用 オントロジーは検索エンジンの精度向上に寄与 例:オントロジーを参照しているページだけを探す 一般的な情報・特化した情報を有効利用 検索に失敗した場合は,検索エンジンがユーザに対 してより一般的な検索語を提示 検索結果が多すぎる場合,より専門的な検索語を提 示 Web Ontology Languages (1) RDF Schema RDFはオブジェクトとそれらの関係を記述するための データモデル RDF Schemaは語彙を記述するための言語 RDFリソースの属性・クラスを記述 属性・クラスの階層関係を定義するための意味論を提供 Web Ontology Languages (2) OWL より表現力の高いオントロジー記述言語 クラス間の関係 e.g., disjointness Cardinality(濃度?) e.g. “exactly one”(ただ1つ存在する) 属性のタイプを定義 属性の特徴を定義 (e.g. 対称性がある) 論理と推論 知識表現のための形式言語 宣言的知識 エージェントは与えられた知識から自動的に結論を推論する 前提 prof(X) faculty(X) faculty(X) staff(X) prof(michael) 得られる結論: faculty(michael) staff(michael) prof(X) staff(X) p.12 論理・推論とオントロジー 論理・推論は暗黙的なオントロジーを発見するために利用される 想定外の関係や不整合の発見 論理・推論はオントロジーよりも一般的 エージェントの意思決定や行動の選択に用いられる 論理・推論の表現力が高まるほど,結論を得るための計算コストが大 きくなる 計算不可能な状態になった場合,結論を得ることが不可能になる. Explanations(説明):推論の各ステップをたどれるように セマンティックWebエージェントの行動に対してユーザの確信度 を高める p.14 エージェント エージェントは自動的かつ能動的に動作する オブジェクト指向・コンポーネント指向の発展形 セマンティックWebにおけるパーソナルエージェントの役 割 ユーザ情報・タスクの受け取り Web情報の検索・他のエージェントとのコミュニケーション ユーザの要求との比較,結論の選択 User ユーザに返答 User Agent Browser Search Docs Intelligent Service Docs セマンティックWebエージェント技術 メタデータ Webからの情報抽出・情報発見 オントロジー 検索・翻訳 他のエージェントとのコミュニケーション 論理・推論 情報の処理→意思決定 関連技術 エージェント通信言語 エージェントにおける確信度・目的などの形式的表現 ユーザモデル The Semantic Web Layer Cake セマンティックWeb環境を段階的に発展させる レイヤー構成 基本原理: 下位互換性を確保 上位についても部分的に理解できるようにするべき p.17 The Semantic Web Layer Cake XML layer 基本文法として RDF layer 事実を表現するデータモデル シンプルなオントロジー言語としてのRDFS Ontology layer より表現力の高いオントロジー記述言語 W3C標準: OWL Logic layer オントロジー言語の改良 アプリケーションに特化した宣言的知識 Proof layer 証明の生成, 交換, validation Trust layer デジタル署名 推薦,エージェントの信頼性評価 本書の構成 1章 Semantic Webのビジョン 2章 XML 3章 RDF 4章 OWL 5章 ルール・推論 6章 アプリケーション 7章 オントロジー工学 8章 まとめ 付録 OWL Syntax
© Copyright 2025 ExpyDoc