A Template-Based Markup Tool for Semantic Web Content 国立情報学研究所 実証研究センター 助手 大向 一輝 Semantic Markup コンテンツへの機械可読なタグの付加 これからのコンテンツ CMSベース・ソーシャルアプローチ ブログ・Folksonomy Pri-production markup 既存のコンテンツ 自然言語処理 SemTag and Seeker [Dill03] Post-production markup Post-production markupの問題点 誰がやるのか?(量の問題) 精度は?(質の問題) Incomplete / Inconsistent / Incorrect SMT: Semantic Markup Tool Post-production markupのための複合的アプローチを提案 ユーザビリティと表現力のトレードオフ空間での最適点を探す 自動的な情報抽出 フォームベースのマニュアル作業 既存のコンテンツへのOWLマークアップを対象とする 「BobとFredはSan Franciscoのミーティングに参加した」 SMTのアプローチ Semantic markupの問題はどこにあるか? グラフを1から書くのは大変 クラス・プロパティの選択と関連づけ 構造とコンテンツが一体化しているゆえ 構造にオリジナリティが必要な場面はほとんどない 複雑な構造(多段ツリー・ネットワーク)も必要ない 何にアノテーションすべきか コンテンツ中の各単語(インライン) 文脈依存 コストパフォーマンス メタデータ・インデックス 検索の利便性向上に特化 フォーム形式で記述可能なコンテンツのみを対象にしてもよい? SMTのアーキテクチャ SMTのプロセス コンテンツの取得と正規化 HTMLのサニタイズ・明示的なメタデータの抽出 Text Extractor Web Serviceによるコンテンツ解析 形態素解析 → OWLクラスとのマッピング テンプレートの適用 テンプレート候補の提示 → フォーム内容の候補提示 テンプレート ドメインに対応したクラス・プロパティのセット XML Schemaで定義 制約が書ける テンプレートとGUI フォーム形式の特徴 エンドユーザにオントロジーを見せない フォーム=データ構造 制約はValidatorで処理 エキスパートの負担は変わらない パワーユーザが追加する項目もフォームの枠からは 外れない 文書形式の要約表示 ヒューマンフレンドリー マークアップすることのありがたみ(Instant gratification) Markup tools星取表 Semannot WS・Web2.0 Semannot 2005 Knowledge Markup & Semantic Annotation Semantic Wiki Multimedia Annotation Etc. Web 2.0 Google Base [Demo!] 構造化データの編集・公開・共有 スキーマレベルでの共有が可能になると… その他 MHC:メールからのスケジュール抽出 まとめ Semantic Webへの道 新しいWebをつくる WebをSemantic Webに変える 自動化とマニュアルのバランス 入力コストを最小限に抑えるためのNLPとオントロジー 理解・生成しやすいフォーム形式 「ありがたみ」のデザイン:Double-loop gratification いますぐの御利益 あとになってわかる御利益
© Copyright 2024 ExpyDoc