A Template-Based Markup Tool for Semantic

A Template-Based Markup Tool for
Semantic Web Content
国立情報学研究所 実証研究センター 助手
大向 一輝
Semantic Markup
 コンテンツへの機械可読なタグの付加
 これからのコンテンツ
 CMSベース・ソーシャルアプローチ
 ブログ・Folksonomy
 Pri-production markup
 既存のコンテンツ
 自然言語処理
 SemTag and Seeker [Dill03]
 Post-production markup
 Post-production markupの問題点
 誰がやるのか?(量の問題)
 精度は?(質の問題)
 Incomplete / Inconsistent / Incorrect
SMT: Semantic Markup Tool

Post-production markupのための複合的アプローチを提案
 ユーザビリティと表現力のトレードオフ空間での最適点を探す
 自動的な情報抽出
 フォームベースのマニュアル作業
 既存のコンテンツへのOWLマークアップを対象とする
 「BobとFredはSan Franciscoのミーティングに参加した」
SMTのアプローチ
 Semantic markupの問題はどこにあるか?
 グラフを1から書くのは大変
 クラス・プロパティの選択と関連づけ
 構造とコンテンツが一体化しているゆえ
 構造にオリジナリティが必要な場面はほとんどない
 複雑な構造(多段ツリー・ネットワーク)も必要ない
 何にアノテーションすべきか
 コンテンツ中の各単語(インライン)
 文脈依存
 コストパフォーマンス
 メタデータ・インデックス
 検索の利便性向上に特化
 フォーム形式で記述可能なコンテンツのみを対象にしてもよい?
SMTのアーキテクチャ
SMTのプロセス
 コンテンツの取得と正規化
 HTMLのサニタイズ・明示的なメタデータの抽出
 Text Extractor Web Serviceによるコンテンツ解析
 形態素解析 → OWLクラスとのマッピング
 テンプレートの適用
 テンプレート候補の提示 → フォーム内容の候補提示
 テンプレート
 ドメインに対応したクラス・プロパティのセット
 XML Schemaで定義
 制約が書ける
テンプレートとGUI
フォーム形式の特徴
 エンドユーザにオントロジーを見せない
 フォーム=データ構造
 制約はValidatorで処理
 エキスパートの負担は変わらない
 パワーユーザが追加する項目もフォームの枠からは
外れない
 文書形式の要約表示
 ヒューマンフレンドリー
 マークアップすることのありがたみ(Instant
gratification)
Markup tools星取表
Semannot WS・Web2.0
 Semannot 2005
 Knowledge Markup & Semantic Annotation
 Semantic Wiki
 Multimedia Annotation
 Etc.
 Web 2.0
 Google Base [Demo!]
 構造化データの編集・公開・共有
 スキーマレベルでの共有が可能になると…
 その他
 MHC:メールからのスケジュール抽出
まとめ
 Semantic Webへの道
 新しいWebをつくる
 WebをSemantic Webに変える
 自動化とマニュアルのバランス
 入力コストを最小限に抑えるためのNLPとオントロジー
 理解・生成しやすいフォーム形式
 「ありがたみ」のデザイン:Double-loop gratification
 いますぐの御利益
 あとになってわかる御利益