GuideLink: ガイドラインの管理を同時に行う アノテーションツール 大内田賢太, 金進東, 辻井潤一 (東京大学) 本日の発表内容 • 背景 – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 本日の発表内容 • 背景 – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 コーパスアノテーションの例 • テキストに、人間の言語知識を表す記述子を割り振る作業 – 例えば、固有表現(地名・人名など)の単語列に記述子を割り振る。 「ハドソン川の英雄」に称賛、USエアウェイズ機事故 米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ (US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静 沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報 道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレン バーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を 胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出す ることができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで 称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエ アバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320 は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼から着水さ せたのだろうと説明する。「エンジンが先に着水していれば、機首が水中に突っ 込んでいただろう。素晴らしい着水だった」 AFPBB News(2009年01月16日)から抜粋 http://www.afpbb.com/article/disaster-accidents-crime/accidents/2559054/3689776 コーパスアノテーションとは • 定義 – テキストに人間の言語知識を表す記述子を割り振る作業 • 特徴 – 自然言語処理システム開発のための資源を提供 • 問題点 – 開発期間が長い。 – 多くの人手が必要。 – アノテーションの一貫性を保つことが困難 コーパスアノテーションの難しさ • これは組織名? – ・・・早稲田大学・・・ – あの学生は早稲田に入りました。 – ・・・東京大学・・・ – ・・・・東京・・・・ – 六大学野球、早稲田対東京が行われました。 コーパスアノテーションの難しさ • 関係性がある? – – – – 「AとBは関係がある。」 → ○ 「AとBは関係がない。」 → × 「AとBは関係があるかもしれません」 → ? 「AとBの研究をします。」 → ? • もっと難しいアノテーションもある(Event Annotation 等) 情報交換の必要性 • 一貫性を保つため、アノテーション作業中の情報交換 が必須 • 情報交換で得られた結論はアノテーションガイドライン として残し、後で参照される – – – – – メールのアーカイブ (例: Caderige) テキスト文書 (例:Penn Treebank) Web文書 (例: PennBioIE) Wiki (例: GENIA) 書籍 (例:Susanne) ・Caderige (http://caderige.imag.fr/) ・Susanne (書籍: English for the Computer: The Susanne Corpus and Analytic Scheme ) ガイドラインの管理の重要性 • アノテーション作業中 – 情報交換 – アノテーションの一貫性の保持 • アノテーション作業後 – アノテーションの結果を正しく理解する資料 • ユーザビリティを高める 本日の発表内容 • 背景 – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 提案手法の目的と方針 • 目的 – アノテーション作業とガイドライン管理作業の統合 • 方針 – 既存のアノテーションモデルを拡張したガイドライン 管理可能な統合アノテーションフレームワーク コーパスアノテーションの流れ はい アノテーション 可能か? いいえ ガイドラインを参照する はい アノテーション 可能か? • 一般的なアノテーションツール では、ガイドラインの管理を サポートしていない – WordFreak , MMAX, Knowtator 既存のツールに3つの作業を 支援するシステムを実装する いいえ ガイドラインを更新する アノテーションを行う WordFreak: An Open Tool for Linguistic Annotation (2003) 具体例をガイドラインに関連付ける MMAX: A tool for the annotation of multi-modal corpora (2001) Knowtator: a plug-in for creating training and evaluation data sets for biomedical natural language system (2006) 2レイヤーモデル • 既存のアノテーションモデルは2レイヤーモデルで表現 可能 アノテーションレイヤー • 単語列へのポインタ、記述子 テキストレイヤー • 単語の羅列 既存のツール 3レイヤーモデル • 提案手法では3つのレイヤーを利用 • 既存の2レイヤーモデルを拡張 • アノテーションガイドラインレイヤーを追加 アノテーションガイドラインレイヤー • アノテーションガイドライン 提案システム アノテーションレイヤー • 単語列へのポインタ、記述子 テキストレイヤー • 単語の羅列 既存のツール 本日の発表内容 • 背景 – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 テキストレイヤー • アノテーション対象となるテキストの管理 – テキストは文字の羅列によって表現 テキストレイヤー テキストインスタンス テキスト(文字の羅列) アノテーションレイヤー • アノテーションされた単語列は、アノテーションインスタン スによって管理される。 アノテーションレイヤー アノテーションインスタンス id 記述子 テキストレイヤー テキストインスタンス テキスト(文字の羅列) アノテーションガイドラインレイヤー • アノテーションガイドラインによって参考になるインスタンスのID のリストを管理することで、関連付けられる。 アノテーションガイドラインレイヤー ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト アノテーションレイヤー アノテーションインスタンス id 記述子 テキストレイヤー テキストインスタンス テキスト(文字の羅列) アノテーションガイドラインレイヤー • アノテーションガイドラインによって参考になるインスタンスのID のリストを管理することで、関連付けられる。 アノテーションガイドラインレイヤー ガイドラインインスタンス 役職は人名には含まれない 役職 関連付けられたインスタンスリスト アノテーションレイヤー アノテーションインスタンス id 人名 テキストレイヤー テキストインスタンス ・・・サレンバーガ機長の同僚の・・・ 負例の管理 • ガイドラインにとって、記述子を割り振られな かった単語列(負例)はよい具体例 • 既存のアノテーションインスタンスでは負例を 表現することができない 拡張したアノテーションインスタンスで負例を表現 アノテーション正負判定の管理 • 正負判定により、負例をアノテーションインス タンスとして表現可能に アノテーションガイドラインレイヤー ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト アノテーションレイヤー アノテーションインスタンス id 記述子 正負判定 テキストレイヤー テキストインスタンス テキスト(文字の羅列) アノテーション正負判定の管理 • 正負判定により、負例をアノテーションインス タンスとして表現可能に アノテーションガイドラインレイヤー ガイドラインインスタンス 役職は人名には含まれない 役職 関連付けられたインスタンスリスト アノテーションレイヤー アノテーションインスタンス id 人名 負例 テキストレイヤー テキストインスタンス ・・・サレンバーガ機長の同僚の・・・ 関数の定義 • ガイドラインインスタンスの – 追加 – 編集 アノテーションレイヤーへのアクセスが必要 – 参照 – 削除 アノテーションガイドラインレイヤー ガイドライン構造体 ガイドライン キーワード 関連付けられたインスタンスリスト アノテーションレイヤー アノテーション構造体 id 記述子 アノテーションレイヤーとの連携 • ガイドラインレイヤーから呼ぶAPI – getAnnotation (ガイドラインインスタンスからのアノテーション インスタンスの取得) • アノテーションレイヤーが投げるメッセージ – addAnnotation, deleteAnnotation (アノテーションインスタンスの追加・削除情報を ガイドラインへ通知) アノテーションレイヤーの拡張 • 既存のアノテーションレイヤーを変更せずに、 負例を扱えるようにする • アノテーションレイヤーにAPIやメッセージを 追加する必要がある 拡張アノテーションレイヤーを追加する 拡張3レイヤーモデル アノテーションガイドラインレイヤー ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト 拡張アノテーションレイヤー 既存のアノテーションレイヤー ・正例の管理 API メッセージ ・負例の管理 テキストレイヤー テキストインスタンス テキスト(文字の羅列) 拡張3レイヤーモデルの利点 • 既存のアノテーションツールに最小限の変更 で、アノテーションガイドラインとアノテーショ ンレイヤーが連携できる • ガイドラインの編集を容易に行うことができる • ガイドラインを参照するときに、テキストレイ ヤー上の情報を用いて検索することができる 本日の発表内容 • はじめに – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 コーパスアノテーションの流れ(再掲) はい アノテーション 可能か? いいえ ガイドラインを参照する はい アノテーション 可能か? いいえ ガイドラインを更新する アノテーションを行う 具体例をガイドラインに関連付ける • 一般的なアノテーションツール では、ガイドラインの管理を サポートしていない • WordFreak,MMAX, Knowtator… 既存のツールに3つの作業を 支援するシステムを実装する ガイドラインを参照する ガイドラインを更新する 具体例をガイドラインに関連付ける “GuideLink (Guideline+ Link)” • 我々は提案手法を基に、“GuideLink” を実装した – GuideLink は既存のアノテーションツールの機能を拡張し、 ガイドラインの管理に関するステップをサポートする ガイドラインを参照する ガイドラインを更新する – 今回は、我々の 研究室で開発された アノテーションツール であるVex+ (in XCONC Suite)用のプラグイン として実装した 具体例をガイドラインに関連付ける Vex GuideLink “GuideLink”と Vex+ Vex アノテーション編集 ガイドライン検索 インスタンス管理 ガイドライン編集 実装の結果 • アノテーションガイドラインの管理のためには、 既存のツールを変更せずに拡張可能 • 既存のツールとの連携を高めるためには、 最小限度の変更が必要 – アノテーション位置へのカーソル移動機能 – カーソル周辺の情報から、必要と思われるガイド ラインを自動的に類推提示 本日の発表内容 • はじめに – コーパスアノテーション – アノテーションガイドライン • 提案手法 – アノテーションに関する3レイヤーモデル – データ構造 • 実装 – GuideLinkについて • 今後の予定 今後の予定 • 実際に“GuideLink” を用いてアノテーション作業を行 いながらガイドラインの管理を行えるか検証を行う。 – DBCLS (ライフサイエンス統合データベースセンター)にて 現在 “GuideLink”を用いた実作業を進行中 – 辻井研究室の方々に協力してもらい、実際にアノテーショ ン作業を行ってもらい、検証を行う予定。 • 他のアノテーションツールとの連携 – Emacsなどのオープンソースのエディタ DBCLS:http://dbcls.rois.ac.jp/ 辻井研究室:http://www-tsujii.is.s.u-tokyo.ac.jp/ まとめ • 背景 • コーパスアノテーションとは、テキストに人間の言語知識を表す記述 子を割り振る作業 • アノテーションガイドラインによって情報交換することで、一貫性のと れたアノテーションが行うことができる • 提案手法と実装 – ガイドラインを管理する手法として3レイヤーモデルを提案し、データ 構造の設計を行った – アノテーションシステム“GuideLink” を実装した • 進捗状況と今後の予定 – “GuideLink”を用いた検証を実行中・実行予定 ご清聴ありがとうございました 検証方法について • アノテーションの過程での検証 – アノテーションにかかる日数 – アノテーションの修正回数 – 修正にかかるコスト • アノテーションの後での検証 – コーパスを参照したとき、ガイドラインからコーパスの 特徴をどのように理解することができるか – 既存のコーパスをどれぐらい再現できるか – 同じガイドラインを使って、別のコーパスに対して アノテーションを行うとき、どれだけコストが下がるか
© Copyright 2025 ExpyDoc