アノテーションガイドライン

GuideLink: ガイドラインの管理を同時に行う
アノテーションツール
大内田賢太, 金進東, 辻井潤一
(東京大学)
本日の発表内容
• 背景
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
本日の発表内容
• 背景
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
コーパスアノテーションの例
• テキストに、人間の言語知識を表す記述子を割り振る作業
– 例えば、固有表現(地名・人名など)の単語列に記述子を割り振る。
「ハドソン川の英雄」に称賛、USエアウェイズ機事故
米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ
(US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静
沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報
道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレン
バーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を
胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出す
ることができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで
称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエ
アバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320
は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼から着水さ
せたのだろうと説明する。「エンジンが先に着水していれば、機首が水中に突っ
込んでいただろう。素晴らしい着水だった」
AFPBB News(2009年01月16日)から抜粋 http://www.afpbb.com/article/disaster-accidents-crime/accidents/2559054/3689776
コーパスアノテーションとは
• 定義
– テキストに人間の言語知識を表す記述子を割り振る作業
• 特徴
– 自然言語処理システム開発のための資源を提供
• 問題点
– 開発期間が長い。
– 多くの人手が必要。
– アノテーションの一貫性を保つことが困難
コーパスアノテーションの難しさ
• これは組織名?
–
・・・早稲田大学・・・
– あの学生は早稲田に入りました。
–
・・・東京大学・・・
–
・・・・東京・・・・
– 六大学野球、早稲田対東京が行われました。
コーパスアノテーションの難しさ
• 関係性がある?
–
–
–
–
「AとBは関係がある。」 → ○
「AとBは関係がない。」 → ×
「AとBは関係があるかもしれません」 → ?
「AとBの研究をします。」 → ?
• もっと難しいアノテーションもある(Event Annotation
等)
情報交換の必要性
• 一貫性を保つため、アノテーション作業中の情報交換
が必須
• 情報交換で得られた結論はアノテーションガイドライン
として残し、後で参照される
–
–
–
–
–
メールのアーカイブ (例: Caderige)
テキスト文書 (例:Penn Treebank)
Web文書 (例: PennBioIE)
Wiki (例: GENIA)
書籍 (例:Susanne)
・Caderige (http://caderige.imag.fr/)
・Susanne (書籍: English for the Computer: The Susanne Corpus and Analytic Scheme )
ガイドラインの管理の重要性
• アノテーション作業中
– 情報交換
– アノテーションの一貫性の保持
• アノテーション作業後
– アノテーションの結果を正しく理解する資料
• ユーザビリティを高める
本日の発表内容
• 背景
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
提案手法の目的と方針
• 目的
– アノテーション作業とガイドライン管理作業の統合
• 方針
– 既存のアノテーションモデルを拡張したガイドライン
管理可能な統合アノテーションフレームワーク
コーパスアノテーションの流れ
はい
アノテーション
可能か?
いいえ
ガイドラインを参照する
はい
アノテーション
可能か?
• 一般的なアノテーションツール
では、ガイドラインの管理を
サポートしていない
– WordFreak , MMAX, Knowtator
既存のツールに3つの作業を
支援するシステムを実装する
いいえ
ガイドラインを更新する
アノテーションを行う
WordFreak: An Open Tool for Linguistic Annotation (2003)
具体例をガイドラインに関連付ける
MMAX: A tool for the annotation of multi-modal corpora (2001)
Knowtator: a plug-in for creating training and evaluation data sets for
biomedical natural language system (2006)
2レイヤーモデル
• 既存のアノテーションモデルは2レイヤーモデルで表現
可能
アノテーションレイヤー
• 単語列へのポインタ、記述子
テキストレイヤー
• 単語の羅列
既存のツール
3レイヤーモデル
• 提案手法では3つのレイヤーを利用
• 既存の2レイヤーモデルを拡張
• アノテーションガイドラインレイヤーを追加
アノテーションガイドラインレイヤー
• アノテーションガイドライン
提案システム
アノテーションレイヤー
• 単語列へのポインタ、記述子
テキストレイヤー
• 単語の羅列
既存のツール
本日の発表内容
• 背景
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
テキストレイヤー
• アノテーション対象となるテキストの管理
– テキストは文字の羅列によって表現
テキストレイヤー
テキストインスタンス
テキスト(文字の羅列)
アノテーションレイヤー
• アノテーションされた単語列は、アノテーションインスタン
スによって管理される。
アノテーションレイヤー アノテーションインスタンス
id
記述子
テキストレイヤー
テキストインスタンス
テキスト(文字の羅列)
アノテーションガイドラインレイヤー
• アノテーションガイドラインによって参考になるインスタンスのID
のリストを管理することで、関連付けられる。
アノテーションガイドラインレイヤー
ガイドラインインスタンス
ガイドライン
キーワード
関連付けられたインスタンスリスト
アノテーションレイヤー アノテーションインスタンス
id
記述子
テキストレイヤー
テキストインスタンス
テキスト(文字の羅列)
アノテーションガイドラインレイヤー
• アノテーションガイドラインによって参考になるインスタンスのID
のリストを管理することで、関連付けられる。
アノテーションガイドラインレイヤー
ガイドラインインスタンス
役職は人名には含まれない
役職
関連付けられたインスタンスリスト
アノテーションレイヤー アノテーションインスタンス
id
人名
テキストレイヤー
テキストインスタンス
・・・サレンバーガ機長の同僚の・・・
負例の管理
• ガイドラインにとって、記述子を割り振られな
かった単語列(負例)はよい具体例
• 既存のアノテーションインスタンスでは負例を
表現することができない
拡張したアノテーションインスタンスで負例を表現
アノテーション正負判定の管理
• 正負判定により、負例をアノテーションインス
タンスとして表現可能に
アノテーションガイドラインレイヤー
ガイドラインインスタンス
ガイドライン
キーワード
関連付けられたインスタンスリスト
アノテーションレイヤー アノテーションインスタンス
id
記述子
正負判定
テキストレイヤー
テキストインスタンス
テキスト(文字の羅列)
アノテーション正負判定の管理
• 正負判定により、負例をアノテーションインス
タンスとして表現可能に
アノテーションガイドラインレイヤー
ガイドラインインスタンス
役職は人名には含まれない
役職
関連付けられたインスタンスリスト
アノテーションレイヤー アノテーションインスタンス
id
人名
負例
テキストレイヤー
テキストインスタンス
・・・サレンバーガ機長の同僚の・・・
関数の定義
• ガイドラインインスタンスの
– 追加
– 編集
アノテーションレイヤーへのアクセスが必要
– 参照
– 削除
アノテーションガイドラインレイヤー
ガイドライン構造体
ガイドライン
キーワード
関連付けられたインスタンスリスト
アノテーションレイヤー アノテーション構造体
id
記述子
アノテーションレイヤーとの連携
• ガイドラインレイヤーから呼ぶAPI
– getAnnotation
(ガイドラインインスタンスからのアノテーション
インスタンスの取得)
• アノテーションレイヤーが投げるメッセージ
– addAnnotation, deleteAnnotation
(アノテーションインスタンスの追加・削除情報を
ガイドラインへ通知)
アノテーションレイヤーの拡張
• 既存のアノテーションレイヤーを変更せずに、
負例を扱えるようにする
• アノテーションレイヤーにAPIやメッセージを
追加する必要がある
拡張アノテーションレイヤーを追加する
拡張3レイヤーモデル
アノテーションガイドラインレイヤー
ガイドラインインスタンス
ガイドライン
キーワード
関連付けられたインスタンスリスト
拡張アノテーションレイヤー
既存のアノテーションレイヤー
・正例の管理
API
メッセージ
・負例の管理
テキストレイヤー
テキストインスタンス
テキスト(文字の羅列)
拡張3レイヤーモデルの利点
• 既存のアノテーションツールに最小限の変更
で、アノテーションガイドラインとアノテーショ
ンレイヤーが連携できる
• ガイドラインの編集を容易に行うことができる
• ガイドラインを参照するときに、テキストレイ
ヤー上の情報を用いて検索することができる
本日の発表内容
• はじめに
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
コーパスアノテーションの流れ(再掲)
はい
アノテーション
可能か?
いいえ
ガイドラインを参照する
はい
アノテーション
可能か?
いいえ
ガイドラインを更新する
アノテーションを行う
具体例をガイドラインに関連付ける
• 一般的なアノテーションツール
では、ガイドラインの管理を
サポートしていない
• WordFreak,MMAX, Knowtator…
既存のツールに3つの作業を
支援するシステムを実装する
ガイドラインを参照する
ガイドラインを更新する
具体例をガイドラインに関連付ける
“GuideLink (Guideline+ Link)”
• 我々は提案手法を基に、“GuideLink” を実装した
– GuideLink は既存のアノテーションツールの機能を拡張し、
ガイドラインの管理に関するステップをサポートする
ガイドラインを参照する
ガイドラインを更新する
– 今回は、我々の
研究室で開発された
アノテーションツール
であるVex+ (in XCONC
Suite)用のプラグイン
として実装した
具体例をガイドラインに関連付ける
Vex
GuideLink
“GuideLink”と Vex+
Vex
アノテーション編集
ガイドライン検索
インスタンス管理
ガイドライン編集
実装の結果
• アノテーションガイドラインの管理のためには、
既存のツールを変更せずに拡張可能
• 既存のツールとの連携を高めるためには、
最小限度の変更が必要
– アノテーション位置へのカーソル移動機能
– カーソル周辺の情報から、必要と思われるガイド
ラインを自動的に類推提示
本日の発表内容
• はじめに
– コーパスアノテーション
– アノテーションガイドライン
• 提案手法
– アノテーションに関する3レイヤーモデル
– データ構造
• 実装
– GuideLinkについて
• 今後の予定
今後の予定
• 実際に“GuideLink” を用いてアノテーション作業を行
いながらガイドラインの管理を行えるか検証を行う。
– DBCLS (ライフサイエンス統合データベースセンター)にて
現在 “GuideLink”を用いた実作業を進行中
– 辻井研究室の方々に協力してもらい、実際にアノテーショ
ン作業を行ってもらい、検証を行う予定。
• 他のアノテーションツールとの連携
– Emacsなどのオープンソースのエディタ
DBCLS:http://dbcls.rois.ac.jp/
辻井研究室:http://www-tsujii.is.s.u-tokyo.ac.jp/
まとめ
• 背景
• コーパスアノテーションとは、テキストに人間の言語知識を表す記述
子を割り振る作業
• アノテーションガイドラインによって情報交換することで、一貫性のと
れたアノテーションが行うことができる
• 提案手法と実装
– ガイドラインを管理する手法として3レイヤーモデルを提案し、データ
構造の設計を行った
– アノテーションシステム“GuideLink” を実装した
• 進捗状況と今後の予定
– “GuideLink”を用いた検証を実行中・実行予定
ご清聴ありがとうございました
検証方法について
• アノテーションの過程での検証
– アノテーションにかかる日数
– アノテーションの修正回数
– 修正にかかるコスト
• アノテーションの後での検証
– コーパスを参照したとき、ガイドラインからコーパスの
特徴をどのように理解することができるか
– 既存のコーパスをどれぐらい再現できるか
– 同じガイドラインを使って、別のコーパスに対して
アノテーションを行うとき、どれだけコストが下がるか