Document

東京大学 辻井研究室 D3 大内田賢太
人手によるアノテーション
 人手によるテキストアノテーション
 定義

テキストデータに対して、人間の言語知識を用いたラベルをつけてい
く作業
 目的


アノテーションされたコーパスから機械学習で言語知識を得ることが
できる
得られた言語知識がアノテーションの影響を受けやすいため、できる
だけ人の言語知識がうまく取り込められたアノテーションを行いたい
 テキストアノテーションにおける問題点

人手によるアノテーションにおける問題点



時間がかかる・多くの人数が必要
巨大なテキストデータを、同じ基準でアノテーションするのは困難
一貫性の無いアノテーションになってしまう問題点


複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy)
同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).
アノテーションの具体例(1/2)
 例として、4つの単語列 “IκBα,” “IL2R,” “IκB,” “serum”のう
ちProteinの固有表現を選ぶアノテーションを考えよう
 いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーション
できる
 しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義が
あいまいなために、容易にアノテーションすることができない。
protein
protein
?
?
“IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列
アノテーションの具体例(2/2)
 アノテーションが困難な単語列に対しては、アノテー
ターがどのようにアノテーションするか決定しなければ
ならない
例えば、“IL2R”はプロテインの固有表現ではないと決定したとする
決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に
対してどのような決定を行うべきか、ガイドラインを作ることができる。
ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを
行わないという判断ができる。
protein
protein
?
?
protein
?
アノテーションガイドライン
 定義
 判断が難しい場合に手助けとなるガイドライン
 一般的には、いくつかの例を列挙したリストになっている
 目的
 アノテーターに偏ったアノテーションを防ぎ、一貫性の高
いアノテーションを行えるようになる
 問題点
 アノテーションを行う前から、アノテーション上の
すべての問題を想定することは困難
アノテーション作業を行いながら、同時に
アノテーション・ガイドラインの管理する手法を提
案する