東京大学 辻井研究室 D3 大内田賢太 人手によるアノテーション 人手によるテキストアノテーション 定義 テキストデータに対して、人間の言語知識を用いたラベルをつけてい く作業 目的 アノテーションされたコーパスから機械学習で言語知識を得ることが できる 得られた言語知識がアノテーションの影響を受けやすいため、できる だけ人の言語知識がうまく取り込められたアノテーションを行いたい テキストアノテーションにおける問題点 人手によるアノテーションにおける問題点 時間がかかる・多くの人数が必要 巨大なテキストデータを、同じ基準でアノテーションするのは困難 一貫性の無いアノテーションになってしまう問題点 複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy) 同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy). アノテーションの具体例(1/2) 例として、4つの単語列 “IκBα,” “IL2R,” “IκB,” “serum”のう ちProteinの固有表現を選ぶアノテーションを考えよう いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーション できる しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義が あいまいなために、容易にアノテーションすることができない。 protein protein ? ? “IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列 アノテーションの具体例(2/2) アノテーションが困難な単語列に対しては、アノテー ターがどのようにアノテーションするか決定しなければ ならない 例えば、“IL2R”はプロテインの固有表現ではないと決定したとする 決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に 対してどのような決定を行うべきか、ガイドラインを作ることができる。 ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを 行わないという判断ができる。 protein protein ? ? protein ? アノテーションガイドライン 定義 判断が難しい場合に手助けとなるガイドライン 一般的には、いくつかの例を列挙したリストになっている 目的 アノテーターに偏ったアノテーションを防ぎ、一貫性の高 いアノテーションを行えるようになる 問題点 アノテーションを行う前から、アノテーション上の すべての問題を想定することは困難 アノテーション作業を行いながら、同時に アノテーション・ガイドラインの管理する手法を提 案する
© Copyright 2024 ExpyDoc