Document

機械学習による
日本語名詞句照応解析の一手法
奈良先端科学技術大学院大学
飯田龍 乾健太郎 松本裕治
ニューヨーク大学
関根聡
1
名詞句照応解析

文章内の同一指示対象を同定するタスク
先行詞
村山富市首相は八日、超党派の「民主リベラル新党準
備会」を独自に発足させた社会党の新民主連合会長と
会談した。首相は、今春の統一地方選後に党全体で
の新党移行を目指す考えを強調、離党など性急な行
動への自重を求めた。
照応詞

照応解析の応用

対話モデル, MT, IR, IE, QA
2
照応解析の先行研究
おおきく2つの手法に分類できる
 理論指向の規則作成に基づく手法
(Baldwin 95, Mitkov 97, Vieiraら 00, 村田ら 97)


センタリング理論など言語学的な知見をもとに規則を作成
Message Understanding Conference (MUC)
• 精度 約70%, 再現率 約60% (対象言語は英語)


規則の保守・洗練が難しい
照応関係タグ付きコーパスを用いた学習手法
(Soonら 01, Ngら 02, Yangら03, Geら 98)
表層情報からわかる単純な手がかりを使用
 MUCの同タスクにおいて,規則ベースの手法と
同程度の精度を得ている

3
目的

一般に英語と比較して日本語の方が
名詞の指示性を推定することが困難だと言われている


冠詞(theなど)の情報が無いため
機械学習を用いた日本語照応解析のモデルを提案

このモデルを日本語の名詞句照応解析に適用し,
どのような現象がどの程度解析可能かを調査する
4
目次

名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ
5
村田ら(‘97)の規則に基づく解析手法
2つの処理で解析
1. 名詞句の指示性(総称名詞,定名詞,不定名詞)の推定

2.
局所文脈(助詞,係り元,係り先など)の情報を利用
定名詞句間の照応関係の同定
村山富市首相は八日、超党派の「民主リベラル新党準
備会」を独自に発足させた社会党の新民主連合会長と
会談した。首相は、今春の統一地方選後に党全体で
の新党移行を目指す考えを強調、離党など性急な行
動への自重を求めた。
「村山富市首相」 = 「首相」
「社会党」 = 「党」
緑色: 定名詞
6
村田らの手法の問題点
村山富市首相は八日、超党派の「民主リベラル新党準
備会」を独自に発足させた社会党の新民主連合会長と
会談した。首相は、今春の統一地方選後に党全体で
の新党移行を目指す考えを強調、離党など性急な行
動への自重を求めた。

名詞句「首相」の指示性を推定するには前方文脈の情報が必要

村田らの手法でも規則として用いられているが
例外を書き尽くすことは困難である
指示性の推定を誤ることで
照応関係の解析全体に影響を及ぼす恐れがある
7
目次

名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ
8
提案手法

個別の名詞句が定名詞か否かを分類することなく
照応関係を認定する手法
名詞句照応解析の問題を2つに分割
1.
最尤先行詞候補の同定

2.
照応詞候補に対して最も先行詞らしい候補
(最尤先行詞候補)を同定する
照応詞の認定

最尤先行詞候補と照応詞候補の対を用いて
照応詞候補が照応詞かそれ以外(非照応詞)かを分類
照応詞候補と最尤先行詞候補の両方の
情報を参照して指示性を推定
9
最尤先行詞候補の同定

トーナメントモデル (Iida 03)
村山富市首相
最尤先行詞候補
村山富市首相
村山富市首相
超党派
八日
社会党
首相
首相
照応詞候補
先行詞候補
超党派
最尤先行詞候補
超党派
村山富市首相
超党派
先行詞候補
八日
社会党
社会党
照応詞候補
10
提案手法
1.
最尤先行詞候補の同定

照応詞候補に対して最も先行詞らしい候補
(最尤先行詞候補)を同定する
照応詞候補
社会党
首相
2.
最尤先行詞候補
超党派
村山富市首相
照応詞の認定

最尤先行詞候補と照応詞候補の対を用いて
照応詞候補が照応詞かそれ以外(非照応詞)かを分類
超党派
社会党
村山富市首相
首相
照応関係×
照応関係 ○
11
照応詞の認定

訓練事例の作成
負例集合
正例集合
非照応詞と
最尤先行詞候補の
対を負例とする
超党派
村山富市首相
先行詞
首相
社会党
最尤
超党派
先行詞候補
照応詞
真の照応詞と
先行詞の対を正例とする
村山富市首相
超党派
八日
社会党
非照応詞
先行詞候補
12
照応詞の認定 (Cont’d)

解析
最尤
先行詞候補
社会党
社会党
党
照応関係
…
村山富市首相 …
照応詞
候補
社会党
今春
統一地方選
党
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
13
目次

名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ
14
名詞句照応解析の問題設定

照応関係タグ付きコーパスの作成の際の問題

総称名詞や不定名詞の照応関係
図書館1には本1が置いてある。
図書館2の本2は借りることができる。

図書館1 = 図書館2
本1 ⊃ 本2
外界照応
外界の要素を指示
庭師はその植物に水をやりましたか。
包含関係を考慮し
てタグ付与する
ことは困難
• 指示詞の無い「村山富市首相」は外界照応?

複合名詞句の構成素
• [ [ 八重洲 東 ] [ 駐車 場 ] ]
○ [八重洲 東]
○ [駐車 場]
× [[八重洲 東] 駐車]
15
照応関係タグ付きコーパス作成の基準
タグ付与の基準
 総称名詞と不定名詞は照応詞,先行詞としない

談話内に出現した名詞句のみを先行詞とする

照応詞は文節の主辞(最右の名詞自立語)を
対象とする
16
訓練・評価データ

作成したタグ付けの基準に従い,
京大コーパスの報道90記事にタグを付与


前処理



883事例を抽出
形態素解析(茶筌)
構文解析・固有表現抽出(CaboCha)
学習器

SVM (Vapnik 98)
17
素性
4種類の素性
 語彙的な情報を用いた素性

形態・統語的な情報を用いた素性

意味的な情報を用いた素性

名詞句間の距離情報を用いた素性
18
実験結果

種類
精度
(a)先行詞の同定
(a)+照応詞の検出
86.6% (765/883)
65.9% (582/883)
非照応詞の棄却
適合率
再現率
97.4% (6042/6202)
65.9% (582/883)
78.4% (582/742)
先行詞同定 誤り 13.4% (100 - 86.6)
照応詞認定 誤り 20.7% (86.6 - 65.9)
19
解析の信頼度

解析を誤るよりも精度良く解析したいという要求がある

照応詞認定処理で分類器が出力する値を信頼度として導入
(SVMが出力する分離平面からの距離)
全体の事例のうち
約5割を出力すると
約9割の精度が得られる
20
解析誤りの分析(先行詞同定)

真の照応詞に対する先行詞同定を誤った118事例
誤りの原因
(1) 名詞意味属性の粒度
(2) 特徴的な語の過剰な重み
割合
35.6% (42/118)
16.9% (20/118)
(3) 文字列素性が過剰に働く
(4) 文章内外の情報が必要
18.6% (22/118)
15.3% (18/118)
(5) 定名詞の推定誤り
(6) その他
9.3% (11/118)
22.9% (27/118)
21
解析誤りの分析(先行詞同定)

(1) 名詞意味属性の粒度

照応解析に必要な意味属性の粒度とは?
「会議」 ≠ 「今日」: 意味属性の違いで棄却できる
「兄」 ≠ 「妹」: 多くの言語資源において
同一の意味概念<人間>に含まれる

(3) 文字列素性が過剰に働く


文字列の一致情報は固有表現同士の場合などは有用
しかし
「キリスト教会」と「キリスト教会色」の対が照応関係と解析さ
れる
22
解析誤りの分析(照応詞認定)

解析の信頼度が高くかつ解析を誤った50事例の分析
誤りの原因
割合
(1) 定名詞の推定誤り
50.0% (25/50)
(2) 文字列素性が過剰に働く
(3) 文章内外の情報が必要
14.0% (7/50)
12.0% (6/50)
(4) その他
22.0% (11/50)

名詞の指示性の推定方法について
今後さらに検討する必要がある
23
まとめ

最尤先行詞候補を同定した上で
照応詞を認定する名詞句照応解析手法の提案

再現率 65.9%, 精度 78.4%
24
今後の課題

名詞の指示性に着目して


センタリング理論で導入されている
局所文脈情報の利用
(不)定名詞と総称名詞を区別するような知識について調査

規則ベースの手法との比較

タグ付きコーパス作成方法の洗練
25
26
実験結果(照応詞で分類)

「照応詞の検出と先行詞の同定」を
照応詞によって分類



固有表現: CaboChaの出力するIREXの8種の固有表現
代名詞 : 茶筌の出力する品詞
普通名詞: それ以外
種類
固有表現
普通名詞
(a)先行詞同定
94.8% (368/388)
81.5% (392/481)
(a)+照応詞の検出
84.3% (327/388)
52.8% (254/481)
代名詞
35.7% (5/14)
7.1% (1/14)
27
実験結果(他手法との比較)
種類
Yang(‘03)’s
model
Tournament
model
Preference Kernel
(Shen 03)
先行詞の同定
(or照応詞の検出)
89.8%
(793/883)
86.6%
(765/883)
87.5%
(773/883)
先行詞の同定と
照応詞の検出
86.5%
(764/883)
65.9%
(582/883)
65.3%
(577/883)
非照応詞の棄却
83.1%
(5153/6202)
97.4%
(6042/6202)
97.6%
(6051/6202)
精度
43.1%
(793/1842)
78.4%
(582/742)
79.3%
(577/728)
再現率
86.5%
(764/883)
65.9%
(582/883)
65.3%
(577/883)
F値
57.5
71.6
71.6
28
村田ら(‘97)の名詞句の指示性の分類

総称名詞
• 名詞句の意味する類に属する任意の成員のすべて,
もしくは類それ自身

犬は役に立つ動物です。
非総称名詞
 不定名詞
• 名詞句が意味する類に属するある不特定の成員
犬が三匹います。

定名詞
• 名詞句の意味する類に属する文脈上唯一の成員
その犬は役に立ちます。
29