pdf

Chinese Zero Pronoun Resolution
with Deep Neural Networks
Chen Chen and Vincent Ng
紹介する人:萩行 正嗣
(ウェザーニューズ)
ACL読み会2016@東工大
Anaphoric Zero Pronoun Resolutionの用語
• Zero pronoun (ZP): ゼロ代名詞
• 省略された代名詞
• (ここでは)現実世界の何らかのEntityを指すものと定義
• Anaphoric zero pronoun (AZP): 照応性のあるゼロ代名詞
• 文中に指す先(先行詞)のあるゼロ代名詞
• Antecedent: 先行詞
• (ゼロ)代名詞が指す「文中の表現」(mention)
# “referent”といった場合、表現でなく、指す実体を意味することもある
先行詞
照応(refer)
ゼロ代名詞
[俄罗斯] 作为米洛舍夫维奇一贯的支持者,*pro*
実際の文では*pro*の部
曾经提出调停这场政治危机。
分は何もない
([Russia] is a consistent supporter of Milošević, *pro*
has proposed to mediate the political crisis.)
ACL読み会2016@東工大
AZP Resolutionのサブタスク
• AZP identification
• 文中からAZPを探す
• 2stepになっている
• Extracting candidate ZPs (ZP detection):
ルールベース(VPの前を集めてくる)
• Anaphoricity determination: AZPかそれ以外かをSVMなどで二値分類
• 正解の構文木でF-score:0.601、システムで0.361(本論文appendixより)
• 以降のChen & Ngの研究はこの手法を使っている
• [Chen & Ng ’13]の時より数字がよくなっている
• AZP Resolution
• AZPのantecedentを先行詞から選ぶ
• ZPは情報を持たないので、単複、性別などの手掛りがなく難しい
• 先行詞候補はZPの2文以内にあるNP全て
(英語の照応解析の場合、先行詞候補の範囲を決めるなどのタスクもある)
ACL読み会2016@東工大
先行研究
• Supervised learning:
• [Zhao & Ng ’07]: 照応解析のMention pairモデルをゼロに適用
• [Kong & Zhou ’10]: Tree-kernelでZP detection、Anaphoricity determination、
AZP resolutionの3タスク全てをやった
• [Chen & Ng ’13]: [Zhao & Ng’07]の素性を増やした + 既に解いたAZPの情報
• Unsupervised learning:
• [Chen & Ng ’14b]: 照応解析を教師なしのEMで回した結果をゼロに適用
• [Chen & Ng ’15]: ゼロ照応解析だけの教師なしEM
教師あり
教師なし
提案手法
Gold AZP
Gold parse tree
System AZP
Gold parse tree
System AZP
System parse tree
[Zhao & Ng ’07]
41.5
23.3
13.4
[Kong & Zhou ’10]
44.9
24.4
14.5
[Chen & Ng ’13]
47.7
26.4
15.7
[Chen & Ng ’14b]
47.7
26.4
15.7
[Chen & Ng ’15]
50.2
30.3
17.3
[Chen & Ng ’16]
52.2
32.1
18.4
ACL読み会2016@東工大
提案手法のポイント
• 先行研究
• Feature engineering(というか生成モデル)の設計が大変
• 素性の独立性がないと悪影響
• [Chen & Ng ’14b][Chen & Ng ’15]ではLexicalな素性を使っていない
• 教師あり[Zhao & Ng ’07][Chen & Ng ’13]ではLexical featureが有効
• 尤度を最大化してるけど、F値などの評価尺度と関連してるか分からない
• 提案手法
• Deep leaning
• AZP resolutionの複雑な関係(hidden)を表現できる
• Lexicalな情報をいい感じに扱える
• Ranking-baseの教師あり学習
• 従来の教師ありAZP resolverはclassification-based
• 素性ベースの手法
• Lexicalな素性(教師なしで学習)と手作りの素性を両方使える
ACL読み会2016@東工大
提案手法(ネットワーク構成)
類似度が高いものを先行詞として選ぶ
ゼロ代名詞
先行詞候補
ACL読み会2016@東工大
学習事例の作成
• 学習の効率化のため各AZPに対して、先行詞候補を4つに絞る
• 1つは正しい先行詞
• 残りの3つは先行詞候補のうちsalienceが高いもの
• Salienceの計算は
•
4, 𝑟𝑜𝑙𝑒 𝑚 = 𝑆𝑈𝐵𝐽𝐸𝐶𝑇𝐼𝐵𝐸
• 𝑔 𝑚 = 2, 𝑟𝑜𝑙𝑒 𝑚 = 𝑂𝐵𝐽𝐸𝐶𝑇𝐼𝐵𝐸
1, 𝑟𝑜𝑙𝑒 𝑚 = 𝑂𝑇𝐸𝐻𝑅𝑆
• 𝑑𝑒𝑐𝑎𝑦 𝑚 = 0.5𝑑𝑖𝑠_𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒(𝑚,𝑧)
ACL読み会2016@東工大
Embedding Features
• Word2vecを固定で使う
• OntoNotes 5.0で学習
• 100次元
• 𝑥𝑒 𝑧 : AZPのembedding素性
• 2つのベクトルを結合する
AZPの直前の単語のベクトル
AZPを項に持つ動詞のベクトル
• 𝑥𝑒 𝑐𝑖 : 先行詞候補のembedding素性
• 𝑐𝑖 の主辞のベクトルをそのまま使う
ACL読み会2016@東工大
Hand-Crafted Features
• AZPと先行詞候補の統語的関係を表現
• 𝑥ℎ 𝑧 : AZPに関連する素性
• Syntactic features: 13種類 例えば…
• zがIP節の最初のgapか?
• zの次の語がNPまたはVP中の動詞か?
• Other features: 6種類 例えば…
• zは文の最初のgapか?
• zの文法役割(SUBJECT, OBJECT, OTHERS)
• 𝑥ℎ 𝑐𝑖 : 先行詞候補に関連する素性
• Syntactic features: 12種類 例えば…
• cは副詞的名詞句、時相名詞句、代名詞またはNEか?
• Distance features: 4種類 例えば…
• cとzの間の文数
• Other features: 2種類 例えば…
• cはテキストのheadlineに含まれるか?
• 両方50次元なのは、最後に0を埋めているだけ
ACL読み会2016@東工大
Inference
• Salience scoreが高い4つの先行詞候補のうち、𝑃(𝑐𝑖 |𝑧, Λ) (∝ cos類
似度)が高いものを先行詞として選ぶ
• 選ばれた4つに正しい先行詞がある保証はない
• AZPと(正しい)先行詞が離れ過ぎていることがある
ゼロで出現が続く場合など [Chen and Ng ’13]
• AZP resolutionは文頭から順番に実行
• AZPの部分(gap)に選択された先行詞を埋めて、以降の解析ではそこに先行
詞があるものとして扱う
• もとの先行詞より近い位置にあるとみなせる
ACL読み会2016@東工大
実験設定
• CoNLL2012 - OntoNotes 5.0: 6ジャンルのテキスト
• Broadcast News, Newswire, Broadcast Conversation,
Telephone Conversation, Web Blog, Magazine
• Hyperparameter: Trainingの20%を使って調整
• Baseline: [Chen & Ng ’15] (教師なしAZP resolution)
• 3つの設定で比較
• 正解のAZP
+ 正解の構文木
• システムのAZP+ 正解の構文木
• システムのAZP+ システムの構文木
ACL読み会2016@東工大
実験結果
ACL読み会2016@東工大
実験結果分析
Baseline→
提案手法→
[陈水扁] 在登机前发表简短谈话时表示,[台湾] 要站起来走出去。...
*pro*也希望此行能把国际友谊带回来。
• Baselineが[台湾]を選択した理由
• [台湾]がSalienceが最も高く、AZPにも近い
• 提案手法が[陈水扁]を選択した理由
• 学習データ中に、人名が「希望」の項のAZPの先行詞となった例が多数
• [陈水扁]と上記の人名のembeddingが似ていた
学習データ中には「希望」の項のAZPの先行詞としては[陈水扁]は出ていな
かった
[我] 前一会精神上太紧张。...*pro* 现在比较平静了。
[I] was too nervous a while ago. ... *pro* am now calmer.
• 提案手法では、lexicalな情報はAZPの前の単語と、AZPを項に取る単
語、先行詞候補の単語のembeddingのみ
• 節のsentence embeddingなどが有効かもしれない
ACL読み会2016@東工大
まとめと感想
• まとめ
• Deep learningベースの手法で中国語のゼロ照応解析に取り組んだ
• Lexicalな素性(embedding)とSyntacticな素性を組み合わせた
• State-of-the-artを上回った(F値 47.7 → 50.2)
• 感想
• Hand-crafted featureだけでも、従来の機械学習ベースを上回ってる!
• DL部分にSyntacticな構造が入ればもっと良くなりそう
• Embeddingは先行詞候補側も用言の情報を使うとよさそう
• ゼロ代名詞の前の単語のEmbeddingは効いているのだろうか…
• TrainingとInferenceでモデルが違う(先に解いたゼロ代名詞の扱い)のが気に
なる
• 先行詞候補のSalienceによる絞り込みがかなりheuristicなので、その精度が
知りたい
• AZPの判定が問題の対象外になっているが、分けて解くのがいいのか?
ACL読み会2016@東工大