ゼロ照応解析のための 統語的パタンの学習 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp FIT2006 9,6,2006 はじめに ゼロ照応解析:文章内のゼロ代名詞を検出し, ゼロ代名詞の先行詞を同定する処理 ゼロ代名詞: 述語と直接の係り関係にない 必須の項を指す省略された要素 先行詞 奈良、平安時代に中央政府の最北の出先機関だったとされ る国史跡・秋田城跡に派遣された役人1は、サケやマスなど を食材にした郷土料理は(φ1ガ)口にせず、あくまで「関西 風」の食事にこだわっていたことが(φ2ガ)分かった。 ゼロ代名詞 ゼロ代名詞 応用: 機械翻訳や情報抽出で必須の処理 FIT2006 9,6,2006 2 発表の焦点 ゼロ照応解析の問題を文内と文間で二つに分割 文内ゼロ照応 太郎は遅刻して(φガ)授業に遅れた。 統語的なパタン local topicの遷移 文間ゼロ照応 そこにいたお年寄りたちは、ただボーッとしてい るような感じの人がほとんどだった。 私は近づくのを躊躇った。 しかし、私が近くに行くと、とてもうれしそうに話 を(φガ)してくれ、笑顔を見せてくれた。 談話の挿入 global topicの遷移 それぞれ捉える特徴が異なる 文内ゼロ照応解析の問題を,文の構造情報を機械学 習に基づく解析手法と統合することにより,解析精度 の向上を目指す FIT2006 9,6,2006 3 文内ゼロ照応解析の問題設定 先行詞同定: 与えられたゼロ代名詞に対して先行詞候補集 合から適切な先行詞を同定する処理 (文内)照応性判定: ゼロ代名詞が文内に先行詞を持つか 否かを分類する処理 「太郎」を先行詞として同定 太郎は遅刻して(φガ)授業に遅れた。 「照応性あり」と決定 (φガ)早く帰りたい。 「照応性なし」と決定 FIT2006 9,6,2006 4 先行研究 人手で作成した規則に基づく手法 (村田ら 95, 田村ら 95 ,中岩ら 96 ) センタリング理論(Groszら 95)などの言語学的な知見に基 づく 南(`74)の節間の主語同一性の分析を利用 統語的なパタンを網羅的に記述することは困難 機械学習に基づく手法 (Soonら 01,関ら 01, Ngら 02, 磯崎ら 04, Yangら 05, 飯田ら 05) 表層情報からわかる簡単な素性で規則ベースの手法と同 程度の精度を得ている MUCのCOタスク, ACE programのEntity Detection and Tracking タスクのデータを対象に着実に進歩している 文内と文間を区別せずに処理している FIT2006 9,6,2006 5 文内ゼロ照応解析の手がかり 統語的なパタンが手がかりとなる 太郎は遅刻をして(φガ)授業に遅れた。 NPが~して(φガ)~する。 NPはφの先行詞となりやすい 先生も遅れたので(φガ)怒られなかった。 NPが~ので(φガ)~する。 NPはφの先行詞となりにくい メアリはジョンに(φガ)タバコをやめるように言った。 NPに(φガ)~するように言った。 NPはφの先行詞となりやすい NPが(φガ)~するように言った。 NPはφの先行詞となりにくい FIT2006 9,6,2006 6 提案手法 探索先行分類型モデル (飯田ら, 05)で解析 既存のゼロ照応解析で利用されている情報に 加え統語パタンも同時に学習する FIT2006 9,6,2006 7 探索先行分類型モデル 照応解析の問題を2段階で解析 1. 先行詞同定 村山首相 村山首相 … 独自 社会党 φ トーナメントモデル (飯田ら, 03) 2つの先行詞候補の間で勝ち抜き戦を行い先行詞を唯一に決定 2. 照応性判定(先行詞が文章内にあるか否かを判定) 先行詞 候補集合 村山首相 八日 トーナメントモデル 超党派 独自 最尤先行詞候補 村山首相 社会党 φ 照応性判定モデル score ≧θ … ゼロ 代名詞 村山首相 φ :照応性あり (文章内に先行詞を持つ) φ FIT2006 9,6,2006 8 探索先行分類型モデル 先行詞同定と照応性判定の各処理 で統語パタンを利用する 先行詞 候補集合 村山首相 八日 トーナメントモデル 超党派 独自 最尤先行詞候補 村山首相 社会党 φ 照応性判定モデル score ≧θ … ゼロ 代名詞 村山首相 φ :照応性あり (文章内に先行詞を持つ) φ FIT2006 9,6,2006 9 提案手法 探索先行分類型モデル (飯田ら, 05)で解析 ゼロ照応解析で利用されている情報に加え 統語パタンも同時に学習する 1. 文の構造をどのように表現するか 2. どのようにして構造から重要な統語パタンを 学習するか FIT2006 9,6,2006 10 文の構造の表現 文節を単位とした係り受け木で表現 メアリはジョンに(φガ)タバコをやめるように言った。 係り受け解析 メアリは 先行詞 ジョンに ゼロ代名詞 φガ タバコを 述語 やめるように 述語 言った。 ゼロ代名詞と先行詞のパスを抽出 先行詞 ジョンに ゼロ代名詞 φガ FIT2006 9,6,2006 述語 やめるように 述語 言った。 11 文の構造の表現(Cont’d) 先行詞 ジョンに ゼロ代名詞 φガ 述語 やめるように 述語 言った。 内容語の情報を削除 機能語をノードの子にする 木構造から統語パタンを学習 先行詞 に ゼロ代名詞 述語 よう FIT2006 9,6,2006 に 述語 た 。 12 トーナメントモデルで利用する構造 2つの候補とゼロ代名詞の関係を学習 左の候補 メアリは 右の候補 ジョンに ゼロ代名詞 φガ 述語 やめるように 述語 言った。 (TL) 左の候補 ゼロ代名詞 述語 (TR) 右の候補 ゼロ代名詞 (TI) 述語 左の候補 述語 右の候補 述語 述語 FIT2006 9,6,2006 13 最終的に利用する訓練事例 先行詞同定 ラベル:左側が先行詞 +1 右側が先行詞 -1 root … TL TR TI f1 … fn 先行詞候補とゼロ代名詞の 関係を表す素性 2つの先行詞候補と ゼロ代名詞の間の部分木 照応性判定 f2 ラベル:φが文内に先行詞を持つ +1 φが文内に先行詞を持たない -1 root … T 最尤先行詞候補と ゼロ代名詞の間の部分木 f1 f2 … fn 先行詞候補とゼロ代名詞の 関係を表す素性 FIT2006 9,6,2006 14 統語パタンの学習 カーネル法に基づく手法 Tree Kernel (Collins and Duffy 01) Hierarchical DAG Kernel (鈴木ら 05) ブースティングに基づく手法 分類に寄与する部分構造をdecision stumpを弱 学習器としたブースティング(工藤ら 04) FIT2006 9,6,2006 15 目次 1. ゼロ照応解析 2. 先行研究 3. 文の構造情報を利用した解析手法 4. 評価実験と考察 5. まとめと今後の課題 FIT2006 9,6,2006 16 評価実験 日本語新聞記事中の文内ゼロ照応解析の問題 新聞記事コーパスに照応関係タグを付与 (http://cl.naist.jp/~ryu-i/coreference_tag.html) 訓練用 パラメタ推定用 評価用 文章数 137 60 150 事例数 1,229 846 1,104 文内に先行詞を持つ事例: 524 (全体の47.5%) 再現率= 適切にゼロ照応の関係を同定できた個数 文内に先行詞を持つゼロ代名詞の個数 適切にゼロ照応の関係を同定できた個数 精度= システムが文内に先行詞を持つと出力したゼロ代名詞の個数 FIT2006 9,6,2006 17 評価実験 5分割交差検定(ガ格のみを対象に) あらかじめ教える情報: ゼロ代名詞の出現位置 述語と係り関係にある格関係,連体修飾の関係 対象となるゼロ代名詞以外の箇所のゼロ照応関係 (他の箇所をうまく解析できた場合の上限を見る) 比較する4つのモデル Ng and Cardie (02) (ベースラインモデル) ゼロ代名詞に対してある先行詞候補がゼロ照応関係にあるか否かを分類 照応性判定の問題は候補探索の副作用として解く Ng and Cardie (02)のモデル 探索先行分 類型モデル 統語パタンを利用しない BM_ORG SCM_ORG ゼロ代名詞と先行詞候補の間の木構造を利用 BM_TREE SCM_TREE FIT2006 9,6,2006 18 文内ゼロ照応の先行詞同定の結果 パタンを利用しない 木構造を利用 Ng and Cardie (02)のモデル 探索先行分類型モデル 0.523 (274/524) 0.656 (344/524) 0.712 (373/524) 0.740 (388/524) どちらのモデルに関しても部分構造から統語パタンを 学習することにより先行詞同定の精度が向上 すでに解析精度の良い探索先行分類型モデルに 関しても約3ポイントの向上 FIT2006 9,6,2006 19 文内ゼロ照応の解析結果 先行詞同定 + 照応性判定 の再現率-精度曲線 Ng and Cardie (02)のモデル パタンを利用しない(BM_ORG) 木構造(BM_TREE) BM_TREE BM_ORG FIT2006 9,6,2006 20 文内ゼロ照応の解析結果 先行詞同定 + 照応性判定 の再現率-精度曲線 Ng and Cardie (02)のモデル 探索先行分 類型モデル パタンを利用しない(BM_ORG) 木構造(BM_TREE) パタンを利用しない(SCM_ORG) 木構造(SCM_TREE) SCM_TREE SCM_ORG BM_TREE BM_ORG FIT2006 9,6,2006 21 誤り分析(文内のゼロ照応解析) 文内に直接引用を含む場合に解析を誤る場合が多い 「選手はそのときの経験を生かしてくれた。(φiガ)言 わなくても分かっていた」と古前田監督i。 緑色の候補: システムが出力した先行詞 赤色の候補: φiの先行詞 文の中に異なる談話が埋め込まれる 文間ゼロ照応の問題に近い 談話の構造を考えなければならない FIT2006 9,6,2006 22 まとめ 文の統語的なパタンを学習し,そのパタンを分類に利 用するゼロ照応解析モデルを提案した 先行詞同定,照応性判定それぞれで既存手法より 解析精度が向上することを示した FIT2006 9,6,2006 23 今後の課題 Kernel法を用いた場合との比較 Tree Kernel (Collinsら 01)や HDAG Kernel(鈴木ら 05) 文間ゼロ照応の解析に取り組む 引用の中の現象を参考に 述語項構造解析 格解析や連体修飾の解析との統合 FIT2006 9,6,2006 24 FIT2006 9,6,2006 25 タグの一致率 ゼロ代名詞タグ付与の一致率を調査 二人の作業者が137記事を対象にタグ付与 ガ格のみ:作業者の一致率 84.6% (1670/1975) FIT2006 9,6,2006 26 ゼロ照応解析全体の解析手順 文内と文間を2段階で解析 先行詞 候補集合 村山富市首相 八日 文内ゼロ照応 解析モデル scoreintra≧θintra 超党派 scoreintra<θintra 独自 社会党 … ゼロ 代名詞 文間ゼロ照応 解析モデル φ 文内の最尤 先行詞候補 NPiを先行詞 に決定 scoreinter≧θinter scoreinter<θinter 文間の最尤 先行詞候補 NPjを先行詞 に決定 照応性なし (φは外界照応) FIT2006 9,6,2006 27 全体の解析結果 θintraとθinterを変動させて再現率-精度曲線を描く 緑色の線: 文内と文間を区別し ない探索先行分類型モデル (統語パタンは学習しない) 赤色の線: 提案手法 -0.007 0.006 0.008 0.011 θintra= 0.004 0.001 0.013 0.017 0.024 閾値をうまく推定することで既 存手法より精度が向上 FIT2006 9,6,2006 28 推定した閾値を利用して得られた実験結果 再現率 0.426 (223/524) 精度 0.308 (223/724) F値 0.357 BM PATH 0.439 (230/524) 0.311 (230/740) 0.364 BM TREE 0.573 (300/524) 0.382 (300/786) 0.458 SCM ORG 0.536 (280/524) 0.580 (280/483) 0.557 SCM PATH 0.600 (314/524) 0.494 (314/636) 0.542 SCM TREE 0.649 (339/524) 0.577 (339/588) 0.610 BM ORG FIT2006 9,6,2006 29 文内ゼロ照応の先行詞同定の結果 パタンを利用しない パスを利用 木構造を利用 Ng and Cardie (02)のモデル 探索先行分類型モデル 0.523 (274/524) 0.536 (281/524) 0.656 (344/524) 0.712 (373/524) 0.693 (363/524) 0.714 (388/524) Ng and Cardie のモデル 「パタンを利用しない パスを利用 木構造を利用」の 順で解析精度が向上 探索先行分類型モデル 「パタンを利用しない 木構造を利用」で解析精度の向上 機能語を含む部分構造から統語パタンを学習することにより 先行詞同定の精度が向上 FIT2006 9,6,2006 30 文内ゼロ照応の解析結果 先行詞同定 + 照応性判定 の再現率-精度曲線 Ng and Cardie (02)のモデル 探索先行分 類型モデル FIT2006 9,6,2006 パタンを利用しない パス 木構造 パタンを利用しない パス 木構造 31
© Copyright 2024 ExpyDoc