事態性名詞の項構造解析における 共起尺度と構文パターンの有効性の分析 奈良先端科学技術大学院大学 情報科学研究科 小町守・飯田龍・乾健太郎・松本裕治 2007年3月20日 言語処理学会第13回年次大会 事態性名詞の項構造解析の目標 意味の同じ表現の認識 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ 2 事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場 ヲ の実態が把握できていないため打つ手がないの が実情。BISが昨年春から調査の手法について検 討していた。 ガ 管理(する) [ ガ:【文外】, ヲ:リスク ] 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞 項構造= 誰が、何を、どうする 種類 例 サ変名詞 管理 動詞由来の名詞 動き 3 事態を示す名詞 運動会 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) 1. 名詞の事態性判別 モノかコトか? 文中の名詞に事態性があるかどうか判別 2. 事態性名詞の項同定 誰ガ何ニどうする? 事態性のある名詞の項を同定 4 目次 はじめに 動詞と格要素の共起モデルの有効性 述語項構造解析モデルを利用した項同定 関連研究 まとめ 今後の予定 5 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 同一文節 ガ 係り受け その他 文間 文外 総数 総数 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) ニ 43%(3%) 22%(88%) 24%(7%) 8%(3%) 0%(0%) 10%(3%) 0%(0%) 事態性名詞は述語と比べて文間に項が現れる割合が 多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報 6 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率 を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 P( v,c,n ) P( v,c | z)P(n | z)P(z) zZ 上司が推薦する が推薦する 上司 P( v,c,n ) PMI( v,c ,n) log P( v,c )P(n) 共起スコア=<v,c>とnの間の相互情報量 7 事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 日本,政府 日本,民間 政府,民間 政府,民間 政府,活性 ヲ 民間,活性 8 項と項以外の名詞の共起スコアの比較 全体の71.2%が 第2・第4象限 どのような事例が 含まれているのか? 第1・第3象限の事例は 共起スコアだけでは 決められない 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 項 の 共 起 ス コ ア 9 項以外の名詞の共起スコア 述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事 例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の 素性を用いて SVM による分類器を作成、第 1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞 記事1日分(137記事)を訓練データ・別の1日 分(150記事)をテストデータに使用 10 実験結果 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 素性 誤り個数 287(9.1%) 全ての素性を用いた場 合 303(9.7%) −語彙素性 320(10.2%) −共起素性 294(9.4%) −意味素性 376(12.0%) −構文素性 290(9.3%) −位置素性 1,696(44.2%) 共起素性のみを用いる 第一象限の項同定には構文素性と共起素性が有効 11 正しく解析できた事例 ガ インタファクス通信は五日夕、現地ロシア軍の高官の発言 として「首都総攻撃ではないが、戦闘は続いている」と伝え た。 ヲ ガ 精度 66.9 ヲ 81.2 ニ 76.3 (参考)トーナメントモデルでの各項の同定精度 12 誤り分析(1) 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名 詞)のガ格と一致 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。 述語と項を共有するような事態性名詞の出現パ ターンが存在 13 誤り分析(2) 係り受け関係にある項の間違い ロシアのチェチェン共和国に対する武力介入…… 「の→ガ」「に対する→ニ」という格の交替 誤りのタイプ 動詞と項を共有 格の交替がある 複合名詞内の項 連体節内の項 AのBの形の項 遠く離れた係り受け 数 19 13 12 6 6 6 例 XガYニ迫られる チェチェン共和国に対する武力介入 安保理はガリ提案を検討 相手は経験の浅い柴田 育英は初出場の三本木農を破り 14 関連研究 事態性名詞の項構造解析のコーパス NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパ ス Penn TreeBank にタグづけ 文内の項に限定 京都テキストコーパス Version 4.0 [黒橋, 2005] 京都テキストコーパス全体の1/8にタグづけ 文を超えた項もタグ付与している 格助詞相当の表層格を網羅している 15 関連研究(2) 事態性名詞の項構造解析 NomBank に対する意味役割付与 [Jiang and Ng, 2006] 基本素性は述語の意味役割付与モデルを用いる 事態性名詞の素性も追加(Support verb) 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項 構造を包含) 事態性判別問題を扱っていない 16 まとめ 事態性名詞の項構造解析の問題設定 事態性名詞の項同定に向けた動詞と格要素 の共起モデルと構文情報の有効性を分析 17 今後の予定 共起モデルの効果的な使用方法の検討 項同定に有効な構文情報を組み込む 述語と事態性名詞が項を共有するパターンの辞書 を作成中 事態性名詞の項同定を行うシステムの作成 18
© Copyright 2024 ExpyDoc