事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成 松本研 研究会発表 2007年4月25日 奈良先端大(D1)小町守 事態性名詞の項構造解析の目標 意味の同じ表現の認識 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ 2 事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場 ヲ の実態が把握できていないため打つ手がないの が実情。BISが昨年春から調査の手法について検 討していた。 ガ 管理(する) [ ガ:【文外】, ヲ:リスク ] 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞 項構造= 誰が、何を、どうする 種類 例 サ変名詞 管理 動詞由来の名詞 動き 3 事態を示す名詞 運動会 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) 1. 名詞の事態性判別 モノかコトか? 文中の名詞に事態性があるかどうか判別 2. 事態性名詞の項同定 誰ガ何ニどうする? 事態性のある名詞の項を同定 4 目次 はじめに 動詞と格要素の共起モデルの有効性 述語項構造解析モデルを利用した項同定 関連研究 まとめ 今後の予定 5 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 同一文節 ガ 係り受け その他 文間 文外 総数 総数 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) ニ 43%(3%) 22%(88%) 24%(7%) 8%(3%) 0%(0%) 10%(3%) 0%(0%) 事態性名詞は述語と比べて文間に項が現れる割合が 多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報 6 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率 を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 P( v,c,n ) P( v,c | z)P(n | z)P(z) zZ 上司が推薦する が推薦する 上司 P( v,c,n ) PMI( v,c ,n) log P( v,c )P(n) 共起スコア=<v,c>とnの間の相互情報量 7 事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 日本,政府 日本,民間 政府,民間 政府,民間 政府,活性 ヲ 民間,活性 8 項と項以外の名詞の共起スコアの比較 全体の71.2%が 第2・第4象限 どのような事例が 含まれているのか? 第1・第3象限の事例は 共起スコアだけでは 決められない 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 項 の 共 起 ス コ ア 9 項以外の名詞の共起スコア 述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事 例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の 素性を用いて SVM による分類器を作成、第 1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞 記事1日分(137記事)を訓練データ・別の1日 分(150記事)をテストデータに使用 10 実験結果 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 素性 誤り個数 287(9.1%) 全ての素性を用いた場 合 303(9.7%) −語彙素性 320(10.2%) −共起素性 294(9.4%) −意味素性 376(12.0%) −構文素性 290(9.3%) −位置素性 1,696(44.2%) 共起素性のみを用いる 第一象限の項同定には構文素性と共起素性が有効 11 正しく解析できた事例 ガ インタファクス通信は五日夕、現地ロシア軍の高官の発言 として「首都総攻撃ではないが、戦闘は続いている」と伝え た。 ヲ 12 誤り分析(1) 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名 詞)のガ格と一致 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。 述語と項を共有するような事態性名詞の出現パ ターンが存在 13 誤り分析(2) 係り受け関係にある項の間違い ロシアのチェチェン共和国に対する武力介入…… 「の→ガ」「に対する→ニ」という格の交替 誤りのタイプ 動詞と項を共有 格の交替がある 複合名詞内の項 連体節内の項 AのBの形の項 遠く離れた係り受け 数 19 13 12 6 6 6 例 XガYニ迫られる チェチェン共和国に対する武力介入 安保理はガリ提案を検討 相手は経験の浅い柴田 育英は初出場の三本木農を破り 14 動詞と項を共有する事態性名詞 「WGが耐震性能の違いに検討を加える」 →WGが耐震性能の違いを検討する 精度の高いパターンで項をフィルターできる 15 事態性名詞と述語の項共有の統計 NAIST テキストコーパスの27,665事態性名詞 中6,015事例(21.7%)が動詞と項を共有 SがEをVする(65.4%) 「SがEを行う」:各自が検討を行う→各自が検討する SがEにVする(13.9%) 「SがEに入る」:彼が作業に入る→彼が作業する SがNにEをVする(6.3%) 「SがNにEを作る」:母が自分に料理を作る→母が料理する 16 述語パターンの辞書作成作業の流れ 「Xに合わせる」(X=希望・要望・変化・…) 出現していない格を補う 「AがBをXに合わせる」(たとえばA=彼、B=スタイル) 補った格で例文が言えるかチェック 述語ガ:「彼が希望する」「彼を希望する」「彼に希望する」 述語ヲ:「スタイルが合わせる」「スタイルを希望する」「ス タイルに希望する」 言えるパターンを辞書に登録 「Xに合わせる」:述語ガ→事態性名詞ガ 17 述語パターンの辞書の作成 対象: Web 5億文解析済みデータ 作業日数: 2人の作業者さんに合計1週間 作成済みパターン 見てもらったパターン: 事態性名詞が述語に係って いるパターンのうち、頻度の高いもの上位2,000個 対応がついたパターン: 1,120個 精度は0.80(693/866)再現率は0.12(693/6,015) 18 トーナメントモデルで項同定精度評価 トーナメントモデル[Iida et al., 2005]で項同定 (素性・データセットは前の実験と同じ) 辞書の述語パターンにマッチしたらトーナメン トせずに事態性名詞の項を決定 素性 ベースライン +パターン辞書 ガ 60.5 61.9 ヲ 79.7 79.7 ニ 73.0 76.2 +共起 +パターン辞書+共起 65.5 66.7 80.9 80.9 76.2 79.4 トーナメントモデルでの各項の同定精度 19 誤り分析 武双山が貴乃花の連勝を止めた。 正: 貴乃花が連勝する 誤: 武双山が連勝する 「Xを止める:述語ガ→事態性名詞ガ」にマッ チしてしまう 辞書の精度を上げる 近場に候補がある場合は近場の候補を選択する モデルにする 20 関連研究 事態性名詞の項構造解析のコーパス NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパ ス Penn TreeBank にタグづけ 文内の項に限定 京都テキストコーパス Version 4.0 [黒橋, 2005] 京都テキストコーパス全体の1/8にタグづけ 文を超えた項もタグ付与している 格助詞相当の表層格を網羅している 21 関連研究(2) 事態性名詞の項構造解析 NomBank に対する意味役割付与 [Jiang and Ng, 2006] 基本素性は述語の意味役割付与モデルを用いる 事態性名詞の素性も追加(Support verb) 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項 構造を包含) 事態性判別問題を扱っていない 22 まとめ 事態性名詞の項構造解析の問題設定 事態性名詞の項同定に向けた動詞と格要素 の共起モデルと構文情報の有効性を分析 述語と項を共有する事態性名詞を分析し、述 語のパターンに関するリソースを作成 23 今後の予定 共起モデルの効果的な使用方法の検討 共参照解析を行い、文間・文外の解析モデル を作成(特にガ格は文間・文外に全体の4割) 精度の高い述語パターンを利用して Web 5 億文から新たな事態性名詞を獲得 24
© Copyright 2025 ExpyDoc