動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析 奈良先端科学技術大学院大学 情報科学研究科自然言語処理学講座 小町守 事態性名詞の項構造解析の目標 意味の同じ表現の認識 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」 主節 能動態 名詞化 事態性名詞の項構造解析が必要 全て「原子爆弾がドームを破壊した」という事態を指す 事態の認識はテキスト要約・機械翻訳に役立つ 2 事態性名詞の項構造解析 ヲ ガ 【文外】 リスク管理の必要性が強く叫ばれているが、市場 ヲ の実態が把握できていないため打つ手がないの が実情。BISが昨年春から調査の手法について検 討していた。 ガ 管理(する) [ ガ:【文外】, ヲ:リスク ] 調査(する) [ ガ:BIS, ヲ:実態 ] 事態性名詞= 行為・状態・出来事を指す名詞 項構造= 誰が、何を、どうする 種類 例 サ変名詞 管理 動詞由来の名詞 動き 3 事態を示す名詞 運動会 事態性名詞の項構造解析のタスク設定 公衆電話で電話をすることがめっきり減った。 モノとしての電話 「XガYニ電話する」 というコト(事態) 1. 名詞の事態性判別 モノかコトか? 文中の名詞に事態性があるかどうか判別 2. 事態性名詞の項同定 誰ガ何ニどうする? 事態性のある名詞の項を同定 4 関連研究 事態性名詞の項構造解析のコーパス NomBank [Meyers et al., 2004] PropBank [Palmer et al., 2005] に従って英語のコーパ ス Penn TreeBank にタグづけ 文内の項に限定 名詞句の関係解析 名詞の格フレーム辞書の構築 [笹野ら, 2005] 一般的な日本語の名詞間の関係解析(事態性名詞の項 構造を包含) 事態性判別問題を扱っていない 5 目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節 6 事態性判別の方針 出現用例獲得 …に対する説得工作は失敗に… 辞書 名詞 名詞 リスト リスト 出現パターン …横にある椅子の取っ手を… …に対する説得工作は失敗に… 新聞 記事 …横にある椅子の取っ手を… 大量のデータから事態性名詞を含む 文構造を取得 7 事態性名詞の出現パターンの学習 ・・・ 説得 交渉 ・・・ 事態性あり ・・・ 椅子 机 ・・・ 事態性なし 正例 文節内 …説得工作は失敗に… 文節ごとに 表記・品詞・複合名詞 などフラットな木を作成 サ変 サ変 後文脈 …椅子の取っ手を… 負例 の 一般名詞 用例中の名詞の出現パターンを木構造に変換し、 部分木構造を用いたブースティング BACT [Kudo and Matsumoto, 2004] で学習 学習した部分木構造が出現パターンに相当 8 事態性判別実験 方法: Support Vector Machines を用いて名 詞の事態性を判別 評価:10分割交差検定 使った情報 意味的な情報 事態性名詞の意味クラス 文法的な情報 事態性名詞の周辺に項になりそうな名詞があるかどうか 新聞記事から獲得した事態性名詞の出現パターン(計算 量の問題から BACT は出現パターン獲得のみに使用) 9 事態性判別実験結果 精度 再現率 名詞の出現パターンなし 72.3% 58.7% 73.3% 80.2% 提案手法 新聞記事の事態性判別 精度=事態性があると分類された名詞の正解率 再現率=名詞のうち事態性を正しく判定できた率 新聞記事80記事(800文) 事態性名詞1,237個(うち590個が事態性ありの事例) 名詞の出現パターンを使うことで再現率が大幅に向上 10 目次 はじめに 事態性名詞の項構造解析 事態性名詞の事態性判定 事態性名詞の項同定 まとめ 今後の予定 第1節 第2節 第3節 第4節 11 述語・事態タグと項の出現位置の分布 NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語) 文内 同一文節 ガ 係り受け その他 文間 文外 総数 総数 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%) ヲ 50%(0%) 31%(84%) 10%(13%) ニ 43%(3%) 22%(88%) 24%(7%) 8%(3%) 0%(0%) 10%(3%) 0%(0%) 事態性名詞は述語と比べて文間に項が現れる割合が 多い [飯田ら, 2007] 述語のヲ格・ニ格は9割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内 係り受け以外の情報を用いた項同定 共起・構文情報 12 PLSI を用いた共起スコアの計算 Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率 を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮 P( v,c,n ) P( v,c | z)P(n | z)P(z) zZ 上司が推薦する が推薦する 上司 P( v,c,n ) PMI( v,c ,n) log P( v,c )P(n) 共起スコア=<v,c>とnの間の相互情報量 13 事態性名詞の項同定 項らしさを判定する分類器 入力: 項と文内の項以外の名詞をペアにして入力 出力: どちらがより項らしいか 日本政府による民間支援が活性化する。 支援(する) ガ 日本,政府 日本,民間 政府,民間 政府,民間 政府,活性 ヲ 民間,活性 14 項と項以外の名詞の共起スコアの比較 全体の71.2%が 第2・第4象限 どのような事例が 含まれているのか? 第1・第3象限の事例は 共起スコアだけでは 決められない 第2・第4象限の事例は 共起スコアの高い方が 項とした場合精度90.0% →共起のみでも分類可能 項 の 共 起 ス コ ア 15 項以外の名詞の共起スコア 述語項構造解析モデルを利用した実験 目的: 共起スコアだけでは項同定できない事 例にどのような問題があるか分析 方法: 述語項構造解析 [Iida et al., 2006] の 情報を用いて SVM による分類器を作成、第 1象限で分類を誤った事例を人手で分類 対象: NAIST テキストコーパス1.2βから新聞 記事1日分(137記事)を訓練データ・別の1日 分(150記事)をテストデータに使用 16 実験に用いた情報 日本政府による民間支援が活性化する。 情報 説明(例) 語彙情報 単語の表記 共起情報 動詞・格要素と名 詞の共起スコア 意味情報 固有表現かどうか 構文情報 文節内の品詞列 位置情報 名詞句の先頭(ま たは末尾)かどうか 事例 日本 <支援(する),ガ>, 日本 →2.80 固有名詞・地域(日本) 固有名詞-一般名詞-格 助詞(日本政府による) 1(日本政府による) 17 実験結果 新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132) 情報 誤り個数 287(9.1%) 全ての情報を用いた場 合 303(9.7%) −語彙情報 320(10.2%) −共起情報 294(9.4%) −意味情報 376(12.0%) −構文情報 290(9.3%) −位置情報 1,696(44.2%) 共起情報のみを用いる 第一象限の項同定には構文情報と共起情報が有効 18 誤り分析(1) 第一象限で誤った事例のうち 項のほうが共起スコアが低い事例 構文情報を正しく扱えていない(62/112) 「XガYニ迫られる」の「Xガ」はY(事態性名 詞)のガ格と一致 ドイツは……エリツィン政権に対する支援を続ける べきかどうか苦しい選択に迫られている。 述語と項を共有するような事態性名詞の出現パ ターンが存在 19 誤り分析(2) 係り受け関係にある項の間違い ロシアのチェチェン共和国に対する武力介入…… 「の→ガ」「に対する→ニ」という格の交替 誤りのタイプ 動詞と項を共有 格の交替がある 複合名詞内の項 連体節内の項 AのBの形の項 遠く離れた係り受け 数 19 13 12 6 6 6 例 XガYニ迫られる チェチェン共和国に対する武力介入 安保理はガリ提案を検討 相手は経験の浅い柴田 育英は初出場の三本木農を破り 20 まとめ 事態性名詞の項構造解析の問題設定 教師なしに獲得した名詞の出現パターンを用 いた事態性判別手法の提案 事態性名詞の項同定に向けた動詞と格要素 の共起モデルと構文情報の有効性を分析 21 今後の予定 共起モデルの効果的な使用方法 項同定に有効な構文情報を組み込む 事態性名詞の項同定を行うシステムの作成 22 23 研究背景 新人=彼 名詞 動詞 名詞 名詞 名詞 動詞 自然言語処理の基盤技術の発展 新人が来た。彼は上司が推薦した。 助詞 助動詞 助詞 ガ 単位 ヲ 助詞 助動詞 ツール ガ コーパス 京都テキスト コーパス 形態素解析 単語 ChaSen 構文解析 文節 CaboCha 意味解析 単語と文節 SynCha 談話解析 文 --- ①事態性名詞の 項構造解析器の開発 NAISTテキスト コーパス ②事態タグつき コーパスの作成 24 事態性名詞の項構造解析の応用 事態クラスタリング 同じ事態を指す(統語的には異なる)複数の表現を まとめてクラスタリング 事態性名詞を用いた情報検索における質問 拡張(query expansion) 同じ事態を指す動詞・名詞を用いてマッチを取る 文体変換 新聞記事を対話調に、口語体を論文風に 25 Web 5億文の共起スコアの分類性能 26 実験結果 新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640) 情報 誤り個数 476(3.5%) 全ての情報を用いた場 合 510(3.7%) −語彙情報 684(5.0%) −共起情報 510(3.7%) −意味情報 644(4.7%) −構文情報 700(5.1%) −位置情報 1,305(9.6%) 共起情報のみを用いる 項同定には位置情報と共起情報が有効 27
© Copyright 2024 ExpyDoc