並列構造に着目した係り受け解 析の改善に関する研究 H20805m 認知科学専攻 毛受義晴 2015/9/30 1 発表の流れ 1. 研究の背景 – 係り受け解析器CaboChaについて 2. 3. 4. 5. 研究の目的 京都大学テキストコーパスについて CaboChaのアルゴリズムと問題点 提案手法 – 並列構造のパターン – 部分並列構造のアルゴリズム 6. 評価実験 – 実験設定 – 結果 7. 考察 8. まとめ 2015/9/30 2 研究の背景 • Web、書籍などのテキスト情報が膨大な量 • テキスト情報を整理、検索する技術が必要 係り受け解析 – 要約や情報抽出の基礎技術のひとつ – 文を構成する要素(格,述語)の係り受けを判定 – 既存の係り受け解析器 • KNP-3.01 (京都大学) • CaboCha-0.53 (奈良先端科学技術大学院大学) – 学習データは京都大学テキストコーパス 2015/9/30 3 研究の背景 • CaboChaについて – バックトラックしない決定的な係り受け解析器 – 係り判定には機械学習 – CaboChaのバージョン • メジャー版 (CaboCha-0.53) • 最新版 (CaboCha-0.60Pre4) • 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較 2015/9/30 CaboCha-0.53 CaboCha-0.60Pre4 形態素解析器 ChaSen MeCab モデル性能 依存、並列、同格 依存 係り精度(教科書) 86.7% 87.2% 4 研究の目的 • 係り精度の向上 – 係り受け解析器CaboChaの解析失敗を分析 – 分析を元に係り受け改善パターンを作成 →並列構造、部分並列構造に着目 – 小学校、中学校の国語教科書を評価対象 2015/9/30 5 発表の流れ 1. 研究の背景 – 係り受け解析器CaboChaについて 2. 3. 4. 5. 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 – 並列構造のパターン – 部分並列構造のアルゴリズム 6. 評価実験 – 実験設定 – 結果 7. 考察 8. まとめ 2015/9/30 6 京都大学テキストコーパスについて • 京都大学テキストコーパス(2007年) – 毎日新聞 95年度(社説、記事あわせて約4万文) – 文節に分割され、それらの係り先、係り関係が付与 • 依存(D) • 並列(P) • 同格(A) • 部分並列(I) 2015/9/30 7 京大コーパスが扱う関係 • 依存関係(D) – 項・述語関係と修飾・被修飾関係を表す 例) 私は 日本の 車を 持っている D D D • 同格関係(A) – 依存関係でなく、意味的に同じ対象を表す – 本研究では対象としない 例) プログラマー 40人が ストライキを した A 2015/9/30 8 京大コーパスが扱う関係 • 並列構造(P) – 語と語や句と句が等位な関係である構造 例) 太郎と 次郎が 参加をした。 P – 述語同士の並列関係は本研究では対象としない 例) チーズを 食べ、 ビールを 飲んだ P 2015/9/30 9 京大コーパスが扱う関係 ・ 部分並列構造(I) 共有する述語によって束ねられた等位構造 本来なら係り受け関係にない文節同士を結びつける 例) お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。 お爺さんは 山へ 柴刈りに、 お婆さんは 川へ 洗濯に 行きました。 I I 2015/9/30 I I P D 10 発表の流れ 1. 研究の背景 – 係り受け解析器CaboChaについて 2. 3. 4. 5. 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 – 並列構造のパターン – 部分並列構造のアルゴリズム 6. 評価実験 – 実験設定 – 結果 7. 考察 8. まとめ 2015/9/30 11 CaboChaのアルゴリズム • CaboChaの解析フロー 例文 彼は彼女の温かい真心に感動した 形態素解析 彼 は 彼女 の 温かい 真心 に 感動 し た チャンキング 彼は 彼女の 温かい 真心に 感動した 真心に 感動した 係り受け解析 彼は 2015/9/30 彼女の 温かい 12 CaboChaのアルゴリズム 彼は 彼女の 温かい 真心に 感動した タグ O O O D O O 彼は 彼女の 真心に 感動した タグ O 彼は タグ O 彼は タグ 2015/9/30 O D DO 真心に O D 感動した O O 感動した O O CaboChaの問題点 • CaboChaの解析プロセス 例文 彼は彼女の温かい真心に感動した 形態素解析 彼 は 彼女 の 温かい 真心 に 感動 し た チャンキング 彼は 彼女の 温かい 真心に 感動した 真心に 感動した 係り受け解析 彼は 2015/9/30 彼女の 温かい 14 CaboChaの問題点 • CaboChaの問題点 1. 主題を表す係助詞「は・も」を含む文節の係り先 -正しい係り -誤った係り -修正した係り 例文) 当時の人々は、同じ場所に、長い間定住生活をしていた事が分かる 当時の 2015/9/30 人々は、 同じ 場所に、 長い間 定住生活を していた 事が 分かる。 15 CaboChaの問題点 • CaboChaの問題点 2. 並列構造の学習不足 -正しい係り -誤った係り -修正した係り 例文) その周りには四つか六つの丸い影が必ずあるのです。 P その 周りには 四つか 六つの 丸い 影が 必ず あるのです。 並列構造 2015/9/30 16 CaboChaの問題点の原因分析 • 局所的な構造に限定したアルゴリズム • 2文節間の情報で係り判定をしている • 2文節間の係り判定だけでは解析に失敗する構造がある →CaboChaの結果に対し、大局的な情報を 用いて修正を行う( 2パス) – 部分並列構造の検出 – 係助詞を持つ主題文節の係り先の修正 • 新聞記事にチューニングした係り判定器 →特に並列構造に着目し、改善パターンを 作成 2015/9/30 17 発表の流れ 1. 研究の背景 – 係り受け解析器CaboChaについて 2. 3. 4. 5. 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 – 並列構造のパターン – 部分並列構造のアルゴリズム 6. 評価実験 – 実験設定 – 結果 7. 考察 8. まとめ 2015/9/30 18 提案手法 • CaboCha-0.60に結果に対して修正を行う 係り受け解析 (CaboCha 0.60 Pre4) 入力文 解析結果 係り受けの修正 (提案部分) 2015/9/30 改良した解析 結果の出力 19 提案手法 • 並列構造の修正パターン – 並立助詞 • 「か」「や」「と」「とか」 例) 牛や 馬は 哺乳類です。 P – 接続助詞(並立助詞) • 「~たり」(~だり) 例)昨夜は食べたり、飲んだりした。 – 名詞+読点 P 例)花子は鉛筆、 筆箱、 キャップを貰った 2015/9/30 P P 20 提案手法 • 部分並列構造:大局的な情報が必要な構造 [CaboCha0.60の係り受け解析結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 共有する述語 [新しい係り受け結果] お小遣いを 太郎は 600円、 次郎は 800円 貰った。 D 2015/9/30 I P I D 21 提案手法 • 部分並列構造検出アルゴリズム(簡略版) i=0 1 2 3 4 5 3 4 5 お小遣いを 太郎は 600円、 次郎は 800円 貰った。 j – 先頭から「読点」を含む文節を探す – 「読点」を含む文節をjとする i=0 1 2 お小遣いを 太郎は 600円、 次郎は 800円 貰った。 k – – – – j I m I z jの前後に「係助詞・格助詞」を含む文節を探しk,mとする P 類似するk,mが見つかった場合は、jと類似する文節をmより後方で探し、zとする 類似性は文節を構成する形態素の一致パターンで判断 kとj,mとzの間をI関係、jとzの間をP関係で結ぶ 発表の流れ 1. 研究の背景 – 係り受け解析器CaboChaについて 2. 3. 4. 5. 研究の目的 京都大学テキスコーパスについて CaboChaのアルゴリズムと問題点 提案手法 – 並列構造のパターン – 部分並列構造のアルゴリズム 6. 評価実験 – 実験設定 – 結果 7. 考察 8. まとめ 2015/9/30 23 評価実験 • 実験環境 – Ubuntu Linux 8.04 – Ruby 1.8.6 – Mecab -0.97(ChaboCha0.60) – ChaSen-2.3(CaboCha0.53) • 実験設定 – 評価データ • 小学校,中学校の国語教科書、26タイトル、1,100文 • 対象とする係り関係は依存関係、並列関係、部分並列関係 – 使用する解析器 • CaboCha0.60Pre4 • CaboCha0.53 2015/9/30 24 評価実験 • 評価基準 – 係り先と係り関係の両方が一致したら正解とする – 係り関係は依存関係、並列関係、部分並列関係とする 2015/9/30 25 評価実験 • 結果 – 京都大学テキストコーパス 総係り数 精度 文正解率 CaboCha-0.53 208,695 85.6% 45.6% CaboCha-0.53+P 208,695 90.7% 59.8% CaboCha-0.60 236,453 86.1% 46.0% CaboCha-0.60+提案手法 236,453 88.1% 49.9% – 国語教科書 2015/9/30 総係り数 係り精度 文正解率 CaboCha-0.53 7,187 86.7% 48.2% CoboCha-0.53 P 7,187 89.0% 53.5% CoboCha-0.60 8,581 87.2% 49.2% CaboCha-0.60 +提案手法 8,581 90.1% 56.9% 26 考察 • 解析の失敗例1 – 並列構造の見直しが必要 • 並列構造に対するパターンでは意味的な類似性を考慮し ていない →「缶ビールや」に近い「缶に」に係る P 缶ビールや 缶に 入った お酒に、 「ビール」「おさけ」などと点字で書かれているのを見たこ とがある人も居るでしょう。 2015/9/30 27 考察 • 解析の失敗例2 – 部分並列の検出 – 読点を含む文節(テレフォンカード)とその対になる文 節(乗り物)の間に並列構造があるため、アルゴリズ ムでは「乗り物」を検出できないP I I さらに、丸い切り込みは テレフォンカード、 三角は 電車や バスなどの 乗り物、 P 四角は 買い物のカードと、 切り込みの形によって種類が区別できるようになっています。 I 2015/9/30 28 まとめ • 係り受け解析を2段階 – CaboChaの間違いに基づいたパターンにより、並列構 造の係り受けを改善 – 大局的な情報を用いた部分並列構造の検出 • 国語教科書を対象にした評価実験では精度が 3%向上 2015/9/30 29 今後の課題 • 主題を表す係助詞を含む文節の係り受けの改善 • 並列構造の範囲の推定 • 部分並列構造のアルゴリズムの改良 • 提案手法を取り入れた解析の失敗を分析し、新し いパターンの追加 • 同格関係の推定を対応 2015/9/30 30 ありがとうございます 2015/9/30 31 補足スライド 2015/9/30 32 KNP-3.01と提案手法の比較 解析対象:教科書 総係り数 精度 KNP-3.01 5,943 8,581 89.6% 90.1% CaboCha0.60+P (提案手法) •KNP3.01より0.5%精度が高い 評価実験 • 並列構造の分布 P 割合 総係り数 476 8,581 正解になった並列 の係り数 250 2.9% 正解にならなかっ た並列の係り数 226 2.6% • 部分並列構造の分布 部分並列構造 2015/9/30 文数 正解した文数 割合 7文 1文 0.6% 34 実験で用いた類似度の判定 • 文節を構成する形態素の一致度を用いる 例) 6月に 1200万円、 8月に 全体の 60% 達成する 1200 万 円 名詞-数 名詞-数 名詞-接尾-助数詞 類似パターン 1. 名詞-数 + 名詞-数 2. 名詞-数 + 名詞-接尾-助数詞 2015/9/30 60 名詞-数 % 名詞-接尾-助数詞 類似パターン 1. 名詞-数 + 名詞-接 尾-助数詞 35
© Copyright 2025 ExpyDoc