並列 構造に着目した係り受け解析の改善に関する研究

並列構造に着目した係り受け解
析の改善に関する研究
H20805m 認知科学専攻 毛受義晴
2015/9/30
1
発表の流れ
1. 研究の背景
– 係り受け解析器CaboChaについて
2.
3.
4.
5.
研究の目的
京都大学テキストコーパスについて
CaboChaのアルゴリズムと問題点
提案手法
– 並列構造のパターン
– 部分並列構造のアルゴリズム
6. 評価実験
– 実験設定
– 結果
7. 考察
8. まとめ
2015/9/30
2
研究の背景
• Web、書籍などのテキスト情報が膨大な量
• テキスト情報を整理、検索する技術が必要
係り受け解析
– 要約や情報抽出の基礎技術のひとつ
– 文を構成する要素(格,述語)の係り受けを判定
– 既存の係り受け解析器
• KNP-3.01 (京都大学)
• CaboCha-0.53 (奈良先端科学技術大学院大学)
– 学習データは京都大学テキストコーパス
2015/9/30
3
研究の背景
• CaboChaについて
– バックトラックしない決定的な係り受け解析器
– 係り判定には機械学習
– CaboChaのバージョン
• メジャー版 (CaboCha-0.53)
• 最新版
(CaboCha-0.60Pre4)
• 「CaboCha-0.53」と「CaboCha-0.60Pre4」の比較
2015/9/30
CaboCha-0.53
CaboCha-0.60Pre4
形態素解析器
ChaSen
MeCab
モデル性能
依存、並列、同格
依存
係り精度(教科書)
86.7%
87.2%
4
研究の目的
• 係り精度の向上
– 係り受け解析器CaboChaの解析失敗を分析
– 分析を元に係り受け改善パターンを作成
→並列構造、部分並列構造に着目
– 小学校、中学校の国語教科書を評価対象
2015/9/30
5
発表の流れ
1. 研究の背景
– 係り受け解析器CaboChaについて
2.
3.
4.
5.
研究の目的
京都大学テキスコーパスについて
CaboChaのアルゴリズムと問題点
提案手法
– 並列構造のパターン
– 部分並列構造のアルゴリズム
6. 評価実験
– 実験設定
– 結果
7. 考察
8. まとめ
2015/9/30
6
京都大学テキストコーパスについて
• 京都大学テキストコーパス(2007年)
– 毎日新聞 95年度(社説、記事あわせて約4万文)
– 文節に分割され、それらの係り先、係り関係が付与
• 依存(D)
• 並列(P)
• 同格(A)
• 部分並列(I)
2015/9/30
7
京大コーパスが扱う関係
• 依存関係(D)
– 項・述語関係と修飾・被修飾関係を表す
例)
私は 日本の 車を 持っている
D
D
D
• 同格関係(A)
– 依存関係でなく、意味的に同じ対象を表す
– 本研究では対象としない
例)
プログラマー 40人が ストライキを した
A
2015/9/30
8
京大コーパスが扱う関係
• 並列構造(P)
– 語と語や句と句が等位な関係である構造
例)
太郎と 次郎が 参加をした。
P
– 述語同士の並列関係は本研究では対象としない
例)
チーズを 食べ、 ビールを 飲んだ
P
2015/9/30
9
京大コーパスが扱う関係
・ 部分並列構造(I)
共有する述語によって束ねられた等位構造
本来なら係り受け関係にない文節同士を結びつける
例)
お爺さんは山へ柴刈りに、お婆さんは川へ洗濯に行きました。
お爺さんは 山へ 柴刈りに、 お婆さんは 川へ 洗濯に 行きました。
I
I
2015/9/30
I
I
P
D
10
発表の流れ
1. 研究の背景
– 係り受け解析器CaboChaについて
2.
3.
4.
5.
研究の目的
京都大学テキスコーパスについて
CaboChaのアルゴリズムと問題点
提案手法
– 並列構造のパターン
– 部分並列構造のアルゴリズム
6. 評価実験
– 実験設定
– 結果
7. 考察
8. まとめ
2015/9/30
11
CaboChaのアルゴリズム
• CaboChaの解析フロー
例文 彼は彼女の温かい真心に感動した
形態素解析
彼
は
彼女
の
温かい
真心
に
感動
し
た
チャンキング
彼は
彼女の
温かい
真心に
感動した
真心に
感動した
係り受け解析
彼は
2015/9/30
彼女の
温かい
12
CaboChaのアルゴリズム
彼は 彼女の 温かい 真心に 感動した
タグ
O
O
O
D
O
O
彼は 彼女の 真心に 感動した
タグ O
彼は
タグ O
彼は
タグ
2015/9/30
O
D
DO
真心に
O
D
感動した
O
O
感動した
O
O
CaboChaの問題点
• CaboChaの解析プロセス
例文 彼は彼女の温かい真心に感動した
形態素解析
彼
は
彼女
の
温かい
真心
に
感動
し
た
チャンキング
彼は
彼女の
温かい
真心に
感動した
真心に
感動した
係り受け解析
彼は
2015/9/30
彼女の
温かい
14
CaboChaの問題点
• CaboChaの問題点
1. 主題を表す係助詞「は・も」を含む文節の係り先
-正しい係り
-誤った係り
-修正した係り
例文)
当時の人々は、同じ場所に、長い間定住生活をしていた事が分かる
当時の
2015/9/30
人々は、
同じ
場所に、
長い間
定住生活を
していた
事が
分かる。
15
CaboChaの問題点
• CaboChaの問題点
2. 並列構造の学習不足
-正しい係り
-誤った係り
-修正した係り
例文)
その周りには四つか六つの丸い影が必ずあるのです。
P
その 周りには 四つか
六つの
丸い
影が
必ず あるのです。
並列構造
2015/9/30
16
CaboChaの問題点の原因分析
• 局所的な構造に限定したアルゴリズム
• 2文節間の情報で係り判定をしている
• 2文節間の係り判定だけでは解析に失敗する構造がある
→CaboChaの結果に対し、大局的な情報を
用いて修正を行う( 2パス)
– 部分並列構造の検出
– 係助詞を持つ主題文節の係り先の修正
• 新聞記事にチューニングした係り判定器
→特に並列構造に着目し、改善パターンを
作成
2015/9/30
17
発表の流れ
1. 研究の背景
– 係り受け解析器CaboChaについて
2.
3.
4.
5.
研究の目的
京都大学テキスコーパスについて
CaboChaのアルゴリズムと問題点
提案手法
– 並列構造のパターン
– 部分並列構造のアルゴリズム
6. 評価実験
– 実験設定
– 結果
7. 考察
8. まとめ
2015/9/30
18
提案手法
• CaboCha-0.60に結果に対して修正を行う
係り受け解析
(CaboCha 0.60 Pre4)
入力文
解析結果
係り受けの修正
(提案部分)
2015/9/30
改良した解析
結果の出力
19
提案手法
• 並列構造の修正パターン
– 並立助詞
• 「か」「や」「と」「とか」
例) 牛や 馬は 哺乳類です。
P
– 接続助詞(並立助詞)
• 「~たり」(~だり)
例)昨夜は食べたり、飲んだりした。
– 名詞+読点
P
例)花子は鉛筆、 筆箱、 キャップを貰った
2015/9/30
P
P
20
提案手法
• 部分並列構造:大局的な情報が必要な構造
[CaboCha0.60の係り受け解析結果]
お小遣いを 太郎は 600円、 次郎は 800円 貰った。
共有する述語
[新しい係り受け結果]
お小遣いを 太郎は 600円、 次郎は 800円 貰った。
D
2015/9/30
I
P
I
D
21
提案手法
• 部分並列構造検出アルゴリズム(簡略版)
i=0
1
2
3
4
5
3
4
5
お小遣いを 太郎は 600円、 次郎は 800円 貰った。
j
– 先頭から「読点」を含む文節を探す
– 「読点」を含む文節をjとする
i=0
1
2
お小遣いを 太郎は 600円、 次郎は 800円 貰った。
k
–
–
–
–
j
I
m
I
z
jの前後に「係助詞・格助詞」を含む文節を探しk,mとする
P
類似するk,mが見つかった場合は、jと類似する文節をmより後方で探し、zとする
類似性は文節を構成する形態素の一致パターンで判断
kとj,mとzの間をI関係、jとzの間をP関係で結ぶ
発表の流れ
1. 研究の背景
– 係り受け解析器CaboChaについて
2.
3.
4.
5.
研究の目的
京都大学テキスコーパスについて
CaboChaのアルゴリズムと問題点
提案手法
– 並列構造のパターン
– 部分並列構造のアルゴリズム
6. 評価実験
– 実験設定
– 結果
7. 考察
8. まとめ
2015/9/30
23
評価実験
• 実験環境
– Ubuntu Linux 8.04
– Ruby 1.8.6
– Mecab -0.97(ChaboCha0.60)
– ChaSen-2.3(CaboCha0.53)
• 実験設定
– 評価データ
• 小学校,中学校の国語教科書、26タイトル、1,100文
• 対象とする係り関係は依存関係、並列関係、部分並列関係
– 使用する解析器
• CaboCha0.60Pre4
• CaboCha0.53
2015/9/30
24
評価実験
• 評価基準
– 係り先と係り関係の両方が一致したら正解とする
– 係り関係は依存関係、並列関係、部分並列関係とする
2015/9/30
25
評価実験
• 結果
– 京都大学テキストコーパス
総係り数
精度
文正解率
CaboCha-0.53
208,695
85.6%
45.6%
CaboCha-0.53+P
208,695
90.7%
59.8%
CaboCha-0.60
236,453
86.1%
46.0%
CaboCha-0.60+提案手法
236,453
88.1%
49.9%
– 国語教科書
2015/9/30
総係り数
係り精度
文正解率
CaboCha-0.53
7,187
86.7%
48.2%
CoboCha-0.53 P
7,187
89.0%
53.5%
CoboCha-0.60
8,581
87.2%
49.2%
CaboCha-0.60 +提案手法
8,581
90.1%
56.9%
26
考察
• 解析の失敗例1
– 並列構造の見直しが必要
• 並列構造に対するパターンでは意味的な類似性を考慮し
ていない
→「缶ビールや」に近い「缶に」に係る
P
缶ビールや 缶に 入った お酒に、 「ビール」「おさけ」などと点字で書かれているのを見たこ
とがある人も居るでしょう。
2015/9/30
27
考察
• 解析の失敗例2
– 部分並列の検出
– 読点を含む文節(テレフォンカード)とその対になる文
節(乗り物)の間に並列構造があるため、アルゴリズ
ムでは「乗り物」を検出できないP
I
I
さらに、丸い切り込みは テレフォンカード、
三角は
電車や
バスなどの 乗り物、
P
四角は 買い物のカードと、
切り込みの形によって種類が区別できるようになっています。
I
2015/9/30
28
まとめ
• 係り受け解析を2段階
– CaboChaの間違いに基づいたパターンにより、並列構
造の係り受けを改善
– 大局的な情報を用いた部分並列構造の検出
• 国語教科書を対象にした評価実験では精度が
3%向上
2015/9/30
29
今後の課題
• 主題を表す係助詞を含む文節の係り受けの改善
• 並列構造の範囲の推定
• 部分並列構造のアルゴリズムの改良
• 提案手法を取り入れた解析の失敗を分析し、新し
いパターンの追加
• 同格関係の推定を対応
2015/9/30
30
ありがとうございます
2015/9/30
31
補足スライド
2015/9/30
32
KNP-3.01と提案手法の比較
解析対象:教科書
総係り数
精度
KNP-3.01
5,943
8,581
89.6%
90.1%
CaboCha0.60+P
(提案手法)
•KNP3.01より0.5%精度が高い
評価実験
• 並列構造の分布
P
割合
総係り数
476
8,581
正解になった並列
の係り数
250
2.9%
正解にならなかっ
た並列の係り数
226
2.6%
• 部分並列構造の分布
部分並列構造
2015/9/30
文数
正解した文数 割合
7文
1文
0.6%
34
実験で用いた類似度の判定
• 文節を構成する形態素の一致度を用いる
例) 6月に 1200万円、 8月に 全体の 60% 達成する
1200
万
円
名詞-数
名詞-数
名詞-接尾-助数詞
類似パターン
1. 名詞-数 + 名詞-数
2. 名詞-数 + 名詞-接尾-助数詞
2015/9/30
60
名詞-数
%
名詞-接尾-助数詞
類似パターン
1. 名詞-数 + 名詞-接
尾-助数詞
35