文間の同等関係の認定法

文書横断文間関係の特定
奥村研究室
宮部 泰成
1
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめと今後の課題
2
研究背景

同じ一つのトピックについて書かれた異なる新聞記事中の文間には
様々な関係がある
「i-modeのサービス開始」に関するトピック
1:携帯電話による
情報提供サービス「iモード」
の契約件数が百万件を突破
したと発表した。
3:iモードは、情報配信から
チケット予約や通信販売など
の電子商取引までの多様な
サービスが売り物。
文書A
推移
同等
1:携帯電話による
情報提供サービス「iモード」
の契約件数が十八日で二百
万件を突破したと発表した。
3:「iモード」は、情報配信から
チケット予約や通信販売など
の電子商取引まで多様化した
サービスが売り物だ。
文書B
3
文書横断文間関係

文書横断文間関係



Radev[00]が提唱
24個の文書横断文間関係を定義
衛藤[05]が日本語の新聞記事に対し定義
14個の文書横断文間関係
例:異なる文書中の文間が同じ内容を表す「同等」
数値が変化している「推移」
同じ内容を詳しく述べる「詳細」
同じ内容を簡潔に述べる「簡略」

4
研究の目的

文書横断文間関係の特定は様々な分野において有用
 複数文書要約、QA、情報抽出
(例)テキスト間で同じ内容を述べていると認識できれば、
要約文を抽出するときに冗長な要約となるのを避ける
ことができる


「同等」、「推移」という2つの関係に着目
機械学習を用いて、文書横断文間関係の「同等」「推移」
の特定を目的
5
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめと今後の課題
6
機械学習に基づく「同等」の特定
1:第144臨時国会が
27日召集される。
2:会期は12月14日
までの18日間。
3:・・・・・


2つの文が「同
等」か否かを
特定する2値
分類問題
1:第144臨時国会が
27日開会した。
2:会期は来月14日
までの18日間。
3:・・・・・
文書A
文書B
2文が与えられたとき、「同等」か否かを特定する2値分類
問題
「同等」の特定規則の獲得は人手でなく機械学習を使用

学習器:Support Vector Machine
7
「同等」の特定における問題点(1/2)

問題点1:2つの文(S1,S2)の表層的類似度が高い「同等」や低い
「同等」が存在し、これらを一緒に扱うことは良くない
U1 U 2
cos(S1, S 2) 
| U1 |  | U 2 |
(U1はS1中の自立語(名詞、動詞、形容詞)の頻度ベクトル)
S1:成果は二日付の英科学誌「ネイチャー」に掲載される。
S2:この成果は2日発行の英科学誌「ネイチャー」に掲載される。
S1:ハイブリッド車の開発はトヨタ自動車が先行し、昨年12月に
「プリウス」を発売。
S2:トヨタは、他社に先駆けて1997年にHV「プリウス」を発売。
8
「同等」の特定における問題点(2/2)

問題点2:類似度がそれほど高くない「同等」は特定が困難
 「同等と似た関係」が存在する
 同じ内容を詳しく述べる「詳細」
 同じ内容を簡潔に述べる「簡略」
 「同等」の数が少ない
例:類似度がそれほど高くない文ペア(0.5<cos≦0.6)の各関係の数
「No Relation」 「同等」 「詳細」 「簡略」
4214個
61個 13個 15個
9
「同等」特定の問題点の解決策(1/2)


問題点1:類似度が高い「同等」や低い「同等」の存在
2つの文の類似度でクラスタに分ける
 表層的に大変類似しているクラスタ(upクラスタ)


自立語+機能語(助詞,助動詞)の連接レベルで類似
ある程度類似しているクラスタ


連接レベルで似ていない
負例が多いか少ないかで更に分ける


ある程度類似しているクラスタ(midクラスタ)
負例が多く特定が困難なクラスタ(downクラスタ)
10
クラスタ例
例1:表層的に大変類似しているクラスタの例
S1:成果は二日付の英科学誌「ネイチャー」に掲載される。
S2:この成果は2日発行の英科学誌「ネイチャー」に掲載
される。
例2:ある程度類似しているクラスタの例
S1:JRグループのダイヤが十三日改正され、東海道・
山陽新幹線に新型車両「700系」がデビューした。
S2:JR東海とJR西日本が共同で開発した新型新幹線
車両「700系」が、JRのダイヤ改正があった
十三日デビューした。
11
「同等」特定の問題点の解決策(2/2)
問題点2 :類似度が高くない「同等」は特定が困難


2段階の特定法(coarse-to-fine特定法)を用いる
(1):「同等」「簡略」「詳細」を1つの粗いクラス(coarseクラ
ス)にまとめて特定
(2):(1)で特定したcoarseクラスから「同等」のみ(fineクラ
ス)を特定
12
本研究のモデル
全データ(0<cos≦1)
連接レベルで似てるか
ある程度類似している
クラスタ(midクラスタ)
表層的に大変類似している
クラスタ(upクラスタ)
負例が多いか
負例が多く特定が困難な midクラスタ
クラスタ(downクラスタ)
「同等」
を特定
coarseクラス(「同等」「簡略」「詳細」)の特定
「同等」のみを特定
13
「同等」の特定で使用する素性


基本素性(14種類)

unigram類似度,bigram類似度,trigram類似度,

固有表現類似度,意味類似度

新聞記事の掲載日の差,文の位置,固有表現が係る
一致した格助詞,etc
fineクラスの特定で使用する素性(19種類)

基本素性

主題の一致

主動詞の一致,etc
14
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめ
15
「同等」特定の実験環境



コーパスとデータ
 テキスト自動要約タスク2,3、動向情報の抽出と可視化
のワークショップ
 文書横断文間関係が付与してある
 1文対1文で関係が付与されたデータのみ扱う
 471586 個の文ペアから798 個の「同等」を特定
評価尺度
 精度、再現率、F値
10分割交差検定で評価
16
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
6-1.閾値の推定
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめ
17
クラスタ分けの閾値の推定

閾値を推定するデータと評価


訓練データの10分割交差検定
閾値


「upクラスタ」と「midクラスタ」の閾値
「midクラスタ」と「downクラスタ」の閾値
0
downクラスタ
閾値
閾値
1
cos
midクラスタ upクラスタ
18
「upクラスタ」と「midクラスタ」の閾値の推定
(1/2)



2つのクラスタの違い
 自立語(名詞、動詞、形容詞)+機能語(助詞、格助詞)
の連接レベルで似ているかどうか
「midクラスタ」の特定
 bigram類似度素性を使用しない方が精度と再現率は
良くなると仮定
各閾値での精度と再現率を調べる
(1)14種の素性を使用したとき
(2)14種の素性からbigram素性を省いたとき
19
素性を省くことによって、精度と再現率が良く
なった例


閾値を1から0.01づつ減らしていく
bigram類似度以外の素性でも同様に調べる
閾値
0.9
0.89
0.88
0.87
0.86
省いて精度と再現率が良くなった素性
bigram類似度素
格助詞,文節類似度,意味類似度
性を省いて精度bigram類似度,格助詞
意味類似度,文末表現,
と再現率が初め
bigram類似度
て良くなるときを
掲載日の差,文書間類似度,文末表現,文の長さ,
閾値とする
格助詞,段落間類似度,文の位置,bigram類似度
格助詞,文書間類似度,bigram類似度
20
「midクラスタ」と「downクラスタ」の閾値の推
定(1/2)



コサイン類似度の値が減っていくにつれて
 「同等」の数は減っていく
 「同等」以外の関係の数が非常に多くなっていく
閾値を下げていくにつれて、特定が困難になる
「midクラスタ」のF 値が一番良くなる閾値が存在すると仮
定
21
「midクラスタ」と「downクラスタ」の閾値の推
定(2/2)

閾値を同様に0.01づつ減らしていき、各閾値で精
度、再現率、F値を調べる
閾値
精度
再現率
F値
0.59
0.58
0.57
0.56
52.92
15.05
最もF値が高いと
55.08
16.64
きを閾値とする
52.81
16.93
49.15
14.45
23.44
25.56
25.64
22.34
0.55
51.51
23.04
14.84
22
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
6-2.「同等」特定の実験結果
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめ
23
各モデルの説明

ベースライン


div


クラスタに分けない単純な学習モデル
旧Mixモデル(宮部[05])


推定した閾値でクラスタに分けて特定
Notdiv


コサイン類似度0.84以上を同等とみなす
0.5と0.7でクラスタに分けて、coarse-to-fine特定法を組み合わ
せたモデル
新Mixモデル

本モデル,推定した閾値でクラスタに分けて、coarse-to-fine特定
法を組み合わせたモデル
24
「同等」特定の実験結果
モデル
ベースライン
div
Notdiv
旧Mixモデル
新Mixモデル
精度
87.29
80.93
86.11
86.31
94.99
再現率
57.35
59.74
60.16
60.56
62.65
F値
69.22
68.63
70.84
71.18
75.50
新Mixモデルと旧Mixモデル
新MixモデルとNotdiv
p≦0:037、有意水
本研究のモデルが最
有意確率有意確率
p≦0:037、有意水
準5%で有意差がある も良いF値となった
準5%で有意差がある
25
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の実験結果
7.「推移」の特定手法
8.「推移」の実験結果
9.まとめ
26
「推移」特定において着目する点
「推移」


2文間で数値が変化している関係
下記の例の場合「推移」関係ではない

S1:4月の女性の完全失業率は逆に0・3ポイント改善し、
4・5%となった。
S2:完全失業率は3、4月に連続して4・8%を記録した。
例文の赤字の部分(数値を値として持つ名詞句)を抽出


係り受け情報を利用
27
「数値を値として持つ名詞句」の抽出
6月末の 携帯電話の 加入台数は 3407万7000台と なった。
1.数値表現(日付表現を除く)のある
句(数値句と呼ぶ)を探す
28
「数値を値として持つ名詞句」の抽出
6月末の 携帯電話の 加入台数は 3407万7000台と なった。
2.数値句が係る用言のある句(述句
と呼ぶ)を探す
29
「数値を値として持つ名詞句」の抽出
6月末の 携帯電話の 加入台数は 3407万7000台と なった。
3.述句に係る名詞句を探す(「数値
を値として持つ名詞句」になる)
30
「数値を値として持つ名詞句」の抽出
6月末の 携帯電話の 加入台数は 3407万7000台と なった。
4.日付表現を除いた「数値を値として持つ名詞句」に係
る句を探す。
係る句と「数値を値として持つ名詞句」合わせて「数値
を値として持つ名詞句」になる。
31
「推移」特定で使用する素性(20種類)
素性




「数値を値として持つ名詞句」の名詞の
unigram,bigram,trigram類似度
2文で数値が変化したかどうか
2文に相対表現(難波ら[05])があるかどうか,etc
(例)前年より10%増加
前日比210円安
32
「同等」特定結果の利用



「同等」関係である2文は、ほとんどの場合で「数値を値
として持つ名詞句」は似ている
S1:子羊の体重は二・七キロ。
S2:子羊の体重は2.7キログラム。
実際は「同等」であるのに,誤って「推移」と特定すること
が生じる可能性がある
本モデルが「同等」と特定した文ペアをデータから除いて
特定する
33
目次
1.研究・背景
2.文書横断文間関係
3.研究の目的
4.関連研究
5.「同等」の特定手法
6.「同等」の特定実験
7.「推移」の特定手法
8.「推移」の特定実験
9.まとめ
34
各モデルの説明(1/2)

ベースライン




数値を値として持つ名詞句の類似度0.7以上
数値が変化していて、2文に相対表現がある場合
562個の推移を特定
難波らの手法(難波ら[05])


2文のコサイン類似度0.42以上
2つの文の単位が等しく、2文に相対表現がある場合
35
各モデルの説明(2/2)



NotUseEqResult
 「同等」結果を利用しないで特定したモデル
UseEqResult
 「同等」結果を利用して特定した本研究のモデル
UseMan
 人手で付与された「同等」結果を利用して特定したモデ
ル
36
「推移」特定の実験結果
モデル
ベースライン
難波らの手法
NotUseEqResult
UseEqResult
UseMan
精度
27.44
19.85
42.41
43.13
43.06
再現率
41.26
45.96
47.06
48.51
48.55
F値
32.96
27.73
44.61
45.67
45.64
本研究のモデルは、
人手で付与された「同
ベースラインや従来手 等」結果の利用とほとん
法より良いF値となった ど変わらないF値となった
37
まとめ


異なる記事中の文間が同じ内容を述べているかを機械学
習を用いて特定する手法を提案した
 クラスタに分ける手法とcoarse-to-fine特定法
 単純に学習する手法より優れた結果となった
異なる記事中の文間で数値が変化しているかを機械学習
を用いて特定する手法を提案した
 「数値を値として持つ名詞句」の抽出
 従来手法より優れた結果となった
38
今後の課題

文脈や背景知識の利用
 照応・省略表現による表記の揺れ

「同等」「推移」ともに特定できないエラーが起きた
照応や省略の補完が必要
多文関係の対応
 1文対多文,多文対1文,多文対多文関係の特定
(例)トピックセグメンテーション問題から多文を決定


39
40