PowerPoint プレゼンテーション

AIRS2004 Oct 20 2004 Beijin
Extracting Paraphrases of
Japanese Sentence
Ending Part
From Web and Mobile
News Articles
Hiroshi Nakagawa
(University of Tokyo)
Hidetaka Masuda
(Tokyo Denki University)
AIRS0
4 at Be
ijin Fri
Hard to understand
at a glance.
We need much
scrolling!
Small screen needs compact
sentences





Mobile phones, PDAs are every where.
Screen is small.
Long sentences exceeding one screen
are not easy to understand at a glance.
Paraphrasing long news article
sentences into short and compact
sentences is required.
The target of this paper is this paraph.
Outline

Objective


Acquire Paraphrases for compression of sentence
ending part of Web news articles
Resource
Corpus of Aligned Japanese sentences
Web news article( 200-300 char with title)
vs.
News article for mobile phone’s small screen(50 100 char sentence, without title)

Collected data



News articles for mobile phone by the
Mainichi Newspaper Co.
News article for Web aimed at PC
browsing by the Mainichi Newspaper Co.
April 26th 2001~March 30th 2003


Total 48075 pairs of ariticles
Not aligned
Example of aligned articles
Mobile article
11月の月例経済報告で政府の景気認識を示す基調判断を
下方修正へ…内閣府。下方修正は3カ月ぶり。
Web article
月例経済報告:基調判断、11月は下方修正へ 3ヶ月ぶり
内閣府は30日、11月の月例経済報告で政府の景気認識
を示す基調判断を下方修正する方針を固めた。これまでの
「引き続き悪化」から表現を引き下げる。同日発表された9月
の完全失業率が急上昇したほか、29日発表の9月鉱工業
生産が一段と落ち込んだため。下方修正は3カ月ぶりとなる。
Articles alignment between
mobile and Web articles of
the same day


(Ma, Wa)= argmax Sim(mobile article:Ma and
Web article:Wa)
Sim(Wa, Ma)=
3 ×(# of words co-occur among title of Wa
(Web article) and Ma)
+ (# of words co-occur among the body of
Wa (Web article) and Ma)
Accuracy vs. Sim
(threshold of 35 makes almost
100% accuracy.)
1
正解率
0.8
5月10日
5月20日
6月10日
6月20日
7月10日
7月20日
8月10日
0.6
0.4
0.2
0
0
10
20
30
Sim
40
50
60
Sentence alignment
between mobile and Web
articles of the same day


Aligned sentence of mobile:Ms and
Web:Ws
(Ms,Ws)= argmax (# of nouns
appearing both in mobile sentence in Ma
and Web sentence in Wa : from the end of
the first paragraph to the beginning: backward
search)
Example of Aligned sentences
Mobile article
11月の月例経済報告で政府の景気認識を示す基調判断を
下方修正へ…内閣府。下方修正は3カ月ぶり。
Web article
内閣府は30日、11月の月例経済報告で政府の景気認識
を示す基調判断を下方修正する方針を固めた。これまでの
「引き続き悪化」から表現を引き下げる。同日発表された9月
の完全失業率が急上昇したほか、29日発表の9月鉱工業
生産が一段と落ち込んだため。下方修正は3カ月ぶりとなる。
Result of sentence alignment


88333 pairs of sentences are extracted
Accuracy of alignment is 92.8%
(checked randomly selected 500
sentences by hand)
Extraction of paraphrases
-- our target is a paraphrase of
sentence ending part --
POS of the ending part of
mobile sentences within
4566 extracted sentence
ending words
POS
noun action noun
P. P. Particle
verb
aux. Verb
others
total
Freq
34312
15875
14484
16186
6671
805
88333
%
38.8
18.0
16.4
18.3
7.6
0.9
100.0
Cont.




Extract the last word of mobile sentence
If sentence ends P.P.particle, one more
previous word is extracted
Results are shown in the next slide
Exclude a word appearing only once
4566 words are extracted
Extraction of paraphrases
cont.
1.
Extract a set of sentence end part of mobile sentences
2. Gather Web sentences which are the
counter parts of mobile sentence of 1.
3. Scan Web sentences of 2. to extract the
strings which is a paraphrase of mobile
sentence ending part
Example of mobile
sentence ending part
extrd word
freq
した(did)
2370
高(up)
2002
安(down)
1892
」と(")
1652
発表(announced)1 382
示す(show)
1358
れる(pas.)
1302
逮捕(arrest)
1098
する(do)
1054
会談(talk)
992
extrd word freq
表明(express) 913
死亡(death)
718
決定(decision 648
いる(be ..ing)
625
いた(was ..ing) 600
ため(caused by) 520
方針(course)
505
見通し(prospect) 501
強調(emphasis) 485
判明(discovered)477
extrd. Word freq
求める(request)469
合意(agree) 429
検討(examine)426
批判(critisize) 424
られる(be .ed) 417
開始(open) 400
協議(talk)
390
語る(say)
375
要請(require) 365
発言(speak) 361
Web counterpart expression
mobile
disclosed
Web news articles
・・・・・・・disclosed by the investigation about…
・・・・・・・was known to collect sth. on 9th
・・・・・・・ was identified by the attorney’s talk
Scan the string from the
end of sentence[判明
(discovered)]
8branched
8branched
明
ら
か
に
9 branced
な
っ
か
し
4branched
で
分
に
が
日
い
た
Backward branch factor
and frequency[判明
(discovered)]
8
frequency
1
10
500
64
30
30
Back branch
12
Cut here to extract
candidates
10
400
8
300
6
200
4
100
0
back
branch
freq
2
日
Sentence begining
、
明
ら
か
に
な
っ
た
0
Sentence end
Backward branch factor and
frequency[表明(state)]
頻度
分岐数
800
35
700
30
600
25
500
20
400
15
300
10
200
100
5
0
0
る
考
え
を
明
ら
か
に
し
た
分岐数
頻度
Backward branch factor and
frequency[発表(announce)]
頻度
分岐数
1400
100
90
1200
80
1000
too short70exp.
60
800
50
600
40
30
400
20
200
10
0
0
の
結
果
を
発
表
し
た
分岐数
頻度
Scoring of extracted strings



Extract every string whose back branch
factor increases
Rank the extracted candidate strings :S by
Score
Score(S)=
BackBranch(S)×Freq(S)×log(length(S)-1)
Evaluation



10 most frequent action nouns’ precsion of
Nth candidates (N=<20)
Prec(N)=(# of correct paraphrases within top
N candidates)/N
Gold-standard by hand




発表(announce)、逮捕(arrest)、会談(talk)、
表明(express)、死亡(death), 決定(decsion)、
強調(emphasize)、判明(identified)、
合意(agree)、検討(examine)
Precision(N), N=1,..20(1)
Prec(N)
Descending order on Score(S)
Precision(N), N=1,..20(2)
Prec(N)
Descending order on Score(S)
Resulting Precision of average of 10 action
nouns:
string based vs word based
(The same scoring method)
Character
based
accuracy
Word
based
Descending order on Score(S)
Top 3 paraphrases of most
frequent 100 action nouns :
accuracies
First
Second
Third
Character
based
0.82
0.68
0.59
Word
based
0.83
0.81
0.57
Conclusions







With mobile and Web news paper articles.
Align them based on word co-occurrence
Extract paraphrase of mobile sentence ending
part from Web sentence ending part
Extract candidates by Back branch factor
Sort candidates by Score (freq * log(length))
87% accuracy for top 3 paraph. of ten most
frequent action nouns.
82% accuracy for top paraph. of 100 most
frequent action nouns.
例
本法案が衆議院本会議で審議が始まった。
本法案、衆議院本会議で審議。
HIVの母子感染防止に有力な方法が分かった。
HIVの母子感染防止に有力な方法が判明。
研究のアプローチ
記事の対応付け

文単位での対応付け

言い換えパターン抽出

言い換えコーパス
携帯記事とWeb記事から対
応付け
文と文を対応付ける
文字走査による言い換え抽
出
文脈一致に関する考察
一般的な言い換え抽出では文脈の一致に
関する問題がある
本研究のコーパスでは、同一内容の記事
の対応付けが出来ていて、さらに文対応さ
れている
文脈が既に一致しているとみなせる
分岐数

分岐が増加する点を抽出し、そのときの分
岐数をaとする
a  分岐数
出現頻度

分岐数が増加する点での出現頻度をbとする
b  出現頻度
単語の文字数

ほどよい長さの単語を抽出する
c=loge (len  1)
lenは切り出した語の文字数
重要度

以上のa,b,cを用いて各抽出された語の重
要度を計算する
重要度=a×b×c
a: 分岐数
b: 出現頻度
c: log(文字数-1)
評価基準

正解とする判断方法は以下の様にした


言い換え語を置き換えてみて意味が大きく変わらない
2人が正解かどうか判断して、判断が異なる場合は3
人目が判断し多数決で決める
各順位の精度の平均値[a×b×c]
10種類のサ変名詞の20位までの平均精度
1.00
0.90
0.80
0.70
精度
0.60
0.50
0.40
0.30
0.20
0.10
0.00
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
順位
抽出結果

1位までの正解率は90%

3位までは正解率は87%
実際の抽出例
候補集合
抽出されたパターン
1位
2位
3位
4位
5位
発表
を発表した
発表した
と発表した
すると発表した
したと発表した
逮捕
容疑で逮捕した
の疑いで逮捕した 逮捕した
で逮捕した
を逮捕した
会談
と会談した
会談した
で会談した
大統領と会談した
表明
を表明した
表明した
を明らかにした
首相と会談した
する考えを
する意向を表明した 明らかにした
死亡
死亡した
人が死亡した
人が負傷した
死亡したと発表した 間もなく死亡した
決定
を決めた
することを決めた を決定した
ことを決めた
決定した
強調
を強調した
強調した
と強調した
考えを強調した
判明
分かった
で分かった
明らかになった
の調べで分かった
を改めて強調した
日、明らかに
なった
合意
することで合意した で合意した
を検討していること
を明らかにした
を検討している
検討
合意した
ることで合意した
検討していること
を明らかにした 検討に入った
ことで合意した
検討を始めた
候補集合に対する1位の言い換え
言い換え先 言い換え元
言い換え先 言い換え元
発表
を発表した
批判
を批判した
逮捕
容疑で逮捕した
開始
を開始した
会談
と会談した
協議
協議した
表明
を表明した
要請
を要請した
死亡
死亡した
発言
を示した
決定
を決めた
指摘
」と指摘した
強調
を強調した
調査
で分かった
判明
分かった
予定
する予定
合意
することで合意した
確認
を確認した
開催
で開かれた
検討
を検討していること
を明らかにした
示唆
を示唆した
抽出語詳細[発表]
を発表した
明らかにした
発表した
ことを明らかにした
と発表した
たことを明らかにした
すると発表した
したことを明らかにした
したと発表した
する声明を発表した
結果を発表した
となった
声明を発表した
を正式に発表した
計画を発表した
ることを明らかにした
を明らかにした
見通しを発表した
調査結果を発表した
になった
抽出語詳細[会談]
と会談した
との認識で一致した
会談した
について協議した
で会談した
を確認した
大統領と会談した
意見交換した
首相と会談した
と首相官邸で会談した
外相と会談した
協議した
について意見交換した
を示した
で一致した
問題などについて協議した
を表明した
合意した
と相次いで会談した
などについて意見交換した
形態素解析との違い

形態素解析を用いてもほぼ同様の言い換
え語候補を得ることができる
抽出語の違い[発表]
1文字ずつ処理し、
言い換え語を抽出した場合
を発表した
発表した
と発表した
すると発表した
したと発表した
結果を発表した
声明を発表した
計画を発表した
を明らかにした
調査結果を発表した
形態素解析を用いて
言い換え語を抽出した場合
を発表した
と発表した
発表した
すると発表した
たと発表した
したと発表した
結果を発表した
声明を発表した
計画を発表した
を明らかにした
まとめ


携帯記事とWeb記事の対応コーパスから
言い換えパターンの自動抽出を行った
分岐数、頻度、文字数から重要度を計算し、
並び替えた結果
1位の精度は90%、3位までで87%
今後の方針



文末におけるサ変名詞以外の言い換え抽
出、評価
文末以外に現れる表現の言い換え抽出
抽出された言い換え表現を用いた文縮約
及び評価
ありがとうございました。