AIRS2004 Oct 20 2004 Beijin Extracting Paraphrases of Japanese Sentence Ending Part From Web and Mobile News Articles Hiroshi Nakagawa (University of Tokyo) Hidetaka Masuda (Tokyo Denki University) AIRS0 4 at Be ijin Fri Hard to understand at a glance. We need much scrolling! Small screen needs compact sentences Mobile phones, PDAs are every where. Screen is small. Long sentences exceeding one screen are not easy to understand at a glance. Paraphrasing long news article sentences into short and compact sentences is required. The target of this paper is this paraph. Outline Objective Acquire Paraphrases for compression of sentence ending part of Web news articles Resource Corpus of Aligned Japanese sentences Web news article( 200-300 char with title) vs. News article for mobile phone’s small screen(50 100 char sentence, without title) Collected data News articles for mobile phone by the Mainichi Newspaper Co. News article for Web aimed at PC browsing by the Mainichi Newspaper Co. April 26th 2001~March 30th 2003 Total 48075 pairs of ariticles Not aligned Example of aligned articles Mobile article 11月の月例経済報告で政府の景気認識を示す基調判断を 下方修正へ…内閣府。下方修正は3カ月ぶり。 Web article 月例経済報告:基調判断、11月は下方修正へ 3ヶ月ぶり 内閣府は30日、11月の月例経済報告で政府の景気認識 を示す基調判断を下方修正する方針を固めた。これまでの 「引き続き悪化」から表現を引き下げる。同日発表された9月 の完全失業率が急上昇したほか、29日発表の9月鉱工業 生産が一段と落ち込んだため。下方修正は3カ月ぶりとなる。 Articles alignment between mobile and Web articles of the same day (Ma, Wa)= argmax Sim(mobile article:Ma and Web article:Wa) Sim(Wa, Ma)= 3 ×(# of words co-occur among title of Wa (Web article) and Ma) + (# of words co-occur among the body of Wa (Web article) and Ma) Accuracy vs. Sim (threshold of 35 makes almost 100% accuracy.) 1 正解率 0.8 5月10日 5月20日 6月10日 6月20日 7月10日 7月20日 8月10日 0.6 0.4 0.2 0 0 10 20 30 Sim 40 50 60 Sentence alignment between mobile and Web articles of the same day Aligned sentence of mobile:Ms and Web:Ws (Ms,Ws)= argmax (# of nouns appearing both in mobile sentence in Ma and Web sentence in Wa : from the end of the first paragraph to the beginning: backward search) Example of Aligned sentences Mobile article 11月の月例経済報告で政府の景気認識を示す基調判断を 下方修正へ…内閣府。下方修正は3カ月ぶり。 Web article 内閣府は30日、11月の月例経済報告で政府の景気認識 を示す基調判断を下方修正する方針を固めた。これまでの 「引き続き悪化」から表現を引き下げる。同日発表された9月 の完全失業率が急上昇したほか、29日発表の9月鉱工業 生産が一段と落ち込んだため。下方修正は3カ月ぶりとなる。 Result of sentence alignment 88333 pairs of sentences are extracted Accuracy of alignment is 92.8% (checked randomly selected 500 sentences by hand) Extraction of paraphrases -- our target is a paraphrase of sentence ending part -- POS of the ending part of mobile sentences within 4566 extracted sentence ending words POS noun action noun P. P. Particle verb aux. Verb others total Freq 34312 15875 14484 16186 6671 805 88333 % 38.8 18.0 16.4 18.3 7.6 0.9 100.0 Cont. Extract the last word of mobile sentence If sentence ends P.P.particle, one more previous word is extracted Results are shown in the next slide Exclude a word appearing only once 4566 words are extracted Extraction of paraphrases cont. 1. Extract a set of sentence end part of mobile sentences 2. Gather Web sentences which are the counter parts of mobile sentence of 1. 3. Scan Web sentences of 2. to extract the strings which is a paraphrase of mobile sentence ending part Example of mobile sentence ending part extrd word freq した(did) 2370 高(up) 2002 安(down) 1892 」と(") 1652 発表(announced)1 382 示す(show) 1358 れる(pas.) 1302 逮捕(arrest) 1098 する(do) 1054 会談(talk) 992 extrd word freq 表明(express) 913 死亡(death) 718 決定(decision 648 いる(be ..ing) 625 いた(was ..ing) 600 ため(caused by) 520 方針(course) 505 見通し(prospect) 501 強調(emphasis) 485 判明(discovered)477 extrd. Word freq 求める(request)469 合意(agree) 429 検討(examine)426 批判(critisize) 424 られる(be .ed) 417 開始(open) 400 協議(talk) 390 語る(say) 375 要請(require) 365 発言(speak) 361 Web counterpart expression mobile disclosed Web news articles ・・・・・・・disclosed by the investigation about… ・・・・・・・was known to collect sth. on 9th ・・・・・・・ was identified by the attorney’s talk Scan the string from the end of sentence[判明 (discovered)] 8branched 8branched 明 ら か に 9 branced な っ か し 4branched で 分 に が 日 い た Backward branch factor and frequency[判明 (discovered)] 8 frequency 1 10 500 64 30 30 Back branch 12 Cut here to extract candidates 10 400 8 300 6 200 4 100 0 back branch freq 2 日 Sentence begining 、 明 ら か に な っ た 0 Sentence end Backward branch factor and frequency[表明(state)] 頻度 分岐数 800 35 700 30 600 25 500 20 400 15 300 10 200 100 5 0 0 る 考 え を 明 ら か に し た 分岐数 頻度 Backward branch factor and frequency[発表(announce)] 頻度 分岐数 1400 100 90 1200 80 1000 too short70exp. 60 800 50 600 40 30 400 20 200 10 0 0 の 結 果 を 発 表 し た 分岐数 頻度 Scoring of extracted strings Extract every string whose back branch factor increases Rank the extracted candidate strings :S by Score Score(S)= BackBranch(S)×Freq(S)×log(length(S)-1) Evaluation 10 most frequent action nouns’ precsion of Nth candidates (N=<20) Prec(N)=(# of correct paraphrases within top N candidates)/N Gold-standard by hand 発表(announce)、逮捕(arrest)、会談(talk)、 表明(express)、死亡(death), 決定(decsion)、 強調(emphasize)、判明(identified)、 合意(agree)、検討(examine) Precision(N), N=1,..20(1) Prec(N) Descending order on Score(S) Precision(N), N=1,..20(2) Prec(N) Descending order on Score(S) Resulting Precision of average of 10 action nouns: string based vs word based (The same scoring method) Character based accuracy Word based Descending order on Score(S) Top 3 paraphrases of most frequent 100 action nouns : accuracies First Second Third Character based 0.82 0.68 0.59 Word based 0.83 0.81 0.57 Conclusions With mobile and Web news paper articles. Align them based on word co-occurrence Extract paraphrase of mobile sentence ending part from Web sentence ending part Extract candidates by Back branch factor Sort candidates by Score (freq * log(length)) 87% accuracy for top 3 paraph. of ten most frequent action nouns. 82% accuracy for top paraph. of 100 most frequent action nouns. 例 本法案が衆議院本会議で審議が始まった。 本法案、衆議院本会議で審議。 HIVの母子感染防止に有力な方法が分かった。 HIVの母子感染防止に有力な方法が判明。 研究のアプローチ 記事の対応付け 文単位での対応付け 言い換えパターン抽出 言い換えコーパス 携帯記事とWeb記事から対 応付け 文と文を対応付ける 文字走査による言い換え抽 出 文脈一致に関する考察 一般的な言い換え抽出では文脈の一致に 関する問題がある 本研究のコーパスでは、同一内容の記事 の対応付けが出来ていて、さらに文対応さ れている 文脈が既に一致しているとみなせる 分岐数 分岐が増加する点を抽出し、そのときの分 岐数をaとする a 分岐数 出現頻度 分岐数が増加する点での出現頻度をbとする b 出現頻度 単語の文字数 ほどよい長さの単語を抽出する c=loge (len 1) lenは切り出した語の文字数 重要度 以上のa,b,cを用いて各抽出された語の重 要度を計算する 重要度=a×b×c a: 分岐数 b: 出現頻度 c: log(文字数-1) 評価基準 正解とする判断方法は以下の様にした 言い換え語を置き換えてみて意味が大きく変わらない 2人が正解かどうか判断して、判断が異なる場合は3 人目が判断し多数決で決める 各順位の精度の平均値[a×b×c] 10種類のサ変名詞の20位までの平均精度 1.00 0.90 0.80 0.70 精度 0.60 0.50 0.40 0.30 0.20 0.10 0.00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 順位 抽出結果 1位までの正解率は90% 3位までは正解率は87% 実際の抽出例 候補集合 抽出されたパターン 1位 2位 3位 4位 5位 発表 を発表した 発表した と発表した すると発表した したと発表した 逮捕 容疑で逮捕した の疑いで逮捕した 逮捕した で逮捕した を逮捕した 会談 と会談した 会談した で会談した 大統領と会談した 表明 を表明した 表明した を明らかにした 首相と会談した する考えを する意向を表明した 明らかにした 死亡 死亡した 人が死亡した 人が負傷した 死亡したと発表した 間もなく死亡した 決定 を決めた することを決めた を決定した ことを決めた 決定した 強調 を強調した 強調した と強調した 考えを強調した 判明 分かった で分かった 明らかになった の調べで分かった を改めて強調した 日、明らかに なった 合意 することで合意した で合意した を検討していること を明らかにした を検討している 検討 合意した ることで合意した 検討していること を明らかにした 検討に入った ことで合意した 検討を始めた 候補集合に対する1位の言い換え 言い換え先 言い換え元 言い換え先 言い換え元 発表 を発表した 批判 を批判した 逮捕 容疑で逮捕した 開始 を開始した 会談 と会談した 協議 協議した 表明 を表明した 要請 を要請した 死亡 死亡した 発言 を示した 決定 を決めた 指摘 」と指摘した 強調 を強調した 調査 で分かった 判明 分かった 予定 する予定 合意 することで合意した 確認 を確認した 開催 で開かれた 検討 を検討していること を明らかにした 示唆 を示唆した 抽出語詳細[発表] を発表した 明らかにした 発表した ことを明らかにした と発表した たことを明らかにした すると発表した したことを明らかにした したと発表した する声明を発表した 結果を発表した となった 声明を発表した を正式に発表した 計画を発表した ることを明らかにした を明らかにした 見通しを発表した 調査結果を発表した になった 抽出語詳細[会談] と会談した との認識で一致した 会談した について協議した で会談した を確認した 大統領と会談した 意見交換した 首相と会談した と首相官邸で会談した 外相と会談した 協議した について意見交換した を示した で一致した 問題などについて協議した を表明した 合意した と相次いで会談した などについて意見交換した 形態素解析との違い 形態素解析を用いてもほぼ同様の言い換 え語候補を得ることができる 抽出語の違い[発表] 1文字ずつ処理し、 言い換え語を抽出した場合 を発表した 発表した と発表した すると発表した したと発表した 結果を発表した 声明を発表した 計画を発表した を明らかにした 調査結果を発表した 形態素解析を用いて 言い換え語を抽出した場合 を発表した と発表した 発表した すると発表した たと発表した したと発表した 結果を発表した 声明を発表した 計画を発表した を明らかにした まとめ 携帯記事とWeb記事の対応コーパスから 言い換えパターンの自動抽出を行った 分岐数、頻度、文字数から重要度を計算し、 並び替えた結果 1位の精度は90%、3位までで87% 今後の方針 文末におけるサ変名詞以外の言い換え抽 出、評価 文末以外に現れる表現の言い換え抽出 抽出された言い換え表現を用いた文縮約 及び評価 ありがとうございました。
© Copyright 2024 ExpyDoc