参照元HTMLテキストからの Webサイト紹介文抽出 NTT未来ねっと研究所 原田昌紀, 風間一洋, 佐藤進也 <[email protected]> 本研究の概要 1 目的: サーチエンジンの検索結果表示の改善. 手段: Web上にある紹介文を要約文として利用. 評価: 実用可能性の検証. (十分な数の要約文が得られるか) サーチエンジンのWebサイト要約 Webページの先頭テキスト キーワード出現位置周辺のテキスト 問題点 2 – 機械的に抜粋されたテキストであり,読みにくい. – Webサイト単位での概要がわからない. Webサイト自動要約手法の必要性 Webサイト要約手法の要件 – 適合性判断のための指示的(indicative)要約の出力. – 複数のWebページで構成されるWebサイトへの対応. – 多様な言語,表現,書式,文書サイズへの対応. – 高速かつロバストな処理. 既存の自動要約手法では不十分 3 本研究のアプローチ Web上にはWebサイトの紹介文が多数存在する. – アンカーの周辺に記述されることが多い. – レイアウトや文章表現が定型的. 自動抽出し,要約文として利用できる 4 先行研究との相違 先行研究:“InCommonSense” [Amitay2000] – 紹介文の要約としての利用をはじめて提案. – 問題点 • 英語に依存した経験則を利用していた. • Web上に紹介文がどれだけ存在するか不明だった. 本研究では: – 言語に依存した処理を極力少なくする. – 実際に多数の要約文が得られるかを検証する. 5 システムの概要 ロボットでWebページを収集. レイアウトを解析し紹介文候補を抽出. 要約文に適した紹介文を選別. 十分な数の紹介文が得られるか検証. 紹介文DB 6 紹介文候補の抽出(1) 典型的なレイアウトを仮定し,アンカーと紹介文の組を抽出. 経験則1 アンカーと紹介文の組で独立した段落となる. 経験則2 段落はアンカーで始まり,直後に紹介文が 記述される. 段 落 ーナーやクーポン情報など様々です。 紹介文 ☆山口市 アンカー ・山口市のページ。市内情報は元より過 去の市報が掲載されていたりと、他の市のホー ムページに比べ内容は充実している。 ☆玖北地域振興協議会 7 紹介文候補の抽出(2) 段落は論理的にタグづけされているとは限らない. 例: <DT>, <DD>を用いずに<BR>でリストを記述. しかし,上下に視覚的に識別できる境界がある. → 前後で改行する要素に着目して,空行を境界とする. (空行) 段 落 アンカー 紹介文テキスト (空行) 8 要約文に適した紹介文候補の選別 テキストのみで紹介文を選別することは難しい. → 要約文としての適切さを3つの要素から評価する. S=St×Sa×Sr St 紹介文テキストのスコア 独立した文か? – 句読点はあるか,長さは適切か,などを評価. Sa アンカーテキストのスコア Webサイトの紹介か? – Webサイト名と一致するか,長さは適切か,などを評価. Sr 参照元Webページのスコア 客観的な記述か? – 同時に抽出された紹介文候補の数からリンク集らしさを評価. 9 要約文に適した紹介文候補 (S = 144) アンカーテキスト: “やまぐち” 紹介文テキスト: “山口市の遊び場、福祉、イベント情報 等が掲載されており、市民にはお勧めです。もちろん 史跡案内もありますので観光客にもお役立ちサイトで す。” St = 180 適度な長さ(68文字), 句点2個,読点3個 Sa= 0.8 やや短い(4字) Sr = 1.0 同時に抽出された 紹介文候補数: 23個 10 要約文に適さない紹介文候補 (S = 19.2) アンカーテキスト: “山口市” 紹介文テキスト: “山頭火の庵跡 風来居 文学・記念 碑、記念館等 種田山頭火句牌” 短すぎる(27文字), 句点0個,読点1個 Sa= 0.6 やや短い(3字) Sr = 0.5 同時に抽出された 紹介文候補数: 5個 St = 64 11 評価(1) 抽出される紹介文の数 抽出された紹介文候補の数 – ロボットで収集したHTMLテキスト – 抽出された紹介文候補 – 参照元と参照先が別サーバ上にあるもの 要約文に適した紹介文の数 閾値T以上のスコアを持つ紹介文候補 1,345万URL 1,864万個 518万個 175万個 T以上のスコアを持つ紹介文候補の9割が 要約文として使えるように閾値Tを設定. 12 評価(2) 要約が得られるWebサイト 要約が得られる「Webページ」は全体の6% – 別サーバ上から参照されるWebページが少ないため. 「Webサイト」単位では要約が得られる率は高い. – Webサーバのトップページの62%に要約が得られた. – 被参照数が大きいほど,紹介文が多く存在するため. 今日のサーチエンジンで検索されやすい Webサイトほど,要約文が得られやすい. 13 デモ Webページの先頭を表示 14 紹介文による要約を表示 [1] http://www.myline.org/index.html マイライン 新着情報 | マイラインってなに? | 今までと何 がちがうの? | どうしたら利用できるの? | 利用.. [1] http://www.myline.org/index.html マイライン事業者協議会 電話会社の選択・固定サービス。制度の概 要、利用方法、料金、参加会社一覧等 [2] http://www.alpha-net.ne.jp/users2/boonboon/ ■ ■ ■通信料金総合研究所■ ■ ■ このページをご覧いただくにはフレーム対応 のブラウザが必要です。 [2] http://www.alpha-net.ne.jp/users2/boonboon/ 通信料金総合研究所 マイラインの基本の他、各電話会社の比較 データが掲載されています。 [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo! JAPAN - マイライン特集 開催期間:2001年4月20日(金)~10月末日 最近、TVをつけると決まって耳にする言葉「マ.. [3] http://event.yahoo.co.jp/docs/event/myline/ Yahoo!マイライン特集 マイライン基礎の基礎、マイライン登録法、 マイライン選びのポイント 上位10サイト中、7サイトに要約文が得られた. まとめ Webサイト紹介文を抽出・選別し,要約として利用す る手法を提案した. – レイアウトの解析による紹介文候補の抽出. – リンク集を重視した紹介文の選別. 大量のWebページに提案手法を適用し,実用可能 性を検証した. 15 今後の課題 より詳細な評価 – 指示的要約としての有用性,抽出・選別手法の妥当性 選別精度の向上( St の拡張) – 否定的な紹介文の排除 (「 ○○○は嫌いな会社です。」) 検索結果表示方法の検討 – 紹介文の参照元Webページをハブとして提示. – 著作権への対応. 16 参考文献 [Okumura1999] 奥村 学, 難波 英嗣: “テキスト自動要約に関 する研究動向”,自然言語処理, Vol.6, No.6, pp.1--26, 1999. [Amitay2000a] Amitay E., Paris C.: “Automatically Summarising Web Sites - Is There A Way Around It ?”, ACM 9th International Conference on Information and Knowledge Management (CIKM 2000), 2000. [Amitay2000b] Amitay E.: “InCommonSense --- Rethinking Web Search Results”, IEEE International Conference on Multimedia and Expo (ICME 2000), 2000. 17 サーチエンジンの検索結果表示 18 要約文に適した紹介文候補の選別 St …紹介文テキストのスコア – 50~150字程度の長さで,適度に句読点がある. – 「ホームページです」「サイトです」等の表現があれば加点. Sa …アンカーテキストのスコア – 5~20字程度の長さが適切. – 参照先の名称がベスト.URL文字列は0点. Sr …参照元Webページのスコア – 参照元はリンク集的か(10個以上の紹介文があるか) 19
© Copyright 2025 ExpyDoc