参照元HTMLテキストからの Webサイト紹介文抽出

参照元HTMLテキストからの
Webサイト紹介文抽出
NTT未来ねっと研究所
原田昌紀, 風間一洋, 佐藤進也
<[email protected]>
本研究の概要
1
 目的:
サーチエンジンの検索結果表示の改善.
 手段:
Web上にある紹介文を要約文として利用.
 評価:
実用可能性の検証.
(十分な数の要約文が得られるか)
サーチエンジンのWebサイト要約
Webページの先頭テキスト
キーワード出現位置周辺のテキスト
 問題点
2
– 機械的に抜粋されたテキストであり,読みにくい.
– Webサイト単位での概要がわからない.
Webサイト自動要約手法の必要性
 Webサイト要約手法の要件
– 適合性判断のための指示的(indicative)要約の出力.
– 複数のWebページで構成されるWebサイトへの対応.
– 多様な言語,表現,書式,文書サイズへの対応.
– 高速かつロバストな処理.
既存の自動要約手法では不十分
3
本研究のアプローチ
 Web上にはWebサイトの紹介文が多数存在する.
– アンカーの周辺に記述されることが多い.
– レイアウトや文章表現が定型的.
自動抽出し,要約文として利用できる
4
先行研究との相違
 先行研究:“InCommonSense” [Amitay2000]
– 紹介文の要約としての利用をはじめて提案.
– 問題点
• 英語に依存した経験則を利用していた.
• Web上に紹介文がどれだけ存在するか不明だった.
 本研究では:
– 言語に依存した処理を極力少なくする.
– 実際に多数の要約文が得られるかを検証する.
5
システムの概要
 ロボットでWebページを収集.
 レイアウトを解析し紹介文候補を抽出.
 要約文に適した紹介文を選別.
 十分な数の紹介文が得られるか検証.
紹介文DB
6
紹介文候補の抽出(1)
 典型的なレイアウトを仮定し,アンカーと紹介文の組を抽出.
経験則1 アンカーと紹介文の組で独立した段落となる.
経験則2 段落はアンカーで始まり,直後に紹介文が
記述される.
段
落
ーナーやクーポン情報など様々です。
紹介文
☆山口市 アンカー
・山口市のページ。市内情報は元より過
去の市報が掲載されていたりと、他の市のホー
ムページに比べ内容は充実している。
☆玖北地域振興協議会
7
紹介文候補の抽出(2)
 段落は論理的にタグづけされているとは限らない.
例: <DT>, <DD>を用いずに<BR>でリストを記述.
 しかし,上下に視覚的に識別できる境界がある.
→ 前後で改行する要素に着目して,空行を境界とする.
(空行)
段
落
アンカー
紹介文テキスト
(空行)
8
要約文に適した紹介文候補の選別
 テキストのみで紹介文を選別することは難しい.
→ 要約文としての適切さを3つの要素から評価する.
S=St×Sa×Sr
 St
紹介文テキストのスコア
独立した文か?
– 句読点はあるか,長さは適切か,などを評価.
 Sa アンカーテキストのスコア
Webサイトの紹介か?
– Webサイト名と一致するか,長さは適切か,などを評価.
 Sr
参照元Webページのスコア
客観的な記述か?
– 同時に抽出された紹介文候補の数からリンク集らしさを評価.
9
要約文に適した紹介文候補 (S = 144)
 アンカーテキスト: “やまぐち”
 紹介文テキスト: “山口市の遊び場、福祉、イベント情報
等が掲載されており、市民にはお勧めです。もちろん
史跡案内もありますので観光客にもお役立ちサイトで
す。”
St = 180 適度な長さ(68文字),
句点2個,読点3個
Sa= 0.8 やや短い(4字)
Sr = 1.0 同時に抽出された
紹介文候補数: 23個
10
要約文に適さない紹介文候補 (S = 19.2)
 アンカーテキスト: “山口市”
 紹介文テキスト: “山頭火の庵跡 風来居 文学・記念
碑、記念館等 種田山頭火句牌”
短すぎる(27文字),
句点0個,読点1個
Sa= 0.6 やや短い(3字)
Sr = 0.5 同時に抽出された
紹介文候補数: 5個
St = 64
11
評価(1) 抽出される紹介文の数
 抽出された紹介文候補の数
– ロボットで収集したHTMLテキスト
– 抽出された紹介文候補
– 参照元と参照先が別サーバ上にあるもの
 要約文に適した紹介文の数
閾値T以上のスコアを持つ紹介文候補
1,345万URL
1,864万個
518万個
175万個
T以上のスコアを持つ紹介文候補の9割が
要約文として使えるように閾値Tを設定.
12
評価(2) 要約が得られるWebサイト
 要約が得られる「Webページ」は全体の6%
– 別サーバ上から参照されるWebページが少ないため.
 「Webサイト」単位では要約が得られる率は高い.
– Webサーバのトップページの62%に要約が得られた.
– 被参照数が大きいほど,紹介文が多く存在するため.
今日のサーチエンジンで検索されやすい
Webサイトほど,要約文が得られやすい.
13
デモ
 Webページの先頭を表示
14
 紹介文による要約を表示
[1] http://www.myline.org/index.html
マイライン
新着情報 | マイラインってなに? | 今までと何
がちがうの? | どうしたら利用できるの? | 利用..
[1] http://www.myline.org/index.html
マイライン事業者協議会
電話会社の選択・固定サービス。制度の概
要、利用方法、料金、参加会社一覧等
[2] http://www.alpha-net.ne.jp/users2/boonboon/
■ ■ ■通信料金総合研究所■ ■ ■
このページをご覧いただくにはフレーム対応
のブラウザが必要です。
[2] http://www.alpha-net.ne.jp/users2/boonboon/
通信料金総合研究所
マイラインの基本の他、各電話会社の比較
データが掲載されています。
[3] http://event.yahoo.co.jp/docs/event/myline/
Yahoo! JAPAN - マイライン特集
開催期間:2001年4月20日(金)~10月末日
最近、TVをつけると決まって耳にする言葉「マ..
[3] http://event.yahoo.co.jp/docs/event/myline/
Yahoo!マイライン特集
マイライン基礎の基礎、マイライン登録法、
マイライン選びのポイント
上位10サイト中、7サイトに要約文が得られた.
まとめ
 Webサイト紹介文を抽出・選別し,要約として利用す
る手法を提案した.
– レイアウトの解析による紹介文候補の抽出.
– リンク集を重視した紹介文の選別.
 大量のWebページに提案手法を適用し,実用可能
性を検証した.
15
今後の課題
 より詳細な評価
– 指示的要約としての有用性,抽出・選別手法の妥当性
 選別精度の向上( St の拡張)
– 否定的な紹介文の排除 (「 ○○○は嫌いな会社です。」)
 検索結果表示方法の検討
– 紹介文の参照元Webページをハブとして提示.
– 著作権への対応.
16
参考文献
[Okumura1999] 奥村 学, 難波 英嗣: “テキスト自動要約に関
する研究動向”,自然言語処理, Vol.6, No.6, pp.1--26, 1999.
[Amitay2000a]
Amitay E., Paris C.: “Automatically
Summarising Web Sites - Is There A Way Around It ?”, ACM
9th International Conference on Information and Knowledge
Management (CIKM 2000), 2000.
[Amitay2000b]
Amitay E.: “InCommonSense --- Rethinking
Web Search Results”, IEEE International Conference on
Multimedia and Expo (ICME 2000), 2000.
17
サーチエンジンの検索結果表示
18
要約文に適した紹介文候補の選別
 St …紹介文テキストのスコア
– 50~150字程度の長さで,適度に句読点がある.
– 「ホームページです」「サイトです」等の表現があれば加点.
 Sa …アンカーテキストのスコア
– 5~20字程度の長さが適切.
– 参照先の名称がベスト.URL文字列は0点.
 Sr …参照元Webページのスコア
– 参照元はリンク集的か(10個以上の紹介文があるか)
19