Webコミュニティを用いた Webマイニングの研究

Webコミュニティ概念を用いた
Webマイニングについての研究
A study on Web Mining
Based on Web Communities
2006.2.15 清水 洋志
構成
1.
2.
3.
4.
5.
6.
研究背景と研究目的
既存手法の説明
提案手法の説明
評価実験
実験結果・考察
今後の課題
研究背景
► インターネットの普及して多くの人がWebを利
用するようになってきている
► Web上の情報からの有益な情報の発見を目指
すWebマイニングの研究が盛んに行われてき
ている
► キーワード検索型のサーチエンジンが主流で
ある
研究背景
 近年、Webページが急速に増加している
►キーワード検索による検索結果も増加
 個人でも簡単にWebページを作成できる
►テキストの文体の多様化
► キーワード検索で目的のWebページを得ること
が困難になってきている
► ハイパーリンクのグラフ構造に基づくWeb
structureマイニングが注目されている
研究背景
► ハイパーリンクによって内容の関連性を見出す
ためには、対象とするページからのハイパーリ
ンクに注目するだけでは不十分であり、他の
ページから対象のページへのハイパーリンク
(backlink)に注目することが必要になる.
研究目的
► ハイパーリンクのグラフ構造を基にWebページ
の関連性を見出す研究のひとつして、ユーザ
が興味のあるトピックに関連するWebページを
発見するシステムの提案する
研究目的
► 提案手法は村田のWebコミュニティの発見手法
[村田 01]を参考にし、その手法における支持
者があまり多くないトピックでよい結果が得られ
なかった問題点を解決を目指す
► Webコミュニティという用語は、多くの研究者が
さまざまな意味で用いているが同一トピックに
関するWebページ集合の意味で用いることに
する
既存手法の説明
► 村田によるWebコミュニティの発見手法
 ユーザから与えられたWebページのURL数個を元
に、そのURLを含んでいるような完全2部グラフを見
出すことを目標としている
 完全2部グラフKi,jにおけるリンク元の i 個のURLを
fans、リンク先の j 個のURLをcentersと呼ぶことに
している.
既存手法の説明
►
村田によるWebコミュニティの発見手法
1. centersを参照するfansの検索
centersの全てに対してリンクを張っているWebページを獲
得し、それをfansとする
2. fansの多数決によるcentersへのページ追加
fansのURLにアクセスしてHTMLファイル取得しハイパーリ
ンクのURLを全て抽出する.その中でもっとも出現回数の多
いものをcentersに追加する
既存手法の説明
► 村田によるWebコミュニティの発見手法
入力
(1) fansの
検索
(2) centersへ
のページ追加
fans
centers
提案手法の説明
► 村田の手法の問題点
 対象について熱心な支持者を持つものが多いト
ピックでは良い結果が得られたが、あまり支持者を
持たないトピックでは良い結果が得られなかった
 良い結果が得られなかったトピックのハイパーリン
クのグラフ構造が疎になっていた
 十分な数のfansを得られなかったことが要因である
提案手法の説明
► fansの取得方法の改良
 centersの全てのURLに対してリンクを張っている
Webページをfansとするのではなく、centersの一つ
一つに対してリンクを張っているWebページをfans
とする
提案手法の説明
► ハイパーリンクの出現回数による順序付け
 得られたfansのURLに順次アクセスしてHTMLファイ
ルを取得し、各々のファイルに含まれるハイパーリ
ンクのURLを全て抽出し、それらを降順にソートした
もの検索結果とする
► ユーザによる入力URLへの重み付け
 ユーザが入力したWebページに対して重み付けを
することによって、ユーザの考えをより反映すること
を可能する
提案手法の説明
6
6
入力
6
3
6
3
3
4
4
4
15
Fans
6
10
出力
Centers
評価実験
► 実験条件
 サーチエンジンとしてGoogleを使用する
 対象のトピックは、村田の実験で良い結果が得られ
た“Cars”,“College”,“Finance”,“Kids”,“Newspapers”
と良い結果が得られなかった“Art”,“Chat”,“Events”,
“Family”の9個とする
 Yahooのディレクトリに登録されているURLを出力順
に5個選択しcentersとする
 centersへの重み付けは全て1とする
評価実験
► 実験結果
 村田のシステムでよい結果の得られなかった
“Art”,“Chat”のトピックでも数多くの関連性の高い
Webページを発見することができた
►“Art”の上位のURL




http://www.geisai.net
http://happyhour.air-nifty.com
http://www.lammfromm.jp
http://www.takefloor.com
評価実験
► 実験結果
 “Cars”,“College”,“Events”などのトピックで、目的の
トピックと関連性の低いポータルサイトや資格・就
職関係のWebページがランキングの上位に出力さ
れた
►関連性の低いWebページのURL
 http://www.yahoo.co.jp
 http://www.mainichi.co.jp
 http://www.recruit.co.jp
考察
► トピック毎の実験結果の違い
 ハイパーリンクのグラフ構造が疎になっているトピッ
クでも多くの関連性の高いWebページを発見するこ
とができた
►fansの獲得方法をcentersのひとつひとつのURLにリンク
しているWebページにしたことにより、fansが十分獲得で
きたことが要因だと言える
考察
► トピック毎の実験結果の違い
 目的のトピックと関連性の低いWebページがランキ
ングの上位に来ていた
►一部の著名なWebページにハイパーリンクが集中してい
て傾向があるため
►対象について熱心な支持者を持っているトピックに対し
て広告としてリンクを張られている
考察
► 広告などのWebページの出力に対する改善
 別々のトピックでも同一のWebページが多く見られ
た
 広告などのWebページの種類が限られているとい
うことである
考察
► 広告などのWebページの出力に対する改善
 全てのトピックの上位50個の検索結果を合計する
と、ランキングの上位はすべてポータルサイトや企
業のWebページだった
 全トピックの合計のランキングの上位30位までの
Webページを取り除くことにする
 多くのトピックで数多くのトピックに関連性の高い
Webページが数多く出力されている
考察
► 広告などのWebページの出力に対する改善
 ポータルサイトや企業のWebページは完全に取り
除かれたわけではない
 この改善処理の精度を高めるためにより多くのト
ピックの結果を利用する必要がある
今後の課題
► Web全体の重要度による広告などの除外
 広告などのWebページを取り除くのに全トピックの
総合ランキングを利用したが、総合ランキングの上
位になったWebページが目的のトピックと関連ある
Webページであっても出力されない
 多くのトピックの総合ランキングの上位になるという
ことはWeb全体での重要度が高いということである
今後の課題
► Web全体の重要度による広告などの除外
 各トピックの評価値からWeb全体の評価値を一定
の割合で減少させることで、企業の広告などによる
Webページが各トピックのランキングの上位になる
ことを防ぐことができるはずである
 各トピックの評価値は次のような式で与えられる
(各トピックの評価値) = (各トピックの局所的なデータでの評価値)
- α(Web全体での評価値)
今後の課題
► Web全体のグラフ構造の研究
 Web全体のハイパーリンクのグラフ構造を詳細に
解明することによってWeb structureマイニングをさ
らに発展させることが期待できる