Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 2006.2.15 清水 洋志 構成 1. 2. 3. 4. 5. 6. 研究背景と研究目的 既存手法の説明 提案手法の説明 評価実験 実験結果・考察 今後の課題 研究背景 ► インターネットの普及して多くの人がWebを利 用するようになってきている ► Web上の情報からの有益な情報の発見を目指 すWebマイニングの研究が盛んに行われてき ている ► キーワード検索型のサーチエンジンが主流で ある 研究背景 近年、Webページが急速に増加している ►キーワード検索による検索結果も増加 個人でも簡単にWebページを作成できる ►テキストの文体の多様化 ► キーワード検索で目的のWebページを得ること が困難になってきている ► ハイパーリンクのグラフ構造に基づくWeb structureマイニングが注目されている 研究背景 ► ハイパーリンクによって内容の関連性を見出す ためには、対象とするページからのハイパーリ ンクに注目するだけでは不十分であり、他の ページから対象のページへのハイパーリンク (backlink)に注目することが必要になる. 研究目的 ► ハイパーリンクのグラフ構造を基にWebページ の関連性を見出す研究のひとつして、ユーザ が興味のあるトピックに関連するWebページを 発見するシステムの提案する 研究目的 ► 提案手法は村田のWebコミュニティの発見手法 [村田 01]を参考にし、その手法における支持 者があまり多くないトピックでよい結果が得られ なかった問題点を解決を目指す ► Webコミュニティという用語は、多くの研究者が さまざまな意味で用いているが同一トピックに 関するWebページ集合の意味で用いることに する 既存手法の説明 ► 村田によるWebコミュニティの発見手法 ユーザから与えられたWebページのURL数個を元 に、そのURLを含んでいるような完全2部グラフを見 出すことを目標としている 完全2部グラフKi,jにおけるリンク元の i 個のURLを fans、リンク先の j 個のURLをcentersと呼ぶことに している. 既存手法の説明 ► 村田によるWebコミュニティの発見手法 1. centersを参照するfansの検索 centersの全てに対してリンクを張っているWebページを獲 得し、それをfansとする 2. fansの多数決によるcentersへのページ追加 fansのURLにアクセスしてHTMLファイル取得しハイパーリ ンクのURLを全て抽出する.その中でもっとも出現回数の多 いものをcentersに追加する 既存手法の説明 ► 村田によるWebコミュニティの発見手法 入力 (1) fansの 検索 (2) centersへ のページ追加 fans centers 提案手法の説明 ► 村田の手法の問題点 対象について熱心な支持者を持つものが多いト ピックでは良い結果が得られたが、あまり支持者を 持たないトピックでは良い結果が得られなかった 良い結果が得られなかったトピックのハイパーリン クのグラフ構造が疎になっていた 十分な数のfansを得られなかったことが要因である 提案手法の説明 ► fansの取得方法の改良 centersの全てのURLに対してリンクを張っている Webページをfansとするのではなく、centersの一つ 一つに対してリンクを張っているWebページをfans とする 提案手法の説明 ► ハイパーリンクの出現回数による順序付け 得られたfansのURLに順次アクセスしてHTMLファイ ルを取得し、各々のファイルに含まれるハイパーリ ンクのURLを全て抽出し、それらを降順にソートした もの検索結果とする ► ユーザによる入力URLへの重み付け ユーザが入力したWebページに対して重み付けを することによって、ユーザの考えをより反映すること を可能する 提案手法の説明 6 6 入力 6 3 6 3 3 4 4 4 15 Fans 6 10 出力 Centers 評価実験 ► 実験条件 サーチエンジンとしてGoogleを使用する 対象のトピックは、村田の実験で良い結果が得られ た“Cars”,“College”,“Finance”,“Kids”,“Newspapers” と良い結果が得られなかった“Art”,“Chat”,“Events”, “Family”の9個とする Yahooのディレクトリに登録されているURLを出力順 に5個選択しcentersとする centersへの重み付けは全て1とする 評価実験 ► 実験結果 村田のシステムでよい結果の得られなかった “Art”,“Chat”のトピックでも数多くの関連性の高い Webページを発見することができた ►“Art”の上位のURL http://www.geisai.net http://happyhour.air-nifty.com http://www.lammfromm.jp http://www.takefloor.com 評価実験 ► 実験結果 “Cars”,“College”,“Events”などのトピックで、目的の トピックと関連性の低いポータルサイトや資格・就 職関係のWebページがランキングの上位に出力さ れた ►関連性の低いWebページのURL http://www.yahoo.co.jp http://www.mainichi.co.jp http://www.recruit.co.jp 考察 ► トピック毎の実験結果の違い ハイパーリンクのグラフ構造が疎になっているトピッ クでも多くの関連性の高いWebページを発見するこ とができた ►fansの獲得方法をcentersのひとつひとつのURLにリンク しているWebページにしたことにより、fansが十分獲得で きたことが要因だと言える 考察 ► トピック毎の実験結果の違い 目的のトピックと関連性の低いWebページがランキ ングの上位に来ていた ►一部の著名なWebページにハイパーリンクが集中してい て傾向があるため ►対象について熱心な支持者を持っているトピックに対し て広告としてリンクを張られている 考察 ► 広告などのWebページの出力に対する改善 別々のトピックでも同一のWebページが多く見られ た 広告などのWebページの種類が限られているとい うことである 考察 ► 広告などのWebページの出力に対する改善 全てのトピックの上位50個の検索結果を合計する と、ランキングの上位はすべてポータルサイトや企 業のWebページだった 全トピックの合計のランキングの上位30位までの Webページを取り除くことにする 多くのトピックで数多くのトピックに関連性の高い Webページが数多く出力されている 考察 ► 広告などのWebページの出力に対する改善 ポータルサイトや企業のWebページは完全に取り 除かれたわけではない この改善処理の精度を高めるためにより多くのト ピックの結果を利用する必要がある 今後の課題 ► Web全体の重要度による広告などの除外 広告などのWebページを取り除くのに全トピックの 総合ランキングを利用したが、総合ランキングの上 位になったWebページが目的のトピックと関連ある Webページであっても出力されない 多くのトピックの総合ランキングの上位になるという ことはWeb全体での重要度が高いということである 今後の課題 ► Web全体の重要度による広告などの除外 各トピックの評価値からWeb全体の評価値を一定 の割合で減少させることで、企業の広告などによる Webページが各トピックのランキングの上位になる ことを防ぐことができるはずである 各トピックの評価値は次のような式で与えられる (各トピックの評価値) = (各トピックの局所的なデータでの評価値) - α(Web全体での評価値) 今後の課題 ► Web全体のグラフ構造の研究 Web全体のハイパーリンクのグラフ構造を詳細に 解明することによってWeb structureマイニングをさ らに発展させることが期待できる
© Copyright 2024 ExpyDoc