副テーマ中間報告 1. Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO 2. Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan, Sridhar Ragopalan, Andrew Tomkins Reported by Kan Matsuda Development of a Scale Web Crawler NECの検索サービスNETPLAZAで用いら れている検索サービスのwebロボット “Nexplorer”の製作、実験について 実際に検索サービスに利用し検証 2000年11月9日 副テーマ中間報告 INTRODUCTION 検索サービスの主な機能は次の三つから成る. 1.WWWのページを集める. 2.データベース内の集めたページを蓄え,管理する. 3.ユーザーが要求するページを探してくる. Web crawler:WWWのページを集めてくるエージェ ントシステム Webページは大量→素早い収集・最適化可能な 基本構造が必要 Nexplorer:これらの要求を満たすWeb crawler 2000年11月9日 副テーマ中間報告 REQUIREMENTS FOR WEB CRAWLER 1ホスト100枚とすると 約4億3千万の ホスト Web crawlerの基本的な機能 Web 約430億のWebページ JPドメイン 約2億枚 HTMLからURLを見つける→それらのURLへ行ってドキュメ ントを得る crawlerの設計 ハードウェア:複数のCPUを用いる ソフトウェア:並列処理ができる構成にする 2000年11月9日 副テーマ中間報告 Functional Requirements WWWページを出来るだけ早く集める 重要なサイトに優位性を加える 重要でないサイトの優位性を下げる コンテンツの種類によりページをフィルタリングする 巡回するサイトを選ぶ 予約語を含むページを除去する 深いディレクトリまたは特殊なものは無視する 2000年11月9日 副テーマ中間報告 BULDING A SERCH SERVICE NexplorerをNETPLAZAで使用 CGIでキーワードを入力する JPドメインからWWWのページを集めてくる サーバを増やせば効率が良くなる goo等に負けないスピードを実現 2000年11月9日 副テーマ中間報告 CONCLUSION Nexplorerを作成 NETPLAZAで検索サービスとして利用し、 検索サービスに十分な速さを実現している より小さな規模へ適用し、スケーラビリティ を確かめたい より戦略的なクルーリングへの機能拡張 2000年11月9日 副テーマ中間報告 Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan, Sridhar Ragopalan, Andrew Tomkins Overvew Web上に数千の有名ではっきり定義された コミュニティが存在 あいまいに定義されたコミュニティをトローリ ングにより抽出 抽出する理由 1. 2. 3. ユーザに良い情報を供給するため Webの発達を社科学的な観点から研究可能 ターゲットを絞った広告を出すことができる。 2000年11月9日 副テーマ中間報告 Strongly-connected bipartite subgraphs and cores IBMとコンパックは相互リンクを張っていな い 他のページでこの両方にリンクを張っている ページがある 確かな価値判断ではないが、リンクの合計 はページのクォリティを示す 関係の深いページどうしてはcoreを形成 2000年11月9日 副テーマ中間報告 Strongly-connected bipartite subgraphs and cores F C core 仮説:web上のランダムで十分大きくて濃度の 濃いサブグラフはコアが確実にある 2000年11月9日 副テーマ中間報告 Data source and resource データは1年半以上前の若干古いもの HTMLデータのみ1テラバイト分 約2億ページ分のデータ(やや少ない) PⅡ300MHz、Linuxで2週間未満の実験 2000年11月9日 副テーマ中間報告 Trawling system ノードに入ってくる枝の 数iと、出て行くノードの数 jからcoreかどうかを判断 Yahooなどのサイトは排 除する (3,3) (2,1) (2,0) (1,1) i:入ってくるの数 j:出て行く数 2000年11月9日 副テーマ中間報告 Finixhing it off 約13万5千のcoreが発 見される (3.3)の場合で約7万5 千のcoreが存在 2000年11月9日 副テーマ中間報告 Evaluation of communities 得られたcoreの中から無作為に400((3.3)、 (3.5))のcoreを選ぶ 現在のweb上で同じcoreが存在するかを調 査 400中130(約35%)のcoreが現存 2000年11月9日 副テーマ中間報告
© Copyright 2024 ExpyDoc