類似度を用いた WWW のリンク構造の解析 谷 研究室 栗原 伸行 目標 WWWのリンク構造の解析を行い、 自分の求めているトピックを正確に探し出す。 HITSアルゴリズムの改善を提案し実験を行 う。 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 Hubs&Authorities Hubs Authorities The HITS algorithmの特徴 J. Kleinberg. 1998 各Webコンテンツの内容に立ち入らず、 サイト間のリンク構造の解析のみで、 適切な情報を抽出する。 適切な情報・・・Hub、Authorityページ集合 The HITS algorithm 1. 2. 3. root set の入力 base set の作成 Authority や Hub に重みをつける。 The HITS algorithm 1. 2. 3. root set の入力 base set の作成 Authority や Hub に重みをつける。 R The HITS algorithm 1. 2. 3. root set の入力 base set の作成 Authority や Hub に重みをつける。 B R The HITS algorithm 1. 2. 3. root set の入力 base set の作成 Authority や Hub に重みをつける。 B R Updated of hubs and authority p1 authority weight : Xp hub weight :Yp (each page p∈V) q1 Yq1 ・ ・ ・ qn Yqn Xpn = Yq1 + ・・・ + Yqn Xp = Σ Yq ←authority weight increased Yq = Σ Xp ← hub weight increased q→p q→p ・ ・ ・ pn Updated of hubs and authority authority weight : Xp hub weight :Yp (each page p∈V) Xp1 q1 Xpn ・ ・ ・ qn Yq1 = Xp1 + ・・・ + Xpn Xp = Σ Yq ←authority weight increased Yq = Σ Xp ← hub weight increased q→p q→p p1 ・ ・ ・ pn Update hubs and authority A : adjacency matrix (隣接行列) a11 A = ・ ・ ・ an1 1 3 ・・・ a1n aij 1 if page i points to page j 0 otherwise ・ ・ ・ ann 1 2 A = 3 2 4 4 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 Update hubs and authority 2 2 2 = 3 1 4 0 Hub Weight 1 1 3 2 4 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1 1 authority weight Update hubs and authority 1 3 1 2 3 2 4 4 0 0 0 2 1 0 = 4 1 1 3 0 1 0 0 0 1 0 0 0 0 AuthorityWeight … 0 0 0 61 19 6 ← ← ← 136 42 13 108 33 10 2 2 1 0 HubWeight 0 2 ← 4 3 1 1 1 1 HITSアルゴリズムの問題点 base set に本来のトピックとはまったく関係 のないページが含まれており、そのページが 密なリンク構造である場合、高いweightを与 えてしまう。(topic drift 問題) 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 HITSアルゴリズムの改善着目点 リンクを張っている、張られているページと内 容があまりにも違うならば、weightを低くして も良いのではないか? →ページ間に類似値を導入 (Bharat et al, SIGIR’98) 自分の探したいトピックがページ内に含まれ ているのならばweightを高くしても良いので はないか? →topic値を導入 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 2つのサイトの類似値 各ページの索引語の抽出 索引語の重み付け 各ページをベクトル空間で表記 各ベクトル間の類似値を求める 索引語の抽出 索引語 : その文書を特徴付けるための単語 索引語の抽出 : 各文書を形態素解析を行い 動詞、名詞、英単語を抽出 今日は晴れです。 しかし、明日は晴れ か雨かわかりませ ん。 今日 / は / 晴れ / です /。 / しかし / 、 / 明日 / は /晴れ / か / 雨 / か / わかり / ま / せん /。 索引語の抽出 索引語 : その文書を特徴付けるための単語 索引語の抽出 : 各文書を形態素解析を行い 動詞、名詞、英単語を抽出 今日 / は / 晴れ / です /。 /しかし / 、 / 明日 / は /晴れ /か / 雨 / か / わかり / ま / せん /。 今日 晴れ 。 明日 晴れ 雨 わかる 。 索引語の重み付け 今日 晴れ 。 明日 晴れ 雨 わかる 。 W1 : 今日 W2 : 晴れ W3 : 明日 W4 : 雨 W5 : わかる d11 : 1/6 × 2/1 = 1/3 d12 : 2/6 × 2/2 = 1/3 d13 : 1/6 × 2/1 = 1/3 d14 : 1/6 × 2/1 = 1/3 d15 : 1/6 × 2/1 = 1/3 D1 D1…Dn : 対象となるサイト W1…Wm : 抽出された索引語 dij : WiのDjにおける重み dij = TFij × IDFj TFij : 索引語頻度 IDFj : 文章頻度の逆数 各ページをベクトル空間で表記 索引語の重みを要素としてベクトルで表現 d1j d2j dj = ・ ・ ・ dmj d11 : 1/3 d12 : 1/3 d13 : 1/3 d14 : 1/3 d15 : 1/3 D1 dj : ページDjにおけるベクトル表記 dij : 索引語wiのサイトDjにおける重み d1 = 1/3 1/3 1/3 1/3 1/3 各ベクトル間の類似値を求める ベクトル間の類似度 : コサイン尺度 cos(di,dj) = di ・ dj / ||di|| ||dj|| HITSアルゴリズムの改善 a11 A = ・・・ ・ ・ ・ ・ ・ ・ an1 a11 A = ・ ・ ・ an1 a1n aij 1 if page i points to page j 0 otherwise ann ・・・ a1n ・ ・ ・ ann aij cos(di,dj) 0 if page i points to page j otherwise 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 Topic値 トピック値 : ページ内にトピックが含まれてい るならば一定の値を与える。 if Topic ∈ dj Topic(j) = 1 + cos(di,dj) otherwise 1 a11 A = ・ ・ ・ an1 ・・・ a1n ・ ・ ・ ann aij cos(di,dj)・Topic(j) if page i points to page j 0 otherwise 目次 HITSアルゴリズムの紹介 HITSアルゴリズムの改善点 ・類似値の導入 ・Topic値の導入 実験・考察 実験方法 1 1、HITS 2、類似値を用いたHITS 3、類似値+Topic値を用いたHITS root set の収集方法 : 1つURLからリンクを たどり収集 たどる方法 : 幅優先 root set のサイズ : 100 base setのサイズ : 1000~5000 実験方法 1 R B ・・・・・・・・・・ ・・・ ・・・・・・・・・・・・・・・・ 実験プログラム概要 GetURL.class URL入力 Analysis.class 茶筌を使用 Similarity.class Jamaを使用 CalculateMatrix.class 各Weightの出力 実験結果 http://math.nist.gov/javanumerics/jama/ HITS 1、 http://www.netlib.org/lapack/index.html 2、 http://www.netlib.org/linpack/readme 3、 http://www.mathworks.com/ 類似値 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/439/search 類似値+トピック値 (対象とするトピック : Matrix) 1、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/index.shtml 2、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/siteindex.shtml 3、 http://www.mathworks.com/company/pressroom/index.shtml/article/435/search 実験結果 http://www.pure.cc/~winds/volleyball/sunflower/ HITS 1、 http://www.jva.or.jp/jva/schedule.html 2、 http://www.jva.or.jp/topics/index.html 3、 http://www.jva.or.jp/jva/index.html 類似値 1、 http://www.jva.or.jp/japan/motoko/20040127.html 2、 http://www.jva.or.jp/japan/motoko/20031224.html 3、 http://www.jva.or.jp/japan/motoko/20031210.html 類似値+トピック値 (対象とするトピック : 栗原恵) 1、 http://momocan1111.hp.infoseek.co.jp/megu/ 2、 http://momocan1111.hp.infoseek.co.jp/azusa/redrockets_members.html 3、 http://momocan1111.hp.infoseek.co.jp/megu/vleague.html 考察 幾つかのケースを除いて、今実験では目に見 えた差を得ることが出来なかった。 ・WWWにおいてページの内容はリンク構造 だけで判断可能? ・類似度・トピック値においてそれぞれチュー ニングを行うことで精度の向上が可能? 考察 文章検索の手法の有効性 トピックの意味 索引語の抽出方法 base setの作成方法
© Copyright 2024 ExpyDoc