Webページのグループ化による 静的動的スコアリング

Webページのグループ化による
静的動的スコアリング
大阪教育大学大学院
教育学研究科 数理情報コース
039606 中窪仁
背景
• WWW空間上には膨大な情報が存在
– 必要な情報のみの抽出は困難
• ロボット型Web検索システム
– 大量の情報を蓄積
– 全文検索により必要と思われる情報を抽出
– 全文検索のみによる検索精度向上は困難
他の手法と全文検索を併用し,精度向上を図る
関連研究
• リンク構造解析による手法
– PageRankアルゴリズム
• 各Webページの有用性を示す
• Scam Web*1の影響を受けにくい
– HITSアルゴリズム
• 各Webページの有用性を示す
• 類似情報をもつWebページ群の抽出が可能
*1 Scam
Web: Webページのスコアをあげるため,複数ダミーページからリンクを行う構造
PageRankアルゴリズム概要
• 基本概念
– ランダムウォークモデル
– リンク行為=リンク先Webページの推薦
– 推薦元Webページの質と推薦数を考慮
• スコアの特徴
– 各Webページの遷移確率を表す固定値
– 検索語句に左右されない静的スコア
HITSアルゴリズム概要
• 基本概念
– Webページを2種類の観点で評価
• 情報源として有用なWebページ(Authority)
• リンク集として有用なWebページ(Hub)
• スコアの特徴
– 類似情報をもつWebページ群を抽出可能
– 検索語句に左右される動的スコア
各既存手法の問題点
• PageRankアルゴリズム
– リンク行為=推薦行為?
• 特定ページ以外へのリンクを拒否するWebサイト
• 掲示板などの揮発性情報
• HITSアルゴリズム
– 既知の問題
• 常に適切なコミュニティを抽出できるとは限らない
各既存手法の問題点
解決案
• PageRankアルゴリズム
– 問題発生の原因
• リンク構造上隣接関係を基にしていること
– 問題解決案
• 再帰的に解決されるリンク構造上隣接関係を考慮
– アルゴリズムの拡張
– リンク構造の拡張
リンク元
×
中継点
中継によりリンク元の影響力が減衰
リンク先
各既存手法の問題点
解決案
• HITSアルゴリズム
– 問題発生の原因
• 検索語句に関係ないWebページが考慮されること
– 問題解決案
• アルゴリズム適用対象の精査
– 検索語句との関連性を考慮
アルゴリズム
適用範囲
全文検索
結果集合
検索語句に無関係のWebページが存在
提案手法
• グループ化
– Webページを一定法則においてグループ化
• 静的/動的スコアリング
– グループ化を併用しリンク構造解析を適用
• ランキング
– 複数スコアの併合により最終評価を決定
提案システム
全文検索結果
文書データ
全文検索スコア
リ
ン
ク
構
造
デ
ー
タ
グ
ル
ー
プ
化
ス
コ
ア
リ
ン
グ
動的スコア#1
動的スコア#2
静的スコア
ランキング
グループ化
• 目的
– リンク構造上隣接関係の拡張
– Webページ集合への意味付与
• 基本概念
– 類似情報をもつWebページ集合をグループ化
• 類似情報:同一作成者/同一コンテンツ扱い
• 2種類の方式:ディレクトリ構造/リンク構造
– グループ内リンク構造を削除
グループ化アルゴリズム
• ディレクトリ構造方式
A
B
D
C
E
• リンク構造方式
A
B
D
C
E
HTML Root
HTML Root
Document Root
Document Root
静的スコアリング
• 目的
– Webページの重要度を決定
– PageRankアルゴリズム問題点を軽減
• 基本概念
– スコアリング対象は全Webページ
– グループ化済みリンク構造を解析/評価
静的スコアリング例
• ディレクトリ構造方式
A
G
H
B
D
C
E
F
• リンク構造方式
A
G
H
B
D
C
E
F
Web Site
Web Site
動的スコアリング
• 目的
– 検索語句依存のWebページ重要度を決定
– HITSアルゴリズム問題点を軽減
• 基本概念
– スコアリング対象は全文検索結果集合
– グループ化なしリンク構造を解析/評価(#1)
– グループ化ありリンク構造を解析/評価(#2)
動的スコアリング例
• 動的スコア#1
U
V
• 動的スコア#2
Y
W
X
Z
Retrieved Documents
U
V
Y
W
X
Z
Retrieved Documents
ランキング
• 目的
– 複数スコアを併合し,最終的なスコアを決定
• 基本概念
– 各スコアの特性を生かす併合方式を採用
• 重み付け加算を利用
– 重み係数の適正値は実験により決定
– 各スコアの粒度を揃えた上で併合
• 各スコアに累乗根を適用
実験
• 目的
– 提案手法の有効性を検証
– 既存手法との比較検証
• 実験項目
– グループ化評価
– 全文検索/静的/動的スコア単体評価
– 併合スコア評価/重み係数最適値検証
プロトタイプ
• 全文検索
– 可変長グラムベースインデクス
– tf-idf法+確率モデルによるスコアリング
– スコアリング結果上位2500件を抽出
• リンク構造解析
– PageRankアルゴリズムによるスコアリング
検索対象
• NTCIR-4 Web テストコレクション*2
– 文書データ
• NW100G-01(元HTMLデータ100GB分)
• Webページ総数:約1100万Webページ
– リンク構造データ
• リンク総数:約8000万リンク
*2 NTCIR:
情報検索システム評価用テストコレクション構築プロジェクト
(NII-NACSIS Test Collection for IR Systems)
検索課題
• NTCIR-4 Web Task B Formal Run
– 検索課題総数:300課題
• 有効課題数:197課題
• 本実験で利用した検索課題
– 検索課題数:77課題
• NTCIR-4 Webにおける有効課題より抽出
– 全文検索による抽出文書数が一定数以上の検索課題
評価手法
• Weighted Reciprocal Rank(WRR)
– 高適合文書の抽出ランクを評価
• Discounted Cumulative Gain(DCG)
– 適合文書抽出の連続性を評価
• 11点平均適合率(適合率,再現率)
– 特定再現率における適合率を評価
• 累積適合課題数
– 適合文書抽出課題数を評価
グループ化処理結果
Webページ数
1
最小値
5
平均値
30,466
最大値
1
中央値
• グループあたりWebページ数に偏り
– グループあたりリンク数に影響する可能性
グループ化手法の再検討が必要
グループ化処理結果比較
グループ化
ノード数
リンク数
静的スコアリング
なし
あり
23,670,000
4,500,000
79,700,000 18,140,000
>
>
動的スコアリング
なし
あり
192,500
124,041
95,848
120,292
>
<
• 静的スコアリング:ノード数減/リンク数減
• 動的スコアリング:ノード数減/リンク数増
提案手法において期待した処理結果
各スコアリング結果比較
全文検索
静的スコア
グループ化
-
なし
あり
2.283 7.314E-9 3.344E-8
最小値
10.389 4.223E-8 2.223E-7
平均値
30.260 2.613E-4 4.199E-7
最大値
9.482 8.386E-9 2.261E-7
中央値
動的スコア
なし
あり
6.846E-5 7.675E-5
4.000E-4 6.369E-4
4.863E-1 5.687E-2
7.012E-5 5.101E-4
グループ化によるスコアの平均化
→適合文書の抽出能力低下
各スコアリング結果比較
全文検索
静的スコア
グループ化
-
なし
あり
2.283 7.314E-9 3.344E-8
最小値
10.389 4.223E-8 2.223E-7
平均値
30.260 2.613E-4 4.199E-7
最大値
9.482 8.386E-9 2.261E-7
中央値
<
<
>
<
動的スコア
なし
あり
6.846E-5 7.675E-5
4.000E-4 6.369E-4
4.863E-1
7.012E-5
<
<
5.687E-2
>
5.101E-4
<
グループ化有無でスコア分布傾向が変化
最大値:グループ化なし > グループ化あり
最小値:グループ化なし < グループ化あり
各スコアリング評価
Weighted Reciprocal Rank
0.05
WRR Values
0.04
0.02
tf-idf
StaticN
StaticG
DynamicN
0.01
DynamicG
0.03
0.00
0
20
40
60
80
100
Ranks
グループ化あり静的スコア単体では
適合文書抽出不可能
各スコアリング評価
Weighted Reciprocal Rank
0.05
WRR Values
0.04
0.02
tf-idf
StaticN
StaticG
DynamicN
0.01
DynamicG
0.03
0.00
0
20
40
60
80
100
Ranks
動的スコアはランクにより優位性が変化
静的スコアリング評価結果詳細
手法別 適合文書抽出課題数
26%
12%
13%
12%
1%
49%
未抽出
グループ化なし
グループ化あり
グループ化有無
グループ化なし
グループ化あり
グループ化なし:61% / グループ化あり:13%
動的スコアリング評価結果詳細
手法別 適合文書抽出課題数
37%
14%
27%
13%
17%
19%
未抽出
グループ化なし
グループ化あり
グループ化有無
グループ化なし
グループ化あり
グループ化なし:32% / グループ化あり:31%
各スコアリング手法特徴
静的スコアリング
グループ化なし グループ化あり
スコアの分布範囲
広
狭
スコアリング効果発揮帯
高ランク帯
低ランク帯
ランクへの影響度
高
低
82%
18%
適合課題中の占有率
動的スコアリング
スコアの分布範囲
グループ化なし グループ化あり
広
狭
スコアリング効果発揮帯
低ランク帯
高ランク帯
ランクへの影響度
適合課題中の占有率
同等
42%
同等
58%
スコア併合式検討
• 各スコア単体ではランクへの影響が微小
• グループ化有無でスコアの特徴が正反対
• 特定のスコアをベースにスコア併合を行う
– 全文検索スコアをベースと扱う
• グループ化有無ともに併合を行う
– グループ化なし静的スコアを考慮
検討後スコア併合式
• 併合スコア(p) = Wr×全文検索スコア(p)
+静的スコア(p)
+動的スコア(p)
• 静的スコア(p) = Ws1×グループ化なし静的スコア(p)
+Ws2×グループ化あり静的スコア(p)
• 動的スコア(p) = Wd1×動的スコア#1(p)
+Wd2×動的スコア#2(p)
WRR Values
適正重み係数調査結果
0.14
0.12
0.10
0.08
0.06 Wr
0.04
0.02
0.00
(Wr, Ws1, Ws2, Wd1, Wd2) [ Rank ]
= {1, 2}, Wx = {0, 1, 2}, x∈{s1, s2, d1, d2}
]
] 2]
]
] 1] 2]
1] 4] 5] 6]
0
0
8
0
1
2 2
5
6 16 16
[
[
[
[
1
[
[
[
[
[ )[ )[
) 0) 0) 0)
)
)
)
)
)
0
0 , ,0 , ,0 , ,0 , … ,0 ,1… ,0 ,2 ,1 ,0 … ,2 ,0… ,2 ,1 ,2 ,2 ,2 ,1
,
2
2 ,2
0
,* 2 ,1 2 ,2 1 ,*
,
,
,
,1 0 ,0 0 ,0
1
2
2
2
2
,
,
,
,
,
,
,
,
0
, , ,
Rank
(2 (2 (2 (1
(2
(2 (2
(2
(1 (1 (1
Method(Wr,Wsn,Wsg,Wd1,Wd2) & Result
動的スコアなし 動的スコア#1 or #2 単体 動的スコア併合
10
Rank 100
vs. “tf-idf+PageRank”
Weighted Reciprocal Rank
0.12
+6%
WRR Values
0.10
tf-idf
0.08
+180%
tf-idf +
PageRank
提案手法
0.06
0.04
0.02
0.00
0
20
40
60
Ranks
80
100
vs. “tf-idf+PageRank”
11点平均適合率
0.14
0.12
Precision
0.10
0.08
0.06
+6%
tf-idf
+140%
tf-idf +
PageRank
提案手法
0.04
0.02
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Recall
提案手法考察
グループ化
• 手法
– 各グループの粒度に格差
• 効果
– 静的スコアリング:ノード数減/リンク数減
– 動的スコアリング:ノード数減/リンク数増
グループ化の有効性を確認
グループ化手法については再検討が必要
提案手法考察
静的スコアリング
• グループ化適用によるスコアへの影響
– スコア適用先が変更
• グループ化なしスコアと異なる文書にスコアリング
– スコアの平均化
• ランキングへの影響度が減少
既存手法では抽出できない文書を抽出可能
ランキングを大きく変動させることは不可能
提案手法考察
動的スコアリング
• 精度面で非常に劣る結果
– 不適合文書を多く抽出
• グループ化精度の影響
• 各スコアリングの特徴
– #1:既存手法と同様の文書に僅かな影響力
– #2:既存手法と異なる文書に大きな影響力
グループ化手法検討後に再実験が必要
提案手法考察
ランキング
• 評価結果
– 動的スコアを併合しない算出式が最良結果
• グループ化精度の影響
– 既存手法に比べ6%程度の精度向上
• スコア併合式/適正重み係数
– 今回の実験では決定不可能
提案手法による精度向上を確認
まとめ
• グループ化によるランキング手法を提案
– 各提案手法の有効性を確認
– 提案手法による精度向上を確認
• 今後の課題
– グループ化手法の再検討
– スコア併合式/適正重み係数の検討
ありがとうございました
付録
PageRankアルゴリズム例
100
53
50
50
9
50
3
3
3
HITSアルゴリズム例
• スコアリング
H: 0
A: 0.408
• 適用手順
H: 0.408
A: 0
Base
H: 0
A: 0.816
H: 0.408
A: 0
Root
H: 0
A: 0.408
H: 0.408
A: 0
スコア併合式
• 併合スコア(p) = Wr×全文検索スコア(p)
+Ws×静的スコア(p)
+Wd×動的スコア(p)
• 動的スコア(p) = Wd1×動的スコア#1(p)
+Wd2×動的スコア#2(p)
評価方式
• NTCIR-4 Web Task B 適合判定結果
– 多値適合レベル
• 高適合,適合,部分適合,不適合の4レベル
– 適合文書
• 高適合,適合,部分適合
– 不適合文書
• 不適合
処理時間
全文検索
所要時間
全文検索用インデクス作成
2080min.
検索課題あたり平均検索時間
707msec.
リンク構造解析
所要時間
ドキュメントID→PageRankスコア算出用データ
40min.
グループ化なし静的スコアリング
1004min.
グループ化あり静的スコアリング
4min.
PageRankスコア算出結果→ドキュメントID
14min.
グループ化なし動的スコアリング
16min.
グループ化あり動的スコアリング
20min.
ディスク /メモリ使用量
全文検索
外部記憶使用量
元データ
100GB
インデクス
30.2GB
リンク構造解析
外部記憶使用量
リンク構造データ
10GB
PageRankスコア算出用データ
1.5GB
リンク構造解析
内部記憶使用量
PageRankスコア算出プログラム
1.6GB
各スコアリング評価
Discounted Cumulative Gain
0.7
DCG Values
0.6
0.5
tf-idf
StaticN
StaticG
DynamicN
DynamicG
0.4
0.3
0.2
0.1
0.0
0
20
40
60
Ranks
80
100
各スコアリング評価
累積適合課題数
35
30
Topics
25
tf-idf
StaticN
StaticG
DynamicN
20
15
10
DynamicG
5
0
0
20
40
60
Ranks
80
100
各スコアリング評価
11点平均適合率
0.06
Precision
0.05
0.03
tf-idf
StaticN
StaticG
0.02
DynamicN
0.04
DynamicG
0.01
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Recall
各スコアリング評価比較
全文検索
グループ化
WRR
DCG
累積課題
静的スコア
-
×
10
0.03090
0.03510
100
0.03895
10
動的スコア
○
×
○
0
0.00162
0.00325
0.04307
0.00043
0.00619
0.00492
0.19169
0.21926
0
0.00866
0.02417
100
0.43771
0.65954
0.02146
0.09893
0.09364
10
9
9
0
1
1
100
29
23
2
9
8
各スコアリング評価比較
Weighted Reciprocal Rank
0.04
0.03
Rank 10
Rank 100
0.02
0.01
Method
G
ic
D
yn
am
am
yn
D
St
at
ic
ic
N
G
N
ic
at
St
-i
df
0.00
tf
WRR Values
0.05
各スコアリング評価比較
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Method
G
ic
D
yn
am
am
yn
D
St
at
ic
ic
N
G
N
ic
at
St
-i
df
Rank 10
Rank 100
tf
DCG Values
Discounted Cumulative Gain
35
30
25
20
15
10
5
0
Method
G
ic
D
yn
am
am
yn
D
St
at
ic
ic
N
G
N
ic
at
St
-i
df
Rank 10
Rank 100
tf
Topics
各スコアリング評価比較
累積適合課題数
スコア粒度調整
• 全文検索スコア
• リンク構造解析スコア
– 最小値: 2.2831
– 最大値: 30.2596
– 最小値: 7.3143E-9
– 最大値: 4.8634E-1
2乗根を適用
16乗根を適用
101のオーダーに圧縮
(対応範囲:1~100)
10-1のオーダーに圧縮
(対応範囲:1~1.0E-16)
全文検索スコアベース
静的スコアリング評価比較
全文検索
グループ化
WRR
DCG
累積課題
静的スコア
-
×
○
×○
10
0.03090
0.09665
0.02960
0.10314
100
0.03895
0.10574
0.03872
0.11225
10
0.19169
0.56869
0.18330
0.56989
100
0.43771
1.31375
0.43811
1.32008
10
9
17
8
17
100
29
37
29
37
全文検索スコアベース評価比較
Weighted Reciprocal Rank
0.12
WRR Values
0.10
(1,0,0,0,0)
(1,1,0,0,0)
(1,0,1,0,0)
(1,1,1,0,0)
(1,0,0,1,0)
(1,0,0,0,1)
(1,0,0,1,1)
(1,1,1,1,1)
0.08
0.06
0.04
0.02
0.00
0
20
40
60
Ranks
80
100
全文検索スコアベース評価比較
Discounted Cumulative Gain
1.4
DCG Values
1.2
(1,0,0,0,0)
(1,1,0,0,0)
(1,0,1,0,0)
(1,1,1,0,0)
(1,0,0,1,0)
(1,0,0,0,1)
(1,0,0,1,1)
(1,1,1,1,1)
1.0
0.8
0.6
0.4
0.2
0.0
0
20
40
60
Ranks
80
100
全文検索スコアベース評価比較
累積適合課題数
40
35
Topics
30
(1,0,0,0,0)
(1,1,0,0,0)
(1,0,1,0,0)
(1,1,1,0,0)
(1,0,0,1,0)
(1,0,0,0,1)
(1,0,0,1,1)
(1,1,1,1,1)
25
20
15
10
5
0
0
20
40
60
Ranks
80
100
全文検索スコアベース評価比較
11点平均適合率
0.14
0.12
(1,0,0,0,0)
(1,1,0,0,0)
(1,0,1,0,0)
(1,1,1,0,0)
(1,0,0,1,0)
(1,0,0,0,1)
(1,0,0,1,1)
(1,1,1,1,1)
Precision
0.10
0.08
0.06
0.04
0.02
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Recall
Method
(1
(1
(1
(1
(1
(1
(1
(1
,1
,0
,0
,0
,1
,0
,1
,0
,1
,0
,0
,0
,1
,1
,0
,0
,1
,1
,0
,1
,0
,0
,0
,0
,1
,1
,1
,0
,0
,0
,0
,0
)
)
)
)
)
)
)
)
WRR Values
全文検索スコアベース評価比較
Weighted Reciprocal Rank
0.12
0.10
0.08
0.06
0.04
Rank 10
Rank 100
0.02
0.00
Method
(1
(1
(1
(1
(1
(1
(1
(1
,1
,0
,0
,0
,1
,0
,1
,0
,1
,0
,0
,0
,1
,1
,0
,0
,1
,1
,0
,1
,0
,0
,0
,0
,1
,1
,1
,0
,0
,0
,0
,0
)
)
)
)
)
)
)
)
DCG Values
全文検索スコアベース評価比較
Discounted Cumulative Gain
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
Rank 10
Rank 100
Method
(1
(1
(1
(1
(1
(1
(1
(1
,1
,0
,0
,0
,1
,0
,1
,0
,1
,0
,0
,0
,1
,1
,0
,0
,1
,1
,0
,1
,0
,0
,0
,0
,1
,1
,1
,0
,0
,0
,0
,0
)
)
)
)
)
)
)
)
DCG Values
全文検索スコアベース評価比較
累積適合課題数
40
30
20
Rank 10
Rank 100
10
0
適正重み係数調査結果
上位3パターン
全文
検索
WRR
DCG
累積課題
提案手法
(1,1,1,0,0) (2,2,1,0,0) (1,1,2,0,0)
10
0.03090
0.103139
0.103139
0.103139
100
0.03895
0.112253
0.112279
0.112088
10
0.19169
0.569888
0.568694
0.566949
100
0.43771
1.320078
1.314444
1.316460
10
9
17
17
17
100
29
37
37
37
上位3パターン評価結果比較
Weighted Reciprocal Rank
0.12
WRR Values
0.10
0.08
tf-idf
0.06
(1,1,1,0,0)
0.04
(2,2,1,0,0)
0.02
(1,1,2,0,0)
0.00
0
20
40
60
Ranks
80
100
上位3パターン評価結果
Discounted Cumulative Gain
1.4
DCG Values
1.2
1.0
tf-idf
0.8
(1,1,1,0,0)
0.6
(2,2,1,0,0)
0.4
(1,1,2,0,0)
0.2
0.0
0
20
40
60
Ranks
80
100
上位3パターン評価結果
累積適合課題数
40
35
Topics
30
tf-idf
25
(1,1,1,0,0)
20
15
(2,2,1,0,0)
10
(1,1,2,0,0)
5
0
0
20
40
60
Ranks
80
100
上位3パターン評価結果
11点平均適合率
0.14
Precision
0.12
0.10
tf-idf
0.08
(1,1,1,0,0)
0.06
(2,2,1,0,0)
0.04
(1,1,2,0,0)
0.02
0.00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Recall
Vs tf-idf+PageRank
Discounted Cumulative Gain
1.4
DCG Values
1.2
1.0
tf-idf
0.8
tf-idf +
PageRank
提案手法
0.6
0.4
0.2
0.0
0
20
40
60
Ranks
80
100
Vs tf-idf+PageRank
累積適合課題数
40
35
Topics
30
tf-idf
25
tf-idf +
PageRank
提案手法
20
15
10
5
0
0
20
40
60
Ranks
80
100