Apr.29, 2015

Finding
g
Interesting Associations
without
Support Pruning
Cohen, E., Datar, M., Fujiwara, S., Gionis, A., Indyk, P., Motwani,
R., ... & Yang, C.
Knowledge and Data Engineering, IEEE Transactions on, 13(1),
64-78, 2001
担当 ⼩中 (April 29,
29 2015)
1
Section
Description
• 関連規則の抽出
• 確信度と類似度
• アルゴリズムの挙動概要
• 関連⼿法の紹介
1
INTRODUCTION
2
MOTIVATION
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
• 本研究の⽬的
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
2
Section
Description
• 関連規則の抽出
• 確信度と類似度
• アルゴリズムの挙動概要
• 関連⼿法の紹介
1
INTRODUCTION
2
MOTIVATION
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
• 本研究の⽬的
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
3
相関ルールの抽出
• アプリオリが⾮常に有⽤
‒ 抽出可能:⾼頻度の相関ルール
Clustering
– 抽出不可能:低頻度の相関ルール
Association
R l
Rules
確信度がどんなに⾼くても
beer&diaper
caviar&vodka
Copy
Detection
Text
Mining
Data
Mining
Collaborative
Filtering
The people
The rich
4
確信度と類似度
5
アルゴリズムの挙動概要
1
Compute
signatures
2
Generate
candidates
hash
h
h signaturesから
i
t
から
candidate pairsを⽣成
3
Prune
candidates
did t pairsが本当に
i が本当に
candidate
類似するかどうかの確認
元のテーブルに別のpassを
⽣成
各candidate pairに関して,
類似度を決定
6
関連⼿法(MinHash, LSH)
ハッシュ法への要求
• 速度,精度
速度 精度
• ⼩さい signature の⽣成
false- の定義
正解
不正解
正解
truepositive
falsepositive
不正解
falsefalse
negative
truetrue
negative
false-positive,
g
false-negativeの削減
MinHash
LSH
精度が⾼い
速い
遅い
精度が低い
7
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
8
MinHashのアイデア
random
d
permutation
9
本当に確率でJaccard係数を推定できるのか?
列数
1
n
0
0
1
1
0
0
?
10
同じルールの下で並べ替えているので,
元の集合同⼠での列の対応関係が保存
されている
列数
列数
1
n
0
0
1
1
0
0
1
0
1
n
0
11
各列が ∩ に所属する確率
列数
1
0
1
n
0
12
証明
13
Phase1:Compute signatures
1
1
0
1
1
0
0
1
1
0
0
1
2
2
3
1
1
4
Jaccard係数
ハッシュ関数の
追加で解決
Jaccard推定量
14
なぜ推定量が有効なのか?
15
証明
16
Phase2:Generation candidates
⾼速化のために,類似度の⾼そうな候補集合だけが欲しい
1 Row-Sorting
1.Row-Sorting
2.Hash-Count
k Mi H hとほぼ同じ
k-MinHashとほぼ同じ
17
Row-Sorting
18
Hash-Count
2
2
3
1
1
4
19
Hash-Count
2
2
3
1
1
4
20
K-MinHash
1
Compute
signatures
2
Generate
candidates
3
Prune
candidates
21
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
22
Min-LSHとパラメータ選択1
23
Min-LSHとパラメータ選択1
24
Min-LSHとパラメータ選択2
f l
false-negativeの期待値
ti の期待値
false-positiveの期待値
25
Hamming-LSH
密度の増加とともに⾏列の並びを計算
ハミング距離
等しい⽂字数を持つ
2つの⽂字列において,
対応する位置にある
異なった⽂字の総数
(Wiki)
26
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
27
実験環境
MH, K-MH, M-LSH, H-LSHの⽐較
アプリオリとの⽐較
使⽤コーパス
使⽤コ
パス
Reuter Press
synthetic data
real data
列数
⾏数
列の密度
その他
Sun Microsystems Web serverの9
⽇間のHTTPリクエストのログ.
列はURL,⾏はクライアントIP.
28
Fig.4
Running times for news article data set
アプリオリと同じペアを,アプリオリより⾼速に抽出している.
アプリオリで抽出できていない閾値0.01%でも抽出している.
29
Fig.5a & Fig.6a
Fig.5a
Fig.6a
kの増加に伴って,S字カーブが鋭くなっている
⇒ 質が⾼まっている
30
Fig.5c & Fig.6c
Fig.5c
Fig.6c
s*の増加に伴って,グラフは右にシフトしている
31
Fig.5d & Fig.6d
Fig.5d
Fig.6d
与えられたkに関して,線形に実⾏時間が減少
⇒ より少なく
より少なくcandidate
candidateを⽣成しているため
を⽣成しているため
32
Fig.5b & Fig.6b
Fig.5b
g
Fig.6b
g
5bは線形増加だが,6bはそうではない
⇒ データがスパースなため.
各列から得られるハッシュ値の数には列の”1”
各列から得られるハッシュ値の数には列の
”1”の数による上界がある.
の数による上界がある.
33
Fig.7a & Fig.8a
Fig.7a
Fig.8a
34
Fig.7c & Fig.8c
Fig.7c
Fig.8c
35
Fig.7d & Fig.8d
Fig.7d
Fig.8d
36
Fig.7b & Fig.8b
Fig.7b
Fig.8b
37
Fig.9a & Fig9c
Fig.9a
Fig.9c
合計実⾏時間がfalse-negativeの閾値と反⽐例していることを⽰している
MH系よりも
MH
系よりもLSH
LSH系のほうが早いが
LSH系のほうが早いが,
系のほうが早いが H-LSH
系のほうが早いが,H
LSHは閾値が低い場合はよくない
は閾値が低い場合はよくない
38
Fig.9
• false-positiveの数はtolerance limitに反⽐例
g
• H-LSH, M-LSHはfalse-negativeの増加を
許容するなら,false-positiveは減少
• MH, K-MHはPhase2とPhase3のトレードオフ
の関係があるため,単調ではない
• false-negativeを閾値内で維持するには…
• kの増加でPhase2に時間を割く
• 閾値s*を下げてPhase3でfalse-positiveを増やす
s*の値と,それに対応した類似度を
持つcandidateの⽣成がポイント
39
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
40
本稿の狙いと相関ルールの確信度
アプリオリでは抽出できないような,
アプリオリでは抽出できないような
低頻度かつ⾼確信度を持つ相関ルールを
サポートを使わずに抽出したい
ポ
41
処理の流れ
Row Sorting
Row-Sorting
Hash--Count
Hash
Countや
やM-LSH
LSHは
は
不適切
42
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
43
今後の展望
Problem
Approach
44
Section
Description
• 関連規則の抽出
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
• 本研究の⽬的
• 確信度と類似度
• 提案⼿法の概要
• 関連⼿法の紹介
3
MIN-HASHING
MIN
HASHING
SCHEMES
• MinHashの基本アイデア
• 確率=Jaccard係数の証明
• Row-Sorting/Hash-Count
• K-MinHash Algorithm
4
LOCALITY-SENSITIVE
HASHING SCHEMES
• Min-LSHとパラメータ選択
• Hamming-LSH
5
EXPERIMENTS
• 実験環境
• 実験結果
6
EXTENSION TO
HIGH CONFIDENCE
HIGH-CONFIDENCE
ASSOCIATION RULES
7
MORE EXTENSIONS
AND FURTHER WORK
8
SUMMARY
1
INTRODUCTION
2
MOTIVATION
• 本稿の狙いと,相関ルールの確信度の定義
,
• 処理の流れ
• 今後の展望
• 扱った問題
• 各アルゴリズムの概要
45
サイズがメインメモリに収まる場合 → 実データの使⽤
そうではない場合 → 推定値を使⽤.確率的なcandidate⽣成によりfalse-positiveの除去が可能
推定値を使⽤ 確率的な
did t ⽣成によりf l
iti の除去が可能
MH(K-MH)
M-LSH
H-LSH
ハッシュキーの連結
各列はハッシュキー連結を⽤いて,何回か
各列はハッシュキー連結を⽤いて
何回か
各列をバケツにハッシュする.
もし2列の,あるハッシュ関数によるハッ
シュ値が⼀致した場合は,衝突確率が⾼い.
衝突した場合,同じバケツにある全ての列
はcandidateとなる.
これにより,MH系の列数の2乗時間を回避
46