Learning Semantic Categories from Clickthrough

ウェブ検索ログを用いた
ラベル伝播による意味カテゴリ獲得
小町守(奈良先端大)
牧本慎平・内海慶・颯々野学(Yahoo!)
2009-05-21
情報処理学会第191回自然言語処理研究会
第76回音声言語情報処理研究会
背景: 検索ユーザの関心を見つけることが重要
• ターゲット広告
男性
既婚
30代
就職活動中
…
!
• クエリ書き換え・クエリ提案・クエリ展開
ipot
アイポット
ipod
search
iPot
ipot price
i-pot
i-Pot
あいぽっと
2
コーパスに基づく意味カテゴリ獲得
入力
(コーパスから抽出する)
出力
単語
パターン
新しいクエリ
Singapore
___ visa
Hong Kong
Singapore visa
Australia
Singapore map
Hong Kong
___ history
China
Egypt
このステップを繰り返す
3
本研究のポイント
大規模化・クリックログ・グラフ理論の適用
100万検索クエリ
before
Tchai
after
Quetchup
検索クエリログ
(以前作った)
検索ログ
DB
DBサイズ
巨大
検索ログ
検索ログ
DB
DB
1,000万検索クエリ
ブートストラップ
検索クエリ
+
クリックログ
グラフ理論
4
Quetchup アルゴリズム
(QUEry Term CHUnk Processor)
• 情報獲得源としてクリックスルーログを用いる
アップル
クリック
コンピュータ
• グラフ理論による半教師ありアルゴリズム
• 並列分散環境を用いたラベル伝播の大規模化
5
ブートストラップにおいては意味ドリフトが大問題
入力
(コーパスから抽出した)
出力
単語
パターン
新しい単語
___ visa
UFJ
Singapore
ANA
意味カテゴリが変わってしまった
ANA
___ airlines
United
Delta
次のステップにエラーが伝播してしまう6
クリックスルーパターンを使って意味カテゴリを学習
入力
(クエリからクリックされたアドレス)
出力
単語
パターン
新しい単語
Singapore
en.wikipedia.org/wiki/Singapore
新加波
昭南島
同じアドレスをクリックする単語は同じ意味
新加波
www.singaporeair.com/saa/zh_CN
大規模に入手可能
検索クエリと比較して曖昧性が少ない
Kuala
Lumpur
Penan
7
グラフ理論に基づく意味カテゴリ学習
• ブートストラップアルゴリズムの一部はグラフ上の類似度計
算と見なせる(Komachi et al. EMNLP-2008)
Singapore
UFJ
Hong Kong
ANA
China
?
___ history
___ map
似たパターンと共
起するクエリは似
ている
___ visa
___ airlines
リンク解析(Googleの
PageRank等)の手法を
用いて計算できる
8
クリックスルーによるインスタンス・パターン共起グラフ
• クエリ“Hong Kong”→http://en.wikipedia.org/wiki/Hong_Kong
Singapore
http://www.cikm2009.org/
http://www.acl-ijcnlp-2009.org/
UFJ
Hong Kong
ANA
http://www.singaporair.com/hk.jsp
http://en.wikipedia.org/wiki/Hong_Kong
http://www.bk.mufg.jp/
http://www.china-airlines.co.jp/
China
http://www.ana.co.jp/
9
Quetchup アルゴリズム
(QUEry Term CHUnk Processor)
• 情報獲得源としてクリックスルーログを用いる
• グラフ理論による半教師ありアルゴリズム
• 並列分散環境を用いたラベル伝播の大規模化
DBサイズ
巨大
DBサイズ
DBサイズ
巨大
巨大
Pierre-Simon Laplace (1749-1827)
10
Zhou et al. (NIPS-2004) によるラベル伝播アルゴリズム

X はインスタンスの集合
xi はインスタンス
• 類似度行列 W を以下のように定める。
2 2
W

exp(

x

x
2
)
if i != j and Wii = 0.
ij
i
j/

1
/
2
1
/
2
• 行列 S
を構築する。

D
WD
Dは要素 (i,i) が W のi番目の行の和となるような次数対

角行列である。


• 収束するまで F
(
t

1
)

SF
(
t
)

(
1

)
Y
を反復する。αは(0,1)の範囲のパラメータである。
•
F*
を列 {F(t)} の極限とし、各点 xi を

によってラベル付けする。
*
j ij
y
arg
m
F
a
i
11
提案手法: ラプラシアンラベル伝播アルゴリズム
T
• 類似度行列 W を右のように定める。W

A
A
ただし、A はインスタンス・パターン共起行列である。
並列分散計算が可能なように分解

1
/
2

1
/
2
• 正規化ラプラシアン行列 L
を構築する。

I

D
WD

Dは要素 (i,i) が W のi番目の行の和となるような次数対
角行列である。 グラフラプラシアンによって意味ドリフトの影響を抑制


• 収束するまで F
(
t

1
)

(

L
)
F
(
t
)

(
1

)
Y
を繰り返す。ただしαは (0,1) の範囲のパラメータである。
•
F*
を列 {F(t)} の極限とし、各点 xi を

によってラベル付けする。
*
j ij
y
arg
m
F
a
i
12
列 {F(t)} は F* = (1-α)(I-αS)-1Y に収束する
証明:
• F(0) = Y とする。
t

1
t

1
i
F
(
t
)

(
(

L
))
Y

(
1

)
(
(

L
))
Y
.

• 反復的に計算すると、



i

0
• 0 < α < 1 かつ (-L) の固有値は
[-1, 1] にあるので、
t

1

 

t

1
(
m
(

L
))

(
I

(

L
))

(
I

L
)

lim
((

L
))

0
,

 li
t


t


i

1


i

0

1
*

1
F

l
F
i
(
t
)

m
(
1

)(
I

L
)
Y
,
• 従って
t


また、分類タスクでは、これは以下と同値である。




*

1
F

(
I

L
)
Y
.
正則化ラプラシアンカーネル
(Smola and Kondor, COLT-2003)と一致する
13
グラフに基づく手法は単純だが、
ウェブ文書などの大規模なデータにスケールする
利点
• 大規模な生データにスケールする(並列分散計算)
• 数学的背景が確立している(PageRank のように求める
ことができる)
欠点
•
•
•
•
計算効率(→近似することができる)
なにが「よい」グラフか自明ではない
計算リソースが必要(CPU・ディスク・メモリ・などなど)
扱うために(バッド)ノウハウが必要
14
実験
検索ログからの意味カテゴリ学習
15
実験設定
検索ログ
• 日本語ウェブ検索ログ2008年8月分
• 頻度上位1,000万件(異なり)
• 圧縮状態で60GB(展開すると300GB)
DBサイズ
巨大
DBサイズ
DBサイズ
巨大
巨大
パターン
• 2単語クエリパターン・クリックパターン
使用カテゴリ(Komachi and Suzuki, IJCNLP-2008)
カテゴリ
旅行
金融
シード
jal, ana, jr, じゃらん, his
みずほ銀行, 三井住友銀行, jcb, 新生銀行, 野村證券
16
実験の評価
比較手法
• Tchai(クエリ)・Quetchup(クリック・クエリ)
アノテーション
• 複数単語の場合は全ての単語についてドメインを付与
• 1単語について複数のドメインを付与
評価尺度
• 精度
• 相対再現率(Pantel and Ravichandran, NAACL-2004)
R
C
C

|
A
| RA|B はシステムAのBに対する相対再現率
AC
A
AP
A
R

 

A
|
B
CX はシステム X の出力中の正解の数
R
C
C
C
P

|
B
|
B B
B B
あるシステムから見た別のシステムのカバー率
C は真の正解の数
PX はシステム X の精度
|X| はシステム X の入力の数
17
旅行ドメインでの精度
クリックスルーを用いた
手法が一番高い精度
18
金融ドメインでの精度
金融ドメインもクリックスルー
ログを用いた手法が一番高い精度
19
旅行ドメインでの相対再現率
クリックスルーログを用いた手法
は精度が高いだけではなく相対
再現率も高い水準
20
金融ドメインでの相対再現率
21
抽出したクエリの上位1万件のランダムサンプル
タイプ(頻度)
例
交通(54)
広島 新幹線, 東海道線, jr飯田線, jr博多,京都 新幹線
宿泊(10)
ホテルビーナス, リーガロイヤルホテル大阪, www.routeinn.co.jp, ホテル京阪ユニバーサル・シティ, 札幌全日空ホテル
旅行情報
(10)
外務省 安全, チケットショップ 大阪, 観光 関西, 高山観光協会,
グーグル ナビ
旅行代理店
(6)
jr おでかけネット, 近畿ツー, タビックス 静岡, フレックスインター
ナショナル, オリオンツアー
その他(2)
プロテカ(Proteca; 旅行かばんのブランド名), jal紀行倶楽部
無関係(20)
格安航空チケット 海外, 新幹線予約状況, 新幹線 時刻表, 温泉
宿,新幹線 停車駅, 虎, youtubu海外ドラマ, 法務部採用, おくりび
と, 社会人野球
25
パラメータαによる Quetchupclick の性能の違い
クリックスルーグラフはクエリグラフより密な
グラフを作るため、大きなαの値(初期ラベ
ルをあまり信用しない)でも小さなαの値より
精度が高かった
27
関連研究
Pasca et al. (WWW-2007, IJCAI-2007)
• 自然言語処理の分野で初めてウェブ検索クエリログの重要性
を説いた
• 固有表現の属性を学習することに焦点を当てている
Talukdar et al. (EMNLP-2008), Pasca and Durme (ACL-2008)
• ウェブ文書とウェブ検索クエリログを組み合わせる
Hagiwara and Suzuki (NAACL 2009)
• グラフカーネル(ノイマンカーネルと拡散カーネル)をクエリ書
き換えタスクに適用
28
まとめ
• クリックスルーログは意味知識抽出に効果
が高い情報源である
• グラフ理論に基づく手法はブートストラップ
よりはるかに少ないパラメータで扱いやす
く、理論的背景も確立されている
29
今後の予定
• 自然言語処理タスクで有用な情報源につ
いてさらに調査する
• マルコフランダムウォークとラベル伝播手
法の関係について考える
• 大規模なカテゴリ・粒度の異なるカテゴリで
の実験
30