Webページ推薦システムにおけるユーザ指向型

言語処理学会 第20回年次大会 発表論文集 (2014年3月)
Web ページ推薦システムにおけるユーザ指向型スニペット生成
渡邉 亮彦 †
†
†
1
高村 大也 ‡
笹野 遼平 ‡
奥村 学 ‡
東京工業大学 総合理工学研究科,‡ 東京工業大学 精密工学研究所
[email protected],‡ {sasano, takamura, oku}@pi.titech.ac.jp
はじめに
テムの内部情報を用いて PS を行う点で類似している.
しかしタグ推薦の情報を利用するだけでは,要約文中
近年,ブログや SNS に代表される CGM の普及に伴
にページが推薦される動機となった情報を十分に含め
い,Web 上の情報が爆発的に増大し,個人にとって有
ることは困難である.本研究では Web ページ推薦を
用な情報を取得するためには膨大な労力が必要となっ
行った際の推薦理由を直接的に単語重要度の決定に利
てきている.この問題を解決するために,様々な Web
用しスニペット生成に寄与させることで,推薦の動機
ページ推薦システムが研究されてきた.
となった情報をスニペット中により反映させることを
Web ページ推薦システムは,個々のユーザの嗜好
に基づいて自動的に好みのページを推薦する.ユーザ
試みる.また,Qu らの手法はベースとしているタグ
がシステムを利用する際は,推薦結果の一覧から興味
て,本研究は推薦理由を用いて単語重要度を決定する
のあるページを探す必要がある.これを支援するため
ことができればさまざまな推薦手法に対して適用可能
に,システムは推薦結果の一覧に各推薦ページのタイ
であることは特筆すべき点である.
トルやスニペット(ページの概要文)などの情報を付
与するのが一般的である.しかし推薦システムでは検
D´ıaz ら [2] は,コンテンツベースのニュース記事推
薦システムの内部情報を用いることで PS を行なって
索キーワードが存在しないため,検索エンジンと同様
いる.このシステムではユーザの長期的嗜好と短期的
の手法でスニペットを生成することはできない.また,
嗜好を収集し,それらの情報に基づいてニュース記事
ユーザごとに欲する情報は異なるため,提示するスニ
の推薦を行う.長期的嗜好は,予めユーザがニュース
ペットを個々のユーザの嗜好に適応させる必要がある.
のカテゴリやキーワードなどの入力を行うことで収集
そこで本研究では,Web ページ推薦システムによっ
され,短期的嗜好は適合性フィードバックを用いて収
て推薦された各ページに対してユーザ指向型のスニ
集される.PS を行う際には,これらの推薦システム
ペットを生成する手法を提案する.具体的には,Web
が収集した嗜好情報を用いることで,個々のユーザの
ページ推薦システムが推薦を生成した際の推薦理由を
興味に沿った要約を生成する.本研究とは推薦システ
直接的に利用することでスニペットを生成する.これ
ムの内部情報を利用して,PS を行う点で類似してい
により,スニペットに個々のユーザの嗜好を反映する
る.しかし,本研究ではユーザに明示的な嗜好情報の
だけでなく,各ページが推薦されるに至った理由を含
入力を求めることはせず,暗黙的に獲得された嗜好情
むような記述を含めることが可能であると考えられる.
報のみを用いてスニペットを生成する点で異なる.
2
関連研究
推薦の手法に依存しているため汎用性が低いのに対し
3
提案手法
スニペット生成手法の一つとして,文書要約を用い
提案手法ではまずユーザに対して推薦する Web ペー
る手法が提案されている.その中でも,Personalized
ジの決定を行い,その後個々の推薦ページに対してユー
Summarization(以下,PS)が関連深い.PS はユー
ザの嗜好情報を利用し個々のユーザに特化した文書要
約を行う研究課題である.
ザ指向型スニペットを生成する.このとき,推薦理由
Qu ら [1] は,ソーシャルタギングシステムにおけ
るタグ推薦と単一文書要約の手法を相互作用させるこ
薦理由を用いて単語重要度を決定することができれば,
を用いて単語重要度を決定し文書要約に活用すること
でユーザ指向型スニペット生成を行う.提案手法は推
さまざまな推薦手法において汎用的に利用可能である.
とにより PS を実現している.本研究とは,推薦シス
― 658 ―
Copyright(C) 2014 The Association for Natural Language Processing.
All Rights Reserved. Web ページの推薦
3.1
れた場合に 1,そうでない場合は 0 となる変数である.
本研究の主眼はユーザ指向型スニペット生成である
ため,Web ページ推薦手法は既存の手法,具体的に
はソーシャルブックマーク(以下 SBM)を利用する
Zhang ら [3] の手法を用いる.SBM は Web 上で他者
と自身のブックマークを共有できるサービスであり,
各ブックマークにはタグと呼ばれるキーワードを付与
できる.SBM を利用した Web ページ推薦では,これ
らのユーザが登録したブックマークやタグに関する情
報を嗜好情報として利用し,Web ページ推薦を行う.
Zhang らの手法では,ユーザスコアとタグスコアに
基づいて個々の推薦ページが決定される.以下,ユー
ザスコアとタグスコアを推薦理由の観点から説明する.
また,aij は文 si 内に単語 ej が含まれている場合に 1
となり,そうでない場合は 0 となる定数であり,ci は
文 si の文字数,K はスニペット長を表す定数である.
λ は生成するスニペットの冗長性を制御する定数であ
り,λ の値が小さいほど冗長性を排除したスニペット
∑
が生成される.制約条件の i ci xi ≤ K は生成したス
ニペットの長さがスニペット長 K 以下に収まるよう
∑
にする制約である.また,制約条件の i aij xi ≥ zj
は単語 ej の被覆に関する制約を表している.すなわ
ち,単語 ej が含まれている文が一つ以上選択された
ときに,ej は被覆されたとみなす.これにより,推薦
理由を反映する単語をより多く被覆したスニペットが
生成可能となる.
高村らの手法はもともと複数文書要約のために提案
ユーザスコア u score(ut , ul , pn )
被推薦ユーザ ut に対して推薦を生成したときに,
された手法であることに注意する.本研究が扱うタス
あるユーザ ul がどれだけ推薦ページ pn の推薦に
クは単一文書要約とみなすことができるため,上記の
寄与したかを表す.
モデルを単一文書要約に適した形に拡張する.具体的
には,ある文書が与えられたとき,文書の先頭に近い
タグスコア t score(ut , tm , pn )
被推薦ユーザ ut に対して推薦を生成したときに,
あるタグ tm がどれだけ推薦ページ pn の推薦に
寄与したかを表す.
上記のユーザスコアとタグスコアは,スニペットを生
文ほど重要な情報が含まれている場合が多いことに着
目し,以下のようにモデルの目的関数を拡張する:
)
(∑
w
a
∑
∑
j tj ij
xi .
maximize (1 − λ)
wtj zj + λ
pos(si )
j
i
ここで pos(si ) は文 si が文書中に出現する位置を表す.
成する際に用いる単語重要度の決定に活用する.
また制約条件は同様である.これにより先頭に近い文
3.2
3.2.1
ほど重要度が高くなりスニペットに含まれやすくなる.
ユーザ指向型スニペット生成
文書要約モデル
スニペットの生成には,文選択による文書要約モデ
3.2.2
ルを用いる.具体的には文書要約を最大被覆問題とし
単語重要度 wtj の決定
単語重要度 wtj の決定における基本的な考え方は,
て定式化し,重要度の高い単語をより多く被覆した要
「推薦ページに対するスコアが高いユーザやタグの特
約を生成することで高い性能を示した高村ら [4] の手法
徴語はより重要である」というものである.このよう
を用いる.提案手法では高村らのモデルに被推薦ユー
な考え方に基づいて単語重要度を決定するために,本
ザ ut の単語 ej に対する単語重要度 wtj を導入するこ
研究では TF-IDF を活用する.具体的には,ある推薦
とで,ユーザ指向型スニペット生成を実現する.した
ページ pn が与えられたとき,以下のような式に基づ
がって,本研究が扱う文書要約モデルは,以下のよう
き wtj を決定する:
∑
wtj =
u score(ut , ul , pn ) × T F (ul , ej ) × IDF (ej )
な整数計画問題として表現される:
maximize (1 − λ)
s.t.
∑
i
∑
wtj zj + λ
j
ci xi ≤ K; ∀j,
∑
i
∑


∑

l
wtj aij  xi
+
j
∑
t score(ut , tm , pn ) × T F (tm , ej ) × IDF (ej ).
m
ここで,
aij xi ≥ zj ;
i
ul の全ブックマークページ中の単語 ej の出現回数
ul の全ブックマークページ中の総単語数
tm が付与されている全ページ中の単語 ej の出現回数
T F (tm , ej ) =
tm が付与されている全ページ中の総単語数
(
)
総ページ数
IDF (ej ) = log
単語 ej が出現したページ数
T F (ul , ej ) =
∀i, xi ∈ {0, 1}; ∀j, zj ∈ {0, 1}.
ここで,xi は文 si が選択された場合に 1,そうでな
い場合は 0 となる変数であり,zj は単語 ej が被覆さ
― 659 ―
Copyright(C) 2014 The Association for Natural Language Processing.
All Rights Reserved. である.これにより,推薦ページに対してスコアが高
4.1.2
いユーザやタグの特徴語により高い重要度を割り当て
ることで,単語重要度に推薦に至った動機に関する情
報を反映させることができる.このように,ベースと
する推薦手法の推薦理由を用いて単語重要度 wtj の決
定を行うことができれば,さまざまな推薦手法に対し
て提案手法は適用できることを改めて強調しておく.
データセット
4.1
ユーザごとに欲しいスニペットは異なると考えられ
るため,提案手法の評価には,ユーザごとに個別に作
成したスニペットが必要となる.しかし提案手法を評
価するための代表的なデータセットがないため,11 人
のユーザに協力してもらい,以下の (1),(2),(3) に
従いスニペット評価用データセットの作成を行った.
(1) 嗜好情報の収集
ユーザに対して Web ページを推薦するためには,
ユーザの嗜好情報が必要となる.そのため,今回は
実験
4
スニペット評価用データセット
ユーザに対して Web ページを提示し,提示されたペー
本実験では推薦用データセットとスニペット評価用
ジのうち,ユーザが気に入ったページに対してブック
データセットの 2 種類のデータセットを用いる.推薦
マーク登録とタグ付けを行ってもらった.すなわち,
用データセットは,ユーザに対して推薦を生成する際
ユーザのページに対するブックマークとタグ付けに関
に用いるデータセットである.またスニペット評価用
する情報が嗜好情報となる.このとき,ユーザには最
データセットは,ユーザに対して Web ページの推薦を
低 15 件のブックマーク登録を行ってもらい,ブック
行い,推薦されたページに対してユーザ自身に正解と
マークしたそれぞれの記事に対してタグ付けを行って
なるスニペットを生成してもらうことで作成したデー
もらった.提示するページは推薦用データセットに含
タセットである.
まれるものとした.
(2) Web ページの推薦
4.1.1
推薦用データセット
本実験では推薦用データセットとして livedoor ク
リップデータセット 1 を用いた.提案手法はニュース
記事のような簡潔な記事ではなく,ブログ記事のよう
な,ある程度長文で雑多な内容を含む記事においてよ
り有効に働くと考えられる.そこで,今回は livedoor
クリップデータセットのうち,主要な 17 種類のブロ
グサイトに属するエントリを抽出し,さらにスパース
なデータセットにならないよう以下の処理を施し推薦
用データセットとした.
Zhang ら [3] の手法を用いて (1) で収集した嗜好情
報に基づきユーザに対して Web ページの推薦を行っ
た.このときユーザごとに 10 件のページを推薦した.
(3) ユーザによるスニペットの生成
(2) でユーザに推薦した Web ページのうち,ユーザ
が興味のあるページに対して,自身が欲しいと考える
スニペットを生成してもらった.ユーザにスニペット
を生成してもらう際には,Web ページの本文のうち,
自身がスニペットとして欲しい文を 150 文字未満で選
択してもらった.このとき,
「スニペット全体を読むこ
とで,自身が該当ページに興味があることを適切に判
• ブックマーク数が 5 件以上,かつ利用したタグの
断できる」ように文を選択するように指示した.最終
的に,11 人のユーザに推薦されたページのうち,合
異なり数が 5 つ以上のユーザを抽出
• 被ブックマーク数が 5 件以上,かつ付与されたタ
計 50 個のページに対する正解スニペットを得たため,
これらをスニペット評価用データセットとした.
グの異なり数が 5 つ以上の Web ページを抽出
• 利用したユーザ数が 5 人以上,かつ付与された
Web ページ数が 5 件以上のタグを抽出
4.2
評価尺度
評 価 尺 度 と し て は ,ROUGE-2[5] を 用 い た .
最終的に推薦用データセットは,2,458 人のユーザ,
ROUGE-2 は単一文書要約の評価において,人間の評
10,501 個の Web ページ,4,027 個のユニークタグに
価と非常に強い相関を示すことが報告されている [5].
よって構成された.また,ユーザのブックマークの合
本研究のタスクも単一文書要約とみなせることより,
計は 101,792 件,タグ付け数の合計は 227,025 件で
ROUGE-2 を評価尺度として採用した.ROUGE-2
あった.
を用いることで,生成したスニペットが正解スニペッ
トに含まれる単語バイグラムをどれだけ被覆できた
かを評価することが可能である.
1 現在は公開を終了している
― 660 ―
Copyright(C) 2014 The Association for Natural Language Processing.
All Rights Reserved. 4.3
実験設定
表 1: ROUGE-2 スコアによる各手法の比較
手法
実験のベースラインとして,リード文,すなわち
提案手法(拡張)
リード文
Web ページ中の本文を先頭から逐次抽出しスニペット
とする手法(リード文),Collaborative Summarization(CS)[1],提案手法において単語重要度の決定に
提案手法
Generic
CS
推薦理由を用いない手法(Generic)の 3 種類を用いた.
ROUGE-2
0.277
0.245
0.132
0.113
0.103
スニペットの長さは 150 文字とした.また,Generic
で単語重要度の決定を行う際には TF-IDF を使用し
た.このとき,TF はスニペットを生成するページ内
に含まれる単語の頻度から算出した.
スニペット評価用データセットに対して leave-one-
out 交差検定を行った.すなわち,スニペット評価用
単語重要度の決定が,ROUGE-2 スコアの上昇に寄与
していることを示している.
5
おわりに
データセット 50 件のうち 1 件をテスト事例,残りの
Web ページ推薦システムにおいて推薦されたペー
49 件を訓練事例とし,これらを 50 件すべての事例が
1 回ずつテスト事例となるように評価を行った.各手
ジに対して,ユーザ指向型スニペットを生成する手法
法のパラメータの調整は,訓練事例においてストップ
用いて単語重要度を決定し文書要約モデルに導入する
ワードを除去しない場合の ROUGE-2 スコアの平均が
ことでユーザ指向型スニペットを生成した.
を提案した.提案手法では推薦システムの推薦理由を
最大となるように行った.ROUGE-2 は単語バイグラ
今回の評価では正解スニペットを生成したページは
ムの被覆率を表すスコアであるため,ストップワード
ユーザが興味のあるページだけに留まってしまってい
の除去を行ってしまった場合,ROUGE-2 スコアに寄
ることに注意する必要がある.現状の評価では提案
与する単語バイグラムが正解スニペットの本来の単語
手法によって生成されたスニペットを用いることで,
バイグラムに準拠しないことに留意した.
ユーザが興味がないページを適切に興味がないと判断
できるか否かという観点が欠落している.そのため,
4.4
実験結果および考察
検索エンジンにおけるスニペットをタスクに基づいて
表 1 に ROUGE-2 スコアによる各手法の比較を示す.
ここで,表 1 の提案手法(拡張)は文の位置情報を考
評価するのと [6] 同様に,より実際の運用に近い形で
評価することが今後の課題として挙げられる.
慮したモデルを表し,提案手法は文の位置情報を考慮
しないモデルを表す.また,表 1 に示したスコアはス
トップワードの除去を行っていない場合の ROUGE-2
スコアの平均である.
提案手法,Generic,CS はそれぞれ文の位置情報を
考慮しないモデルであるが,文の位置情報を考慮する
提案手法(拡張)およびリード文と比較して ROUGE-2
スコアが大幅に低いことがわかる.これは,Web ペー
ジの先頭に近い文ほどスニペットに含めるべき文が多
い傾向があることを示している.一方,提案手法(拡
張)とリード文の結果を比較すると,提案手法(拡張)
の ROUGE-2 スコアはリード文を 0.032 ほど上回って
いることがわかる.これはページの先頭にある文だけ
でなく,推薦理由を反映した文を冗長性とのバランス
を考慮しながらスニペットに含めることで ROUGE-
2 スコアの上昇に寄与していることを示している.ま
た,提案手法と Generic,CS を比較すると提案手法
の ROUGE-2 スコアはそれぞれ 0.019,0.029 ほど上
回っていることがわかる.これは,推薦理由を用いた
参考文献
[1] Yang Qu and Qunxiu Chen. Collaborative Summarization: When Collaborative Filtering Meets Document Summarization. PACLIC 2009, pp. 474–483,
(2009).
[2] Alberto D´ıaz and Pablo Ger´
vas. User-model based
personalized summarization. Information Processing
and Management, 43(6), pp. 1715–1734 (2007).
[3] Zi-Ke Zhang, Tao Zhou, and Yi-Cheng Zhang. Personalized recommendation via integrated diffusion
on user-item-tag tripartite graphs. Physica A 2010,
389(1), pp. 179–186, (2010).
[4] 高村大也,奥村学. 最大被覆問題とその変種による文書
要約モデル. 人口知能学会論文誌, 23(6), pp. 505–513,
(2008).
[5] Chin-Yew Lin. ROUGE: A Package for Automatic
Evaluation of Summaries. ACL 2004, pp. 74–81,
(2004).
[6] Anastasios Tombros and Mark Sanderson. Advantages of Query Biased Summaries in Information Retrieval. ACM–SIGIR 1998, pp. 2–10, (1998).
― 661 ―
Copyright(C) 2014 The Association for Natural Language Processing.
All Rights Reserved.