スライド 1

Web閲覧履歴に表れる単語の関連性を考慮した
情報推薦のためのユーザモデルの生成
研究背景
研究目的
インターネットの普及に伴い,Web上には大量の情報が蓄積されてい
る.これにより,ユーザの要求を満足する情報を見つけることが困難に
なってきている.そのよう中で,近年,ユーザ嗜好に合った情報を取
捨選択する情報推薦という技術が注目を集めている.
比較的容易に取得できるWeb閲覧履歴を用いて,
各ユーザ毎に異なる嗜好を抽出し,適切な推薦を行う
ことが出来るユーザモデルを生成したい.
提案手法
①単語の関連性
②ユーザモデルの表現
重み付き無向グラフで表現
単語に対する興味の度合だけでなく,単語の関連性も考慮する.
単語に対する興味の度合と単語間の関連性の強さを同時
に表現出来る.
・ユーザ毎に単語の関連性の強さが異なる
一般的に関連性が強いとされている単語ペアが,すべてのユーザに当てはまるものではない.
⇒ 各ユーザ毎に異なる嗜好
・1つの文に同時に出現する単語の同士は関連性が強い
ノード:単語,重みは興味の度合
文という短いセグメントにおいて,出現する単語間に関連性がある.
⇒ 関連性がある単語ペアの定義
エッジ:関連性,重みは関連性の強さ
③ユーザモデルの生成
④関連性の予測
1) Web閲覧履歴から重要文を抽出
文やグラフの重ね合わせでは出現しない単語
間の関連性をグラフ理論におけるグラフ構造推
定により予測する.本研究では拡散カーネルを
用いた.
tfidf値に基づいて文にスコアを付け,上位N件を重要文として抽出する.
2) 重要文に含まれる単語をノードとした完全グラフを作成
フランス
アンリ
アーセナル
移籍
拡散カーネルKはグラフの隣接行列Aとノード次数の対角行
列Dから作られたグラフ・ラプラシアン行列Lで次の様に表現
される.βは拡散係数である.
元フランス代表のアンリがアーセナルに移籍する。
3) グラフの重ね合わせ
いくつかの重要文から作成された完全グラフを重ね合わせる.
A
C
B
B
D
E
D
B
C
A
C
D
B
1
exp(βL)
Z (β)
Z (β)  tr (exp(βL))
K
E
exp(βL)  I 
D
重なったノードとエッジは重みを加算することで,ノードにはその単語の出現回数を表す
値が与えられ,エッジには単語ペアの共起の強さを表す値が与えられる.
実験
βL (βL) 2 (βL)3



1!
2!
3!
拡散カーネルは無向グラフによって表現された局所的な関
係から全データ間の類似度を定義することが出来る.
まとめ
・単語に対する興味の度合のみを表現したモデルA
・提案手法によって単語の関連性も考慮したモデルB
・拡散カーネルにより関連性を予測したモデルC
上記3つのモデルを用いて,推薦候補を2つ用意し,Webページ
の推薦を行った.評価には平均適合率を使用した.
推薦候補1
推薦候補2
モデルA
0.734
0.381
モデルB
0.950
0.643
モデルC
0.967
0.480
・ユーザ嗜好の表現には単語に対する興味の度合だけで
なく単語の関連性も考慮した方が良いことが判明した.
・拡散カーネルを用いて関連性を予測した推薦の方が良
い場合があることがわかった.
今後の課題
・複数のデータを用いた実験
・関連性の予測に関する調査
・単語の関連性を用いた意外性のある推薦の実現