スライド 1

Web閲覧履歴に表れる単語の関連性を考慮した
情報推薦のためのユーザモデルの生成
研究背景
研究目的
インターネットの普及に伴い，Web上には大量の情報が蓄積されてい
る．これにより，ユーザの要求を満足する情報を見つけることが困難に
なってきている．そのよう中で，近年，ユーザ嗜好に合った情報を取
捨選択する情報推薦という技術が注目を集めている．
比較的容易に取得できるWeb閲覧履歴を用いて，
各ユーザ毎に異なる嗜好を抽出し，適切な推薦を行う
ことが出来るユーザモデルを生成したい．
提案手法
①単語の関連性
②ユーザモデルの表現
重み付き無向グラフで表現
単語に対する興味の度合だけでなく，単語の関連性も考慮する．
単語に対する興味の度合と単語間の関連性の強さを同時
に表現出来る．
・ユーザ毎に単語の関連性の強さが異なる
一般的に関連性が強いとされている単語ペアが，すべてのユーザに当てはまるものではない．
⇒ 各ユーザ毎に異なる嗜好
・１つの文に同時に出現する単語の同士は関連性が強い
ノード：単語，重みは興味の度合
文という短いセグメントにおいて，出現する単語間に関連性がある．
⇒ 関連性がある単語ペアの定義
エッジ：関連性，重みは関連性の強さ
③ユーザモデルの生成
④関連性の予測
1) Web閲覧履歴から重要文を抽出
文やグラフの重ね合わせでは出現しない単語
間の関連性をグラフ理論におけるグラフ構造推
定により予測する．本研究では拡散カーネルを
用いた．
tfidf値に基づいて文にスコアを付け，上位N件を重要文として抽出する．
2) 重要文に含まれる単語をノードとした完全グラフを作成
フランス
アンリ
アーセナル
移籍
拡散カーネルKはグラフの隣接行列Aとノード次数の対角行
列Dから作られたグラフ・ラプラシアン行列Lで次の様に表現
される．βは拡散係数である．
元フランス代表のアンリがアーセナルに移籍する。
3) グラフの重ね合わせ
いくつかの重要文から作成された完全グラフを重ね合わせる．
A
C
B
B
D
E
D
B
C
A
C
D
B
1
exp(βL)
Z (β)
Z (β)  tr (exp(βL))
K
E
exp(βL)  I 
D
重なったノードとエッジは重みを加算することで，ノードにはその単語の出現回数を表す
値が与えられ，エッジには単語ペアの共起の強さを表す値が与えられる．
実験
βL (βL) 2 (βL)3



1!
2!
3!
拡散カーネルは無向グラフによって表現された局所的な関
係から全データ間の類似度を定義することが出来る．
まとめ
・単語に対する興味の度合のみを表現したモデルA
・提案手法によって単語の関連性も考慮したモデルB
・拡散カーネルにより関連性を予測したモデルC
上記３つのモデルを用いて，推薦候補を２つ用意し，Webページ
の推薦を行った．評価には平均適合率を使用した．
推薦候補1
推薦候補2
モデルA
0.734
0.381
モデルB
0.950
0.643
モデルC
0.967
0.480
・ユーザ嗜好の表現には単語に対する興味の度合だけで
なく単語の関連性も考慮した方が良いことが判明した．
・拡散カーネルを用いて関連性を予測した推薦の方が良
い場合があることがわかった．
今後の課題
・複数のデータを用いた実験
・関連性の予測に関する調査
・単語の関連性を用いた意外性のある推薦の実現

Download Report