Web閲覧履歴に表れる単語の関連性を考慮した 情報推薦のためのユーザモデルの生成 研究背景 研究目的 インターネットの普及に伴い,Web上には大量の情報が蓄積されてい る.これにより,ユーザの要求を満足する情報を見つけることが困難に なってきている.そのよう中で,近年,ユーザ嗜好に合った情報を取 捨選択する情報推薦という技術が注目を集めている. 比較的容易に取得できるWeb閲覧履歴を用いて, 各ユーザ毎に異なる嗜好を抽出し,適切な推薦を行う ことが出来るユーザモデルを生成したい. 提案手法 ①単語の関連性 ②ユーザモデルの表現 重み付き無向グラフで表現 単語に対する興味の度合だけでなく,単語の関連性も考慮する. 単語に対する興味の度合と単語間の関連性の強さを同時 に表現出来る. ・ユーザ毎に単語の関連性の強さが異なる 一般的に関連性が強いとされている単語ペアが,すべてのユーザに当てはまるものではない. ⇒ 各ユーザ毎に異なる嗜好 ・1つの文に同時に出現する単語の同士は関連性が強い ノード:単語,重みは興味の度合 文という短いセグメントにおいて,出現する単語間に関連性がある. ⇒ 関連性がある単語ペアの定義 エッジ:関連性,重みは関連性の強さ ③ユーザモデルの生成 ④関連性の予測 1) Web閲覧履歴から重要文を抽出 文やグラフの重ね合わせでは出現しない単語 間の関連性をグラフ理論におけるグラフ構造推 定により予測する.本研究では拡散カーネルを 用いた. tfidf値に基づいて文にスコアを付け,上位N件を重要文として抽出する. 2) 重要文に含まれる単語をノードとした完全グラフを作成 フランス アンリ アーセナル 移籍 拡散カーネルKはグラフの隣接行列Aとノード次数の対角行 列Dから作られたグラフ・ラプラシアン行列Lで次の様に表現 される.βは拡散係数である. 元フランス代表のアンリがアーセナルに移籍する。 3) グラフの重ね合わせ いくつかの重要文から作成された完全グラフを重ね合わせる. A C B B D E D B C A C D B 1 exp(βL) Z (β) Z (β) tr (exp(βL)) K E exp(βL) I D 重なったノードとエッジは重みを加算することで,ノードにはその単語の出現回数を表す 値が与えられ,エッジには単語ペアの共起の強さを表す値が与えられる. 実験 βL (βL) 2 (βL)3 1! 2! 3! 拡散カーネルは無向グラフによって表現された局所的な関 係から全データ間の類似度を定義することが出来る. まとめ ・単語に対する興味の度合のみを表現したモデルA ・提案手法によって単語の関連性も考慮したモデルB ・拡散カーネルにより関連性を予測したモデルC 上記3つのモデルを用いて,推薦候補を2つ用意し,Webページ の推薦を行った.評価には平均適合率を使用した. 推薦候補1 推薦候補2 モデルA 0.734 0.381 モデルB 0.950 0.643 モデルC 0.967 0.480 ・ユーザ嗜好の表現には単語に対する興味の度合だけで なく単語の関連性も考慮した方が良いことが判明した. ・拡散カーネルを用いて関連性を予測した推薦の方が良 い場合があることがわかった. 今後の課題 ・複数のデータを用いた実験 ・関連性の予測に関する調査 ・単語の関連性を用いた意外性のある推薦の実現
© Copyright 2024 ExpyDoc