Capturing knowledge of User Preference

Capturing knowledge of User
Preference: Ontologies in
Recommender Systems
K-CAP’01 P100-107
Stuart E.Middleton, David C.DeRoure, Nigel R.Shadbolt
University of Southampton
October 22-23, 2001, Victoria, British Columbia, Canada.
2015/10/15
B4 川口 直人
はじめに
• web検索にはフィルタリングシステムが存在
• フィルタリングシステムがユーザの好みを妨害
• ほとんどのユーザが好みを明確に出来ていない
• 明示されたものが好みであるかを認めることは出来る
→推薦システム
現在の推薦システム
• 機械学習の利用
• 面白い、面白くないをユーザが評価
• 評価を十分に蓄積し、機械学習することで好みを算出
• 面白いと予想されるページをユーザに提案
→ユーザに評価させるため負担が大
• 面白くないページの十分な例をとることは困難
• 面白くないものには共通項が少ない
→面白いもの以外全部
背景
• 研究発表をオンライン上にあげることが増加
• オンライン上の研究から求めているものを探したい
• 興味のある新しい論文を探したい
• 自分の今の研究と昔の論文を関連付けたい
• 研究者の時間は限られている
• ほかにもやるべき仕事がある
→Quickstep System の開発
Quick System
論文分類わけ
• 興味あるないのみのバイナリクラスでなく、マルチクラスに分類わけ
を実行
• 最近傍法を使用
• 特徴ベクトルを軸としたグラフ上に判別したい要素と分類分けされた要素を
配置し、どの分類に一番近いかにより要素を分類してゆく方法
• AdaBoostを使用
• 弱い識別機をたくさんつなげ、強い識別機を作る方法
論文の要素抽出
• Standard Porter stemming を使用
• 使用回数2回以下の単語を削除
• 単語から接尾辞を削除
• “the”などのおおまかな一般語を削除
• TF-IDF法を使用
• TF値(単語の出現頻度)にIDF(文書頻度(この単語が出てくる論文の全論文
に対する割合)の逆数をとったもの)を乗算
• その単語がこの論文における特徴的な単語であるかを図ることができる
• さらにこの論文における重要な単語を抽出
プロファイル・アルゴリズム
• 以下の式によりユーザの興味に沿った重みづけをする
推薦アルゴリズム
• ユーザの興味と分類わけの相関をとる
• 10の推薦の中からトップ3を選出
• AdaBoostを用いて得た推薦の信頼度(=分類分けの信頼度)を用いて、推薦
信頼度の高いものを推薦
論文トピックのオントロジ
• マルチクラスを用いることによる分類わけの不正確さをオントロジに
よる階層わけで回避
• 論文を最高4段階の階層に分類
例)”interface agent”の論文 is-a “agent”の論文 is-a・・・
インターフェース
評価実験
• グループ2つにおいてそれぞれオントロジを用いる実験と用いない実
験の計4パターン行った
• 予備実験として被験者の興味分野とそれに関してweb検索を用いる
頻度を聞いておき、そこから使用する論文群とトピックを作成した
• システムはトピックの興味があるないを言われた回数、推薦された
論文に飛んだか、トピックの訂正数を記録
評価実験(1)
• IAM研究所のM2と教授14人を対象にQuickstep systemを1か月半使
用してもらう
• 103個の論文、17個のトピックを用いる
評価実験(2)
• 評価実験(1)の14人に加えM1を10人加えさらに1か月半Quickstep
systemを使用してもらう
• 135個の論文、23個のトピックを用いる
• 1回目から細かいインタフェースの改善を行っている
• 論文の質によって興味があるないが生まれてしまっているため、質に関する
重みを増やし回避
評価実験結果(1)
評価実験結果(2)
評価実験結果(3)
その他考察
• 他の分類わけ推薦システムに比べて、分類制度が低い為より正確
な統計分析法を用いて改善したい
• オントロジに有効性は見られたため、継続して用いたい
• 一般に公開されている推薦システムが少ない為、分類わけの正確さ
しか比較することが出来ず、システムの有効性自体を比較できな
かった
自分との研究の関連等
• 情報や知識をユーザに推薦するうえで参考になるかと思い選んだ
• 自分の研究ではユーザの知らない知識を提供したいため、ユーザ
の好みを機械学習して推薦する方法は用いることは出来なさそう
• 「この手法ではユーザの知らない知識を提供することが出来ないた
め・・・」や「この方法ではユーザの得たい知識を提供出来ても、行動
へつながらない」等の引用は出来るかも
• 次回はユーザが新情報等の”気づき”を取り扱った論文を探して、
ユーザの知らない知識を提供するシステムについて調べたい