活動履歴からユーザの関心情報を抽出 どの活動履歴を優先するか

複数活動履歴を基にした
ユーザの関心情報の抽出
卒業論文中間発表
環境情報学部 鈴木 慧(suzuk)
Outline
•
•
•
•
•
•
•
背景
問題
目的
アプローチ
関連研究
今後の予定
まとめ
背景
• デジタル化
– コンピュータ上の作業の普及
• 書類: ドキュメントファイル
• 連絡: メールボックス
• 情報源: Web
– デバイスの普及
• デジタルカメラ: 画像ファイル
• GPS: 位置情報
日々の活動をアーカイブする
機会が増加
• 日々、活動の記録を電子的に保存する
– その日得た経験を保存
– 一連の作業プロセスを記録
blogでは、日々の気になった情報、感想、意見など
GPSでは一日の生活空間を取得
後から活動履歴を参照する
には
• 活動履歴の1つ1つは断片的な情報
– 自分の関心のある情報を抽出して見たい
• 今自分が関心のある情報を抽出して見ら
れたら便利
– ユーザが関心のある情報を取得する必要が
ある
本研究ではユーザが関心のある情報を関心情報と呼ぶ
問題意識
• 複数活動履歴を統一的に扱うシステムがない
– Blog
• 関心を抱いていること
• 作業プロセス
• 役に立った情報へのリン
– 検索ワード
• Google検索で検索した単語
– 位置情報のメタ情報
• 位置に関連したメタ情報を取得できることを想定
– 画像ファイル
• 取得した位置情報のメタ情報と関連づけられる
目的
• 複数の活動履歴からユーザの関心情報と
合う履歴を抽出する
– 自分の活動履歴を参照
• 自分の生活、仕事ぶりを見返す
知識の整理
– 他人の活動履歴を参照
• 他人の蓄積された経験を取得
• 他人が通った作業プロセスを確認
知識の獲得
アプローチ
• 重み付けされた単語セットとしてユーザの関心情
報を表現
– 変わらない関心単語
• 固定ユーザプロファイルに書いておく
– それ以外
• 活動履歴からユーザの関心情報を抽出
• どの活動履歴を優先するか重み付けする
• 活動履歴に関心情報を付加してindexingしておく
– 関心情報と合う活動履歴を抽出する際に高速化
• 現在の自分の位置を結果に反映させる
– 学校にいる場合、電車に乗ってる場合など
活動履歴からユーザの関心
情報を抽出
• 重み付けされた単語セットの
モデルとして表現
– Blog
• blog内の形態素解析とtfidfによる
頻出単語
• 各単語に重み付け
– 位置情報のメタ情報
• 位置にリンクしたデータベースか
ら取得
– 観光地、お店など
– Googleで調べる検索ワード
単語セット
原宿 1.0
新宿 1.0
GAP 0.8
イタリア料理 0.6
どの活動履歴を優先するか
• 検索単語
– 最近検索されたもの
• blog内の頻出単語
– 検索単語、位置情報に関連したもの
• 位置情報に関連した情報
– 頻繁に寄る場所
– 新規性のある場所
動作モデル図
1つ1つがblog,検索単語、位置情報のメタ情報、画像ファイル
関心情報
活動履歴
A
B
A
A
A
B
A
A
B
time line
関心情報Aのときに活動履歴を参照
A
A
A
A
A
time line
A
抽出された活動履歴
シナリオ1
• 10年前にはまっていたゲームについて
検索して調べ出す
誰を仲間にす
ればいい?
いい思い出
だなぁ。。。
自分の10年前の日記履歴
対象ゲームに関心があった情報
今日枕元に、FFVが置いて
あった。サンタさんは本当に
いるんだ!
シナリオ2
• 渋谷のお店に買い物に行った日
書き込む
重み付けUp
渋谷の
A店でBを
買った
今後B店
に行って
みるか
他人の日記履歴
渋谷のA店に関心があった情報
A店のBは
お勧め
別のB店のCの方
が良かった
システム概要
活動履歴取得Agent
活動履歴保存
活動履歴参照
活動履歴
レポジトリ
関心情報算出エンジン
関心情報保存
関心情報フィルタ
更新
参照
現在の関心情報
関連研究
• My Life Bits
– 生活上で取得できるあらゆる電子情報を記録する
– 取得情報の整理、解析を行っている
今後の予定
• 8月
– 実装と調査
• 9月9日
– ユビキタスコンピューティングシステム研究
• 11月24日
– 情報処理学会全国大会
まとめと課題
• 複数活動履歴からユーザの関心情報を抽
出
• 抽出できた関心情報から関心のある活動
履歴を抽出する
やるべきこと
• 興味という単語を別のものに置き換える
• どれを優先するかのアルゴリズム
• シナリオを3本
– @リーダーを使ってできるシナリオを一本
• システム概要図
• 10年単位で一回変わるくらいなら自分で入力し
てもよい
• 分類をリアルワールド的にすればよい
• 情報フィルタリングについて
– 「今」乗っている乗り物など「今の状況」を反映させる
やるべきこと
• 統一的に別種の履歴を扱う、シナリオを言
う
• 関心事を抽出することは確定している
メモ
• 日記履歴だけを関心情報の抽出に使うの
か?
• 関心情報を使うのは日記履歴だけなの
か?
– Webページのような、まとまった情報を扱う
ページでは検索エンジンだけでよい
– blogのようなまとまってない情報を関心事で
フィルタする際に有用
メモ
• 頻出単語から、興味のある「分野」を抽出することは可能なのか?
– Winnyのクラスタリング
• Winnyの良いとこ:自主的にクラスタを変えることができる
– RSSクローラーで同じクラスタの人を見つけてくる
– 同じクラスタの人がチェックしたアイテムは、本来気になるものでなくとも
提示する
• Webで興味ある情報を参照するのは、見出しとそれに対するコメント
が気になったからである
• みんなの興味対象が一極集中することはいいことか?
– マニアックな人の意見も反映させたい
• データを取得してくるAgent
• データを利用するアプリケーション
– どのようにデータを保存しておくかが大切
slide repository
ユーザの関心に基づいた
日記データ参照機構の構築
卒業論文中間発表
環境情報学部 鈴木 慧(suzuk)
機能
• 履歴の関心事によるカテゴリ分け、フィル
タリング
– 過去履歴の整理
• 他人の作業プロセスを参照できる
• 自分と似た嗜好の人物の発見および情報
取得
日記履歴の利用
• 自分の日記履歴
– 自分の生活、仕事振りを見返す
知識の整理
• 他人の日記履歴
– 蓄積された経験を得ることができる
– 他人が通った作業プロセスを確認できる
知識の獲得
問題
• 時間が経ち情報が増えると興味のあるものを見
つけにくくなる
– 他人の情報の場合はさらに大変
– 興味の対象も移り変わる
Web
blog履歴
Web
検索履歴
blog履歴
Web
検索履歴
blog履歴
検索履歴
位置情報
位置情報
履歴
位置情報
履歴
履歴
シナリオ2
• あるサーバ管理者
検索したり、blogに作業内容を書く
書いてある
通りにやって
もだめだ
他人の日記履歴
ここを変え
ればいい
のか
今日もだ
めだった
こうしたらよ
かったぞ
シナリオ3
• 物にタグがついた世界
この商品気に
なるなぁ・・・
タグ取ってお
くか
秋葉原のお店Aで
商品のタグを取得する
日記履歴の取得種類に商品タグを追加すると
もう少し待って
みるか
黒がでる
らしいで
すよ
目的
• ユーザの興味に基づいてデータをフィルタ
リングする
– 同じ興味を持った他者の日記履歴を共有でき
る場合、他者の経験を獲得できる
保存される興味情報
• 全体的な興味情報
• 種別ごと
– blog
– 位置情報
– 検索単語
日記履歴の利用
• 自分の日記履歴
– 自分の生活、仕事振りを見返す
知識の整理
• 他人の日記履歴
– 蓄積された経験を得ることができる
– 他人が通った作業プロセスを確認できる
知識の獲得
10年単位で考える
• 日記履歴の1つ1つは断片的な情報
– 自分の関心のある情報を統合して見たい
• 今自分が関心のある情報を統合して見ら
れたら便利
– ユーザの関心情報を取得する必要がある
問題意識
• 取得できる日記履歴を統一的に扱うシステ
ムがない
目的
• 複数日記履歴からユーザの関心情報を抽
出し、関心のある日記履歴を統合する
ユーザの関心情報の抽出
• 重み付けされた単語セットのモデルとして
表現
– 検索単語
– blog内の形態素解析とtfidfによる頻出単語
• 各単語に重み付け
– 位置情報に関連した情報
• 位置にリンクしたデータベースから取得
– 観光地、お店など