複数活動履歴を基にした ユーザの関心情報の抽出 卒業論文中間発表 環境情報学部 鈴木 慧(suzuk) Outline • • • • • • • 背景 問題 目的 アプローチ 関連研究 今後の予定 まとめ 背景 • デジタル化 – コンピュータ上の作業の普及 • 書類: ドキュメントファイル • 連絡: メールボックス • 情報源: Web – デバイスの普及 • デジタルカメラ: 画像ファイル • GPS: 位置情報 日々の活動をアーカイブする 機会が増加 • 日々、活動の記録を電子的に保存する – その日得た経験を保存 – 一連の作業プロセスを記録 blogでは、日々の気になった情報、感想、意見など GPSでは一日の生活空間を取得 後から活動履歴を参照する には • 活動履歴の1つ1つは断片的な情報 – 自分の関心のある情報を抽出して見たい • 今自分が関心のある情報を抽出して見ら れたら便利 – ユーザが関心のある情報を取得する必要が ある 本研究ではユーザが関心のある情報を関心情報と呼ぶ 問題意識 • 複数活動履歴を統一的に扱うシステムがない – Blog • 関心を抱いていること • 作業プロセス • 役に立った情報へのリン – 検索ワード • Google検索で検索した単語 – 位置情報のメタ情報 • 位置に関連したメタ情報を取得できることを想定 – 画像ファイル • 取得した位置情報のメタ情報と関連づけられる 目的 • 複数の活動履歴からユーザの関心情報と 合う履歴を抽出する – 自分の活動履歴を参照 • 自分の生活、仕事ぶりを見返す 知識の整理 – 他人の活動履歴を参照 • 他人の蓄積された経験を取得 • 他人が通った作業プロセスを確認 知識の獲得 アプローチ • 重み付けされた単語セットとしてユーザの関心情 報を表現 – 変わらない関心単語 • 固定ユーザプロファイルに書いておく – それ以外 • 活動履歴からユーザの関心情報を抽出 • どの活動履歴を優先するか重み付けする • 活動履歴に関心情報を付加してindexingしておく – 関心情報と合う活動履歴を抽出する際に高速化 • 現在の自分の位置を結果に反映させる – 学校にいる場合、電車に乗ってる場合など 活動履歴からユーザの関心 情報を抽出 • 重み付けされた単語セットの モデルとして表現 – Blog • blog内の形態素解析とtfidfによる 頻出単語 • 各単語に重み付け – 位置情報のメタ情報 • 位置にリンクしたデータベースか ら取得 – 観光地、お店など – Googleで調べる検索ワード 単語セット 原宿 1.0 新宿 1.0 GAP 0.8 イタリア料理 0.6 どの活動履歴を優先するか • 検索単語 – 最近検索されたもの • blog内の頻出単語 – 検索単語、位置情報に関連したもの • 位置情報に関連した情報 – 頻繁に寄る場所 – 新規性のある場所 動作モデル図 1つ1つがblog,検索単語、位置情報のメタ情報、画像ファイル 関心情報 活動履歴 A B A A A B A A B time line 関心情報Aのときに活動履歴を参照 A A A A A time line A 抽出された活動履歴 シナリオ1 • 10年前にはまっていたゲームについて 検索して調べ出す 誰を仲間にす ればいい? いい思い出 だなぁ。。。 自分の10年前の日記履歴 対象ゲームに関心があった情報 今日枕元に、FFVが置いて あった。サンタさんは本当に いるんだ! シナリオ2 • 渋谷のお店に買い物に行った日 書き込む 重み付けUp 渋谷の A店でBを 買った 今後B店 に行って みるか 他人の日記履歴 渋谷のA店に関心があった情報 A店のBは お勧め 別のB店のCの方 が良かった システム概要 活動履歴取得Agent 活動履歴保存 活動履歴参照 活動履歴 レポジトリ 関心情報算出エンジン 関心情報保存 関心情報フィルタ 更新 参照 現在の関心情報 関連研究 • My Life Bits – 生活上で取得できるあらゆる電子情報を記録する – 取得情報の整理、解析を行っている 今後の予定 • 8月 – 実装と調査 • 9月9日 – ユビキタスコンピューティングシステム研究 • 11月24日 – 情報処理学会全国大会 まとめと課題 • 複数活動履歴からユーザの関心情報を抽 出 • 抽出できた関心情報から関心のある活動 履歴を抽出する やるべきこと • 興味という単語を別のものに置き換える • どれを優先するかのアルゴリズム • シナリオを3本 – @リーダーを使ってできるシナリオを一本 • システム概要図 • 10年単位で一回変わるくらいなら自分で入力し てもよい • 分類をリアルワールド的にすればよい • 情報フィルタリングについて – 「今」乗っている乗り物など「今の状況」を反映させる やるべきこと • 統一的に別種の履歴を扱う、シナリオを言 う • 関心事を抽出することは確定している メモ • 日記履歴だけを関心情報の抽出に使うの か? • 関心情報を使うのは日記履歴だけなの か? – Webページのような、まとまった情報を扱う ページでは検索エンジンだけでよい – blogのようなまとまってない情報を関心事で フィルタする際に有用 メモ • 頻出単語から、興味のある「分野」を抽出することは可能なのか? – Winnyのクラスタリング • Winnyの良いとこ:自主的にクラスタを変えることができる – RSSクローラーで同じクラスタの人を見つけてくる – 同じクラスタの人がチェックしたアイテムは、本来気になるものでなくとも 提示する • Webで興味ある情報を参照するのは、見出しとそれに対するコメント が気になったからである • みんなの興味対象が一極集中することはいいことか? – マニアックな人の意見も反映させたい • データを取得してくるAgent • データを利用するアプリケーション – どのようにデータを保存しておくかが大切 slide repository ユーザの関心に基づいた 日記データ参照機構の構築 卒業論文中間発表 環境情報学部 鈴木 慧(suzuk) 機能 • 履歴の関心事によるカテゴリ分け、フィル タリング – 過去履歴の整理 • 他人の作業プロセスを参照できる • 自分と似た嗜好の人物の発見および情報 取得 日記履歴の利用 • 自分の日記履歴 – 自分の生活、仕事振りを見返す 知識の整理 • 他人の日記履歴 – 蓄積された経験を得ることができる – 他人が通った作業プロセスを確認できる 知識の獲得 問題 • 時間が経ち情報が増えると興味のあるものを見 つけにくくなる – 他人の情報の場合はさらに大変 – 興味の対象も移り変わる Web blog履歴 Web 検索履歴 blog履歴 Web 検索履歴 blog履歴 検索履歴 位置情報 位置情報 履歴 位置情報 履歴 履歴 シナリオ2 • あるサーバ管理者 検索したり、blogに作業内容を書く 書いてある 通りにやって もだめだ 他人の日記履歴 ここを変え ればいい のか 今日もだ めだった こうしたらよ かったぞ シナリオ3 • 物にタグがついた世界 この商品気に なるなぁ・・・ タグ取ってお くか 秋葉原のお店Aで 商品のタグを取得する 日記履歴の取得種類に商品タグを追加すると もう少し待って みるか 黒がでる らしいで すよ 目的 • ユーザの興味に基づいてデータをフィルタ リングする – 同じ興味を持った他者の日記履歴を共有でき る場合、他者の経験を獲得できる 保存される興味情報 • 全体的な興味情報 • 種別ごと – blog – 位置情報 – 検索単語 日記履歴の利用 • 自分の日記履歴 – 自分の生活、仕事振りを見返す 知識の整理 • 他人の日記履歴 – 蓄積された経験を得ることができる – 他人が通った作業プロセスを確認できる 知識の獲得 10年単位で考える • 日記履歴の1つ1つは断片的な情報 – 自分の関心のある情報を統合して見たい • 今自分が関心のある情報を統合して見ら れたら便利 – ユーザの関心情報を取得する必要がある 問題意識 • 取得できる日記履歴を統一的に扱うシステ ムがない 目的 • 複数日記履歴からユーザの関心情報を抽 出し、関心のある日記履歴を統合する ユーザの関心情報の抽出 • 重み付けされた単語セットのモデルとして 表現 – 検索単語 – blog内の形態素解析とtfidfによる頻出単語 • 各単語に重み付け – 位置情報に関連した情報 • 位置にリンクしたデータベースから取得 – 観光地、お店など
© Copyright 2024 ExpyDoc