今そこにある呟き Twitterからのリアルタイムなイベント抽出 及び応用アプリケーションについて 榊 剛史 @tksakaki 松尾 豊 @ymatsuo 東京大学 松尾研究室 軽く自己紹介 東京大学 松尾研究室 博士課程1年 ↑ウェブ学会のところ 株式会社 ホットリンク 特任研究員 ↑口コミ係長のところ 以前は、東京電力で電柱昇ったりしてました。 Twitter上で、よく教授と間違われます。 海外でも間違えられてた・・・・ 今日のアジェンダ Twitterで分かる「今」と「どこ」 リアルタイムイベント抽出の仕組み キーワード検索とSVMによるイベント抽出 Particle Filter による位置推定 Twitter上でのリアルタイム情報伝播の特徴 地震抽出システムについて イベント種類による情報伝播の特性 リアルタイムイベント抽出 応用システム にじったー/Toretter 電車遅延抽出/渋滞抽出 Celeb Paparazzi(仮) 本日のターゲット層 アカデミック層 ビジネス層 →アカデミック向けのマニアックな内容につ いては、 がついてます。 基本的に発表中は飛ばします。 (時間配分によっては説明します) 今日のアジェンダ Twitterで分かる「今」と「どこ」 リアルタイムイベント抽出の仕組み キーワード検索とSVMによるイベント抽出 Particle Filter による位置推定 Twitter上でのリアルタイム情報伝播の特徴 地震抽出システムについて イベント種類による情報伝播の特性 リアルタイムイベント抽出 応用システム にじったー/Toretter 電車遅延抽出/渋滞抽出 Celeb Paparazzi(仮) Twitterにおける「今」と「どこ」 Twitterにおける「今」の重要性 ニュースサイト ツイちぇき!! Buzztter TV見ながらTweet フォロワーの行動監視 Twitterにおける「今」と「どこ」 Twitterにおける「今」の重要性 ニュースサイト ツイちぇき!! Buzztter TV見ながらTweet フォロワーの行動監視 今何が起きているかが分かる Twitterにおける「今」と「どこ」 Twitterにおける「今」の重要性 ニュースサイト ツイちぇき!! Buzztter TV見ながらTweet フォロワーの行動監視 今何が起きているかが分かる 他人が何をしているかが分かる Twitterにおける「今」と「どこ」 Twitterにおける「今」と「どこ」の重要性 地震の発生と震源地を知る 天体現象を知る ゲリラ豪雨 虹 朝の電車遅延情報 Twitterにおける「今」と「どこ」 Twitterにおける「今」と「どこ」の重要性 地震の発生と震源地を知る 天体現象を知る ゲリラ豪雨 虹 朝の電車遅延情報 リアルな世界で 「今」「どこで」何かが起きているのが分かる Twitterにおける「今」と「どこ」 「今」と「どこ」を利用したアプリケーション Torretter :地震検出システム Nijitter:虹検出システム 時間的な近さから同じ地震であることを同定 Geolocation情報、ユーザーのプロフィールの場所情報を利用して、 震源地を推定する(未実装) 時間的な近さとTweet数から虹が出ていることを同定 位置情報をもとに、虹が出ていると思われる場所に虹を表示 本日はこの仕組みについて説明 サンプル:地震 地震速報システム Toretter 地震速報システム Toretter 虹出現お知らせシステム Nijitter Twitterにおける「今」と「どこ」 「今」と「どこ」を利用したアプリケーション Torretter :地震検出システム Nijitter:虹検出システム 時間的な近さから同じ地震であることを同定 Geolocation情報、ユーザーのプロフィールの場所情報を利用して、 震源地を推定する(未実装) 時間的な近さとTweet数から虹が出ていることを同定 位置情報をもとに、虹が出ていると思われる場所に虹を表示 本日はリアルタイムイベント抽出の仕組みについて説明 サンプル:地震 今日のアジェンダ Twitterで分かる「今」と「どこ」 リアルタイムイベント抽出の仕組み キーワード検索とSVMによるイベント抽出 Particle Filter による位置推定 Twitter上でのリアルタイム情報伝播の特徴 地震抽出システムについて イベント種類による情報伝播の特性 リアルタイムイベント抽出 応用システム にじったー/Toretter 電車遅延抽出/渋滞抽出 Celeb Paparazzi(仮) アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定 ポイント1 機械学習で 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 ポイント1 □地震直後につぶやいた呟き 地震だ!! 地震!? 揺れた! こえ~~ 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢 山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・? ポイント1 □地震直後につぶやいた呟き 地震だ!! 地震!? 揺れた! こえ~~ 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢 山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・? ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 「地震」 「揺れた」 キーワードを 含む呟き Tweetクローラー データベース 提案システム テキスト 分析器 Mecab SVM ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 「地震」 「揺れた」 キーワードを 含む呟き Tweetクローラー データベース 提案システム テキスト 分析器 Mecab SVM ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 「地震」 「揺れた」 キーワードを 含む呟き Tweetクローラー データベース 提案システム テキスト 分析器 Mecab SVM ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 「地震」 「揺れた」 キーワードを 含む呟き Tweetクローラー データベース Support Vector Machine =機械学習の手法 提案システム テキスト 分析器 Mecab SVM 地震に関する呟きのみ抽出 ポイント1~詳細説明 ターゲットとするイベントに関するキーワードを含むTweet を抽出 地震の場合 虹の場合 「揺れた」「地震」 「虹」 収集したTweetを正解と不正解に分類→ 学習データ 例: 「地震だ!!」 --正解 「地震が多い国って、日本だけじゃないんだよな・・・」 --不正解 ポイント1~詳細説明 ターゲットイベント用Tweets分類器作成 収集した学習データを利用 学習手法:Support Vector Machine 使用した特徴量(例文:やばい、地震きた!) 統計量 (3語、2番目) Tweetsが全部で何語か?また、キーワードは何番目か? キーワード ( やばい、地震、くる) Tweets中に含まれている全ての語 キーワード文脈情報 (やばい、くる) キーワードの前後に出現する語 アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定 ポイント2 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定 ポイント2~説明 Twitterからのイベント検出 確率モデル 呟き分類器 センサーによるイベント検出 確率モデル センサーの測定値 tweets ・・・ ・・・ ・・・ ・・・ ・・・ Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ・・・ ・・・ センサーによるイベント検出 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 確率モデル ・・・ tweets ・・・ 呟き分類器 ・・・ ・・・ センサーによるイベント検出 確率モデル センサーの測定値 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 確率モデル 地震に関する呟 きを抽出 確率モデル センサーの測定値 呟き分類器 tweets ・・・ センサーによるイベント検出 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 確率モデル 地震に関する呟 きを抽出 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 確率モデル 地震に関する呟 きを抽出 確率モデル tweets ・・・ 地震センサーが 地震を検出 センサーの測定値 呟き分類器 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 確率モデル 地震に関する呟 きを抽出 確率モデル tweets ・・・ 地震センサーが 地震を検出 センサーの測定値 呟き分類器 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 地震を検出 確率モデル 地震に関する呟 きを抽出 確率モデル tweets ・・・ 地震センサーが 地震に反応 センサーの測定値 呟き分類器 ・・・ ユーザーが「地 震」について呟く Twitterユーザーによる観測 イベント発生 センサーによる観測 ターゲット オブジェクト センサーによる観測と同じ確率的処理で検出可能 ポイント2~詳細説明 実際には確率モデルを使用して検出 Twitterユーザーをセンサーを考えると、ノイズが多く、また誤 検出もあり得る 1つのTweetだけでは、イベントが起きたとは判定できない →時系列的なセンサーの値から、イベント判定を行う 2つの確率モデルを利用 時系列データよりイベント検出を行う確率モデル 指数関数にフィッティング 一連の位置情報より位置推定を行う確率モデル ベイズフィルタを使用 160 120 60 20 0 Aug 9… Aug 9… 0 Aug 9… 0 Aug 10… 0 Aug 10… 0 Aug 10… 0 0 Aug 11… 0 Aug 11… 0 Aug 11… 0 Aug 12… 0 Aug 12… 0 Aug 12… 0 Aug 13… 0 Aug 13… 0 Aug 13… 0 Aug 14… 0 Aug 14… 0 Aug 14… 0 Aug 15… 0 Aug 15… 0 Aug 15… 0 Aug 16… 0 Aug 16… 0 Aug 16… 0 Aug 17… 0 Aug 17… 0 number of tweets number of tweets ポイント2~詳細説明~時系列モデル 120 140 100 80 100 60 80 40 40 20 0 ポイント2~詳細説明~時系列モデル 観測データを指数関数にフィッティング f t; e t t 0, 0 0.34 ターゲットイベントの発生判定を、指数分布に基づいて確 率的に算出 ポイント2~詳細説明~空間モデル ターゲットイベントの発生場所の確率分布を算出 センサーによる位置推定に使われるベイズフィルタを利 用 カルマン フィルタ パーティクルフィルタ ポイント2~詳細説明~空間モデル カルマンフィルタ ベイズ フィルタとして最もよく使われている手法 長所 計算が速い 短所 適用対象が、高精度かつ計測間隔の短い センサーに限られてしまう ポイント2~詳細説明~空間モデル パーティクルフィルタ(粒子フィルタ) 確率分布をparticle=粒子の集合でシミュレートする手法 長所 さまざまな確率分布に適用可能 短所 高次元なデータを用いた予測には適用できない (位置推定は2次元なので適用可能) 検出の精度 どのくらいの精度で検出できたのか? 地震自体の検出結果 震度 震度2以上 震度3以上 震度4以上 地震回数 78 25 3 検出数 70(89.7%) 24(96.0%) 3(100.0%) 1分以内の検出数 53(67.9%) 20(80.0%) 3(100.0%) 期間: 2009年8月 – 2009年9月 収集したTweet数: 49,314 tweets 利用したTweet数: 6291 tweets by 4218 users 震度3以上の地震を96%の精度で検出 震源地予測結果 風船:呟きの位置 色:呟き時刻 Kyoto Tokyo Osaka 予測震源地 (提案) 実際の震源地 台風の進路予測 実際の経路 予測経路 (Particle Filter) 問題点 地震検出の精度・位置推定の精度が Twitterユーザーの多い地域>少ない地域 震源地が海だと予測できない 今日のアジェンダ Twitterで分かる「今」と「どこ」 リアルタイムイベント抽出の仕組み キーワード検索とSVMによるイベント抽出 Particle Filter による位置推定 Twitter上でのリアルタイム情報伝播の特徴 地震抽出システムについて イベント種類による情報伝播の特性 リアルタイムイベント抽出 応用システム にじったー/Toretter 電車遅延抽出/渋滞抽出 Celeb Paparazzi(仮) Twitter上でのイベント情報の伝播 調査の発端 センサーによる観測手法 →センサー同士が影響しないことが前提 → Twitterユーザー同士は影響を及ぼしてしまうのではな いか? 2種類のイベントについてネットワークの特徴量を比較 ユーザーの周囲で突発的に発生するイベント 地震・台風 学会/研究会イベント Twitter上でのイベント情報の伝播 2種類の情報伝播ネットワークを定義 フォロワー ネットワーク ユーザーB follow 地震?? ユーザーA 地震が起きたっぽい Retweetネットワーク 大丈夫!? RT @user B: 地震?? 地震?? ユーザーB follow ユーザーA 突発的に発生するイベントの情報伝播 フォロワーネットワークの密度:普通 Retweetネットワーク:中心性の高いユーザーがいない フォロワーネットワーク 台風 Retweetネットワーク 台風 突発的に発生するイベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク Rpagerank v.s. Rbetween R pagerank Rpagerank max Pagerank follower max Pagerank retweet R between max between follower max between retweet 12 10 8 6 4 2 0 0.1 1 10 100 1000 10000 100000 Rbetween 突発的に発生するイベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク Rpagerank v.s. Rbetween R pagerank Rpagerank max Pagerank follower max Pagerank retweet R between max between follower max between retweet 12 10 8 6 4 2 0 0.1 1 10 100 1000 10000 100000 Rbetween 突発的に発生するイベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク Rpagerank v.s. Rbetween R pagerank Rpagerank max Pagerank follower max Pagerank retweet R between max between follower max between retweet 12 10 8 台風 6 地震 地震 4 2 0 0.1 1 10 100 1000 10000 100000 Rbetween 学会/研究会イベントの情報伝播 フォロワーネットワークの密度が高い RTネットワークの密度が高い フォロワーネットワーク ある研究会 Retweet ネットワーク ある研究会 学会/研究会イベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク ネットワーク密度 Dretweet 0.03 0.025 0.02 0.015 0.01 0.005 D following 0 0 0.01 0.02 0.03 0.04 0.05 0.06 学会/研究会イベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク ネットワーク密度 Dretweet 0.03 0.025 0.02 0.015 0.01 0.005 D following 0 0 0.01 0.02 0.03 0.04 0.05 0.06 学会/研究会イベントの情報伝播 フォロワーネットワーク v.s. Retweet ネットワーク ネットワーク密度 Dretweet 0.03 0.025 web 学会 0.02 0.015 Twitter 研究会 0.01 0.005 SIG-WI2 D following 0 0 0.01 0.02 0.03 0.04 0.05 0.06 Twitter上でのイベント情報の伝播 学会/研究会イベント 他のイベントと比べ、フォロワーネットワークの密度が高い Retweetも発生しやすい → 情報伝播が発生しやすいイベント 突発的なイベント(自然現象) Retweetネットワークには中心性の高いユーザーはいない. =ユーザーは突発的なイベントについてはあまりRetweetしない → 情報伝播が発生しにくいイベント Twitter上でのイベント情報の伝播 地震や台風については、センサー観測と同 じ手法を適用可能 イベントの種類によって情報伝播の特徴が 異なる 今日のアジェンダ Twitterで分かる「今」と「どこ」 リアルタイムイベント抽出の仕組み キーワード検索とSVMによるイベント抽出 Particle Filter による位置推定 Twitter上でのリアルタイム情報伝播の特徴 地震抽出システムについて イベント種類による情報伝播の特性 リアルタイムイベント抽出 応用システム にじったー/Toretter 電車遅延抽出/渋滞抽出 Celeb Paparazzi(仮) 地震速報システム Toretter 虹出現お知らせシステム Nijitter 芸能人を目撃せよ Celeb Paparazzi(作成中) 芸能人を目撃せよ Celeb Paparazzi(作成中) 今、新宿三丁目で あの伝説の外人 チャックウィルソン 発見! 芸能人を目撃せよ Celeb Paparazzi(作成中) 今、新宿三丁目で あの伝説の外人 チャックウィルソン 発見! いま伊集院光氏が秋葉原 うろうろしてるみたいです よ^^接近遭遇のちゃちゃ ちゃチャンスですよ!w 。 芸能人を目撃せよ Celeb Paparazzi(作成中) 今、新宿三丁目で あの伝説の外人 チャックウィルソン 発見! フジテレビ内の ローソンでとんちゃ んとフォンチーを見 かけたよ。 いま伊集院光氏が秋葉原 うろうろしてるみたいです よ^^接近遭遇のちゃちゃ ちゃチャンスですよ!w 。 芸能人を目撃せよ Celeb Paparazzi(作成中) 今、新宿三丁目で あの伝説の外人 チャックウィルソン 発見! フジテレビ内の ローソンでとんちゃ んとフォンチーを見 かけたよ。 いま伊集院光氏が秋葉原 うろうろしてるみたいです 明治通りで美川憲 よ^^接近遭遇のちゃちゃ 一に遭遇なう。めっ ちゃチャンスですよ!w 。 ちゃくねくねしてる。 芸能人を目撃せよ Celeb Paparazzi(作成中) 今、新宿三丁目で あの伝説の外人 チャックウィルソン 発見! 楳図かずおさん見か けた@吉祥寺。 赤と 白のボーダーすごい 似合ってた。 。 フジテレビ内の ローソンでとんちゃ んとフォンチーを見 かけたよ。 いま伊集院光氏が秋葉原 うろうろしてるみたいです 明治通りで美川憲 よ^^接近遭遇のちゃちゃ 一に遭遇なう。めっ ちゃチャンスですよ!w 。 ちゃくねくねしてる。 8月31日の16:00~20:00の間のTweet 芸能人を目撃せよ Celeb Paparazzi(作成中) 実際の仕組み 「発見」「遭遇」などを含むTweetを収集 有名人の人名が含まれてるTweetを抽出 Wikipedia等から収集した人物名リストを使用 地名情報・位置情報を取得 → リアルタイムに芸能人目撃情報を表示 現状、1~2tweets/時間程度 (位置・地名情報が無いものはその2~3倍程度) その他作りたいアプリ(計画&妄想) 計画中 電車遅延情報お知らせシステム 渋滞情報表示システム 妄想 なんでもイベント判別器作成システム 正解データ/不正解データをユーザーがトゥギャる イベント判別器を自動作成 天体情報表示&写真収集システム まとめ 高い精度でイベント検出可能 ある程度の位置推定も可能 イベントごとの情報伝播の違いを検証 様々なイベント抽出サイトを作成 他のリアルタイムなイベントに応用可能 例:電車遅延 etc おしまい @tksakaki CM: Twitter口コミ伝播図作成サービスはホットリンクへ・・・・ 位置情報推定の精度 地震 日付 実際の中心 中間値 平均値 カルマンフィルタ 粒子フィルタ 緯度・経度の最小2乗誤差 平均値 - 5.47 3.62 Particle filters works better than other methods 3.85 3.01 位置情報推定の精度 台風 日付 実際の中心 中間値 平均値 カルマンフィルタ 粒子フィルタ 緯度・経度の最小2乗誤差 平均値 - 4.39 4.02 Particle Filters works better than other methods 9.56 3.58
© Copyright 2024 ExpyDoc