ツイート - 灘本研究室

閲覧期間を考慮した
Twitter上の意外な情報の
抽出手法
◎大原 啓詳(甲南大学)
鈴木 優 (奈良先端科学技術大学院大学)
灘本 明代(甲南大学)
背景
Twitterにおけるユーザ同士の繋がり
Follow
Tweet
共通の趣味
興味のある事柄の専門家
アーティスト・有名人
多くのユーザをフォロー⇒多くの情報が得られる
一方…
フォローが増加すればTLが加速
TLを常時確認することは困難
有益な情報を見落とす可能性も増加
目的
閲覧者にとって有益な情報
閲覧者の知らなかった新鮮味のある情報
興味のある事柄について変化のあった情報
抽出
TL閲覧の効率化・貴重な情報の見落とし防止
抽出対象とする情報
閲覧者にとって有益な情報
閲覧者の知らなかった新鮮味のある情報
興味のある事柄について変化のあった情報
閲覧者の予備知識に依存
閲覧者の経験
実世界での伝聞
推測・予測
タイムライン(TL)の閲覧
閲覧期間・話題
対象とする情報発信者
フォロワー数の多い
情報発信者
芸能人
キュレーター
フォロワー数の少ない
情報発信者
一般人ユーザ
ツイートの特徴
ツイートの特徴
拡散されやすい
拡散されにくい
目に留まりやすい
埋もれやすい
例えば
Research
Baseball
Soccer
Follow
Soccer
Soccer
Soccer
Tweet
Follow
Baseball
Soccer
Baseball
Research
Follow前の行動については
閲覧者の知らない情報が多い
例えば
TLを確認する時間
が取れなくなる
Research
Follow
Soccer
(Player)
Soccer
見落とした期間
Soccer
Baseball
Soccer
閲覧者が見落とした情報の中に
有益な情報が存在
閲覧期間と表示情報
Soccer(Player), Baseball
Aの見落とした期間
閲覧者A
Soccer
(Player)
Research
Soccer
Baseball
Soccer
Soccer
Bの見落とした期間
Soccer, Baseball
閲覧者B
閲覧者ごとに表示すべき情報
あるいは情報の粒度が異なる
手法
対象ユーザのタイムライン
対象ユーザのTL全体から
ツイートに含まれる話題(トピック)を抽出
Baseball
Research
Soccer
Follow前
Follow
見落とした話題
Baseball
Soccer
見落とした期間
閲覧した話題
Research
Baseball
各期間において出現した話題を分類
手法
見落とした話題
Baseball
Soccer
未知の話題
Soccer
未知のトピック
Soccer
比較
閲覧した話題
Research
Baseball
既知の話題
Baseball
新鮮味のある
情報を含むサブトピック
Team
Game
Baseball
Player
話題の分類
あるユーザのツイート
形態素解析
Wikipedia
カテゴリ情報DB
ツイートの話題ごとのクラスタリング
名詞抽出
話題の分類
名詞のみ,カテゴリのみ、名詞+カテゴリの3パターン
についてクラスタリング結果を評価
・対象アカウント:比較的まとまった話題について
投稿しているユーザ
・ツイート数:598件
・クラスタリング手法:Repeated bisection
・クラスタ内のツイートの話題を人目で確認し,
正確に分類できているかを判断
話題の分類
クラスタ数
適合率
(クラスタ)
適合率
(ツイート)
名詞のみ
45
57.8%
57.6%
カテゴリのみ
42
59.5%
61.2%
カテゴリ+名詞
43
69.8%
72.2%
・ツイート中の名詞とWikipediaのカテゴリ情報を
複合して利用したパターンが,クラスタリング
の失敗は少なかった.
・より話題が多様なユーザなどについても
評価を行う必要がある.
まとめと今後の課題
まとめ
・Twitterからの有益な情報の抽出について
現在のTwitterにおける問題の提起と
閲覧期間に着目した手法の検討を行った
課題
・ツイートを適切な話題ごとに
分類するための手法に関する検討
・閲覧者の予備知識と提示する話題の粒度
(詳細さ)についての検討
・どのような情報を表示することが
適当であるかの検討