閲覧期間を考慮した Twitter上の意外な情報の 抽出手法 ◎大原 啓詳(甲南大学) 鈴木 優 (奈良先端科学技術大学院大学) 灘本 明代(甲南大学) 背景 Twitterにおけるユーザ同士の繋がり Follow Tweet 共通の趣味 興味のある事柄の専門家 アーティスト・有名人 多くのユーザをフォロー⇒多くの情報が得られる 一方… フォローが増加すればTLが加速 TLを常時確認することは困難 有益な情報を見落とす可能性も増加 目的 閲覧者にとって有益な情報 閲覧者の知らなかった新鮮味のある情報 興味のある事柄について変化のあった情報 抽出 TL閲覧の効率化・貴重な情報の見落とし防止 抽出対象とする情報 閲覧者にとって有益な情報 閲覧者の知らなかった新鮮味のある情報 興味のある事柄について変化のあった情報 閲覧者の予備知識に依存 閲覧者の経験 実世界での伝聞 推測・予測 タイムライン(TL)の閲覧 閲覧期間・話題 対象とする情報発信者 フォロワー数の多い 情報発信者 芸能人 キュレーター フォロワー数の少ない 情報発信者 一般人ユーザ ツイートの特徴 ツイートの特徴 拡散されやすい 拡散されにくい 目に留まりやすい 埋もれやすい 例えば Research Baseball Soccer Follow Soccer Soccer Soccer Tweet Follow Baseball Soccer Baseball Research Follow前の行動については 閲覧者の知らない情報が多い 例えば TLを確認する時間 が取れなくなる Research Follow Soccer (Player) Soccer 見落とした期間 Soccer Baseball Soccer 閲覧者が見落とした情報の中に 有益な情報が存在 閲覧期間と表示情報 Soccer(Player), Baseball Aの見落とした期間 閲覧者A Soccer (Player) Research Soccer Baseball Soccer Soccer Bの見落とした期間 Soccer, Baseball 閲覧者B 閲覧者ごとに表示すべき情報 あるいは情報の粒度が異なる 手法 対象ユーザのタイムライン 対象ユーザのTL全体から ツイートに含まれる話題(トピック)を抽出 Baseball Research Soccer Follow前 Follow 見落とした話題 Baseball Soccer 見落とした期間 閲覧した話題 Research Baseball 各期間において出現した話題を分類 手法 見落とした話題 Baseball Soccer 未知の話題 Soccer 未知のトピック Soccer 比較 閲覧した話題 Research Baseball 既知の話題 Baseball 新鮮味のある 情報を含むサブトピック Team Game Baseball Player 話題の分類 あるユーザのツイート 形態素解析 Wikipedia カテゴリ情報DB ツイートの話題ごとのクラスタリング 名詞抽出 話題の分類 名詞のみ,カテゴリのみ、名詞+カテゴリの3パターン についてクラスタリング結果を評価 ・対象アカウント:比較的まとまった話題について 投稿しているユーザ ・ツイート数:598件 ・クラスタリング手法:Repeated bisection ・クラスタ内のツイートの話題を人目で確認し, 正確に分類できているかを判断 話題の分類 クラスタ数 適合率 (クラスタ) 適合率 (ツイート) 名詞のみ 45 57.8% 57.6% カテゴリのみ 42 59.5% 61.2% カテゴリ+名詞 43 69.8% 72.2% ・ツイート中の名詞とWikipediaのカテゴリ情報を 複合して利用したパターンが,クラスタリング の失敗は少なかった. ・より話題が多様なユーザなどについても 評価を行う必要がある. まとめと今後の課題 まとめ ・Twitterからの有益な情報の抽出について 現在のTwitterにおける問題の提起と 閲覧期間に着目した手法の検討を行った 課題 ・ツイートを適切な話題ごとに 分類するための手法に関する検討 ・閲覧者の予備知識と提示する話題の粒度 (詳細さ)についての検討 ・どのような情報を表示することが 適当であるかの検討
© Copyright 2024 ExpyDoc