スライド 1

フォロー関係に基づくTwitterユーザの分類
山下拓也 佐藤晴彦 小山聡 栗原正仁(北海道大学大学院 情報科学研究科)
Twitter
近年マイクロブログサービスとSNSの両方の性質を持つTwitterとい
うWebサービスが注目を浴びている.
マイクロブログサービスの性質は140字以内の短文をWebに投稿す
るツイートと呼ばれる機能から実現される.
SNSとしての性質はフォローと呼ばれる機能から実現される.フォロー
とは二ユーザ間において,あるユーザが指定したユーザの情報を購読
する機能である.
研究目的
フォローは大抵「同じ興味」「友人」など共通した属性を持つユーザ間で行われ
ることが多い.よってユーザ集合内にフォローが多数存在する場合同じ属性に基
づいたユーザは互いにフォローしあっており,まとまりを構成しているのではない
かと考えることができる.
またユーザがフォローしているユーザの集合(以下フォロー集合)においてこの
ようなまとまりに分けることは情報の整理,ユーザ推薦等の観点も非常に有用で
あるといえる.
本研究では共通した属性を持つユーザはフォローし合っていることを仮定し,
仮定を満たしていることの確認とそれぞれの属性ごとに分けることを目的とする.
提案手法
フォロー関係をユーザをノード,フォローをエッジ,ユーザ間の類似度を重みとした重みつき有向グラフとして扱い,高い類
似度で繋がっているユーザをまとめるようにクラスタリングを行う.クラスタリングの手法はスペクトラル法を採用した.
スペクトラルクラスタリングに用いられる類似行列はフォローの有無を表す隣接行列より作成する.具体的に,隣接行列は
i 行j 列においてユーザi がユーザj をフォローしていたら1, フォローしていなければ0として作成する.類似行列ではi 行j
列の要素を, ユーザi とユーザj が相互にフォローし合っていれば1, どちらか一方向へのフォローのみが存在すれば0.5,
フォローがなければ0 として作成する.
クラスタ数に関して本研究ではユーザからあらかじめ正解データを作成してもらい,クラスタリング結果と正解データがど
れだけ近いかを評価するRand-Index評価値を用いて最も評価値が高かったクラスタ数をクラスタリングの出力結果とし
た.これにより仮定が満たされているか,クラスタ数を決める上でどのようなことが重要かが分かる.
結果
フォロー数やフォロワー数の大きくないユーザに関してはかなり正解データに近いクラスタリング結果が得られた.正解
データとのずれの多くはフォロー数やフォロワー数の大きいユーザに起因していた.