Twitterを用いたweb推薦システム - Welcome to Sirai`s

Twitterの発言に基づくウェブページ推薦システム
H208029 京極明宏
H208068 林一輝
研究動機
• Twitter上の書き込みから、その人が興味をもちそう
なことや新しい発見につながりそうなことを推薦でき
ればその人の役にたてるのではないかと思い、この
研究に取り組んだ。
研究目的
• Twitterのユーザー名を入力すると、そのユーザー
の興味のありそうなウェブページを推薦するシステ
ムの構築。
• 興味のあるキーワード(プリウス、iphoneなど)を見
つけ出し、関連のあるページを検索エンジンYahooを
使いリンク集を提示する。
実際のシステム
実際のシステム
提案手法
• TwitterAPIを用いてユーザーの最近のTweet200件
を取り出す・・・1
• Tweetを解析してユーザーの興味がありそうなキー
ワードを抽出する・・・2
• 単語(キーワード)を検索エンジン(Yahoo)にかけ、
ウェブページを推薦する・・・3
Twitterの説明
TwitterAPIを用いてTweetを取り出す・・・1
• TwitterAPIを使用するとユーザーのTwitter情報が
XML形式で保存され、そこの<text></text>の間に
ユーザーのTweetが含まれる。
• 実際に必要なのはTweetだけなので、ほかの情報は
削除する。
• 本研究ではユーザーの最近のTweetを約200個使用
する。(ユーザーが発言したものだけ)
TwitterAPIを用いてTweetを取り出す・・・1
Tweetを解析・・・2
• ユーザーがどのような分野(カテゴリ)に興味がある
か調べる。
• どの分野に興味があるか決定したら、その分野から
キーワードを抽出していく。
Tweetを解析・・・2
• Tweetを解析するためにMeCab(形態素解析器)と
「はてなキーワード」を使用する。
• MeCabとは、品詞情報を利用した解析・推定を行う
ことができものである。
Tweetを解析・・・2
• はてなキーワードをMeCab(形態素解析器)に辞書と
して追加
人手で作成されたキーワード集(カテゴリ分け)
追加したはてなキーワード 260,000キーワード
カテゴリ
一般 読書 音楽 映画 ウェブ コンピュータ 動植
物 テレビ アニメ 食 スポーツ ゲーム マンガ ア
イドル 社会 地理 アート サイエンス はてな
Tweetを解析・・・2
• @Melia765
もののけ姫を久しぶりに見た
• 一般的な形態素解析器(MeCab)
もの / のけ / 姫 / を / 久しぶり / に / 見 / た
• はてなキーワードを辞書として追加後(MeCab)
もののけ姫 / を / 久しぶり / に / 見 / た
Tweetを解析・・・2
• はてなキーワードを追加した辞書で形態素解析を行う。
(例)
もののけ姫を久しぶりに見た
もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もの
のけひめ,もののけひめ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
久しぶり
名詞,一般,*,*,*,*,久しぶり,ヒサシブリ,ヒサシブ
リ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS
Tweetを解析・・・2
• もののけ姫
名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ
映画について言及している。
このようにユーザーのTweetを解析していきカテゴリを調べて
ユーザーの興味分野を推定する。
カテゴリに付与されている単語を調べる。
・・・2
• ユーザーの興味分野を示すカテゴリから検索エンジ
ン(Yahoo)にかけるキーワードの抽出を行なう。カテ
ゴリ情報をもつ単語を本研究ではキーワードとして
扱う。
カテゴリに付与されている単語を調べる。
・・・2
もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ
キーワード
カテゴリ
ウェブページを推薦する・・・3
• キーワードを多い順(上位5位まで)から表示し、一番多いも
のを検索にかける。
Melia765
[[“movie”, 5],[“tv”, 3], [“anime”, 2], [“game”, 1], ["science", 0],
["idol", 0], ["geography", 0], ["music", 0], ["art", 0], ["hatena", 0],
["elec", 0], ["comic", 0], ["web", 0], ["sports", 0], ["book", 0],
["society", 0], ["food", 0]]
1 もののけ姫 ->3
2 タイタニック ->2
3 猿の惑星 ->1
keyword = もののけ姫
ウェブページを推薦する・・・3
• Keywordが検索エンジン(Yahoo)にかけられ
keywordに基づいたリンク集が表示される。
検証
• Twitterを使用している人を対象に実際に使ってもら
い評価をしてもらう。
• 対象人数はTwitter利用者(Tweet200件以上)10人
である。
• ユーザーが新しい発見などを見いだせるか試しても
らう。
検証結果
• 良い評価
興味のなかったキーワードに対して、ウェブページを
みたら興味を持った。
普段どのようなTweetをしているか分かった。
• 悪い評価
リンク集で表示されるので、どのページを見たらよい
のかわからない。
考察
• キーワードに関してはユーザーの興味、関心のある
ものが選ばれている。
• 興味のないキーワードに対してもウェブページをみ
てもらうことで興味を持ってもらえた。
• しかし推薦されるウェブページがリンク集で表示され
るため内容が分かりにくい。
改善案と展望
• リンク集で表示する仕方を変える。
• ウェブページの種類をカテゴリに合わせて用意し見
やすくする。
• 検証、改善を続け研究動機に近づくようにしていくこ
とが展望でもあり課題でもある。
質問、コメントをお願いします
質問
• カテゴリが同順位になってしまったら?
tv=3
idol=3
しゃべくり007
AKB48
しゃべくり007
前田敦子
わらっていいとも
大島優子
しゃべくり007が二つあるのでこちらが優先される。
質問
• キーワードとカテゴリが同じ数になってしまったら?
tv=3
idol=3
しゃべくり007
AKB48
しゃべくり007
AKB48
わらっていいとも
大島優子
• しゃべくり007とAKB48が同じ数だけあるので両方検
索エンジンにかける。
カテゴリ分けを使った理由
•
•
•
•
•
•
•
キーワードだけを多い順で取得
AKB48・・1番多い
カテゴリを使うと
Book = 5
Idol = 3
このユーザーは本に興味がある。
なので本の分野からキーワードを抽出して推薦
したほうがユーザーにとって興味、関心が見つ
かりやすい。