Twitterの発言に基づくウェブページ推薦システム H208029 京極明宏 H208068 林一輝 研究動機 • Twitter上の書き込みから、その人が興味をもちそう なことや新しい発見につながりそうなことを推薦でき ればその人の役にたてるのではないかと思い、この 研究に取り組んだ。 研究目的 • Twitterのユーザー名を入力すると、そのユーザー の興味のありそうなウェブページを推薦するシステ ムの構築。 • 興味のあるキーワード(プリウス、iphoneなど)を見 つけ出し、関連のあるページを検索エンジンYahooを 使いリンク集を提示する。 実際のシステム 実際のシステム 提案手法 • TwitterAPIを用いてユーザーの最近のTweet200件 を取り出す・・・1 • Tweetを解析してユーザーの興味がありそうなキー ワードを抽出する・・・2 • 単語(キーワード)を検索エンジン(Yahoo)にかけ、 ウェブページを推薦する・・・3 Twitterの説明 TwitterAPIを用いてTweetを取り出す・・・1 • TwitterAPIを使用するとユーザーのTwitter情報が XML形式で保存され、そこの<text></text>の間に ユーザーのTweetが含まれる。 • 実際に必要なのはTweetだけなので、ほかの情報は 削除する。 • 本研究ではユーザーの最近のTweetを約200個使用 する。(ユーザーが発言したものだけ) TwitterAPIを用いてTweetを取り出す・・・1 Tweetを解析・・・2 • ユーザーがどのような分野(カテゴリ)に興味がある か調べる。 • どの分野に興味があるか決定したら、その分野から キーワードを抽出していく。 Tweetを解析・・・2 • Tweetを解析するためにMeCab(形態素解析器)と 「はてなキーワード」を使用する。 • MeCabとは、品詞情報を利用した解析・推定を行う ことができものである。 Tweetを解析・・・2 • はてなキーワードをMeCab(形態素解析器)に辞書と して追加 人手で作成されたキーワード集(カテゴリ分け) 追加したはてなキーワード 260,000キーワード カテゴリ 一般 読書 音楽 映画 ウェブ コンピュータ 動植 物 テレビ アニメ 食 スポーツ ゲーム マンガ ア イドル 社会 地理 アート サイエンス はてな Tweetを解析・・・2 • @Melia765 もののけ姫を久しぶりに見た • 一般的な形態素解析器(MeCab) もの / のけ / 姫 / を / 久しぶり / に / 見 / た • はてなキーワードを辞書として追加後(MeCab) もののけ姫 / を / 久しぶり / に / 見 / た Tweetを解析・・・2 • はてなキーワードを追加した辞書で形態素解析を行う。 (例) もののけ姫を久しぶりに見た もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もの のけひめ,もののけひめ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 久しぶり 名詞,一般,*,*,*,*,久しぶり,ヒサシブリ,ヒサシブ リ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS Tweetを解析・・・2 • もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ,もののけひめ 映画について言及している。 このようにユーザーのTweetを解析していきカテゴリを調べて ユーザーの興味分野を推定する。 カテゴリに付与されている単語を調べる。 ・・・2 • ユーザーの興味分野を示すカテゴリから検索エンジ ン(Yahoo)にかけるキーワードの抽出を行なう。カテ ゴリ情報をもつ単語を本研究ではキーワードとして 扱う。 カテゴリに付与されている単語を調べる。 ・・・2 もののけ姫 名詞,固有名詞,movie,*,*,*,もののけ姫,もののけひめ キーワード カテゴリ ウェブページを推薦する・・・3 • キーワードを多い順(上位5位まで)から表示し、一番多いも のを検索にかける。 Melia765 [[“movie”, 5],[“tv”, 3], [“anime”, 2], [“game”, 1], ["science", 0], ["idol", 0], ["geography", 0], ["music", 0], ["art", 0], ["hatena", 0], ["elec", 0], ["comic", 0], ["web", 0], ["sports", 0], ["book", 0], ["society", 0], ["food", 0]] 1 もののけ姫 ->3 2 タイタニック ->2 3 猿の惑星 ->1 keyword = もののけ姫 ウェブページを推薦する・・・3 • Keywordが検索エンジン(Yahoo)にかけられ keywordに基づいたリンク集が表示される。 検証 • Twitterを使用している人を対象に実際に使ってもら い評価をしてもらう。 • 対象人数はTwitter利用者(Tweet200件以上)10人 である。 • ユーザーが新しい発見などを見いだせるか試しても らう。 検証結果 • 良い評価 興味のなかったキーワードに対して、ウェブページを みたら興味を持った。 普段どのようなTweetをしているか分かった。 • 悪い評価 リンク集で表示されるので、どのページを見たらよい のかわからない。 考察 • キーワードに関してはユーザーの興味、関心のある ものが選ばれている。 • 興味のないキーワードに対してもウェブページをみ てもらうことで興味を持ってもらえた。 • しかし推薦されるウェブページがリンク集で表示され るため内容が分かりにくい。 改善案と展望 • リンク集で表示する仕方を変える。 • ウェブページの種類をカテゴリに合わせて用意し見 やすくする。 • 検証、改善を続け研究動機に近づくようにしていくこ とが展望でもあり課題でもある。 質問、コメントをお願いします 質問 • カテゴリが同順位になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 しゃべくり007 前田敦子 わらっていいとも 大島優子 しゃべくり007が二つあるのでこちらが優先される。 質問 • キーワードとカテゴリが同じ数になってしまったら? tv=3 idol=3 しゃべくり007 AKB48 しゃべくり007 AKB48 わらっていいとも 大島優子 • しゃべくり007とAKB48が同じ数だけあるので両方検 索エンジンにかける。 カテゴリ分けを使った理由 • • • • • • • キーワードだけを多い順で取得 AKB48・・1番多い カテゴリを使うと Book = 5 Idol = 3 このユーザーは本に興味がある。 なので本の分野からキーワードを抽出して推薦 したほうがユーザーにとって興味、関心が見つ かりやすい。
© Copyright 2024 ExpyDoc