ブログマイニングによる観光情報分析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文 はじめに ブログ:日々更新される日記的サイト ブログ開設数 868万人、インターネット利用者全体の11% 現在、北海道では観光産業が基幹産業として非 常に重要視されている 「北海道」というキーワードを含むブログはブロ グ検索サイトで検索すると150万以上存在する 本研究では、ブログマイニングツールの開発を 行い、ブログと観光との関連についての研究の 基礎的な検討を行った 内容 ブログマイニング FC2ブログ 開発ツール「blogHITer」 システム構成 形態素解析ツール「chasen」 分析結果 「旅行」カテゴリユーザの分析 ブログマイニング ブログマイニング webマイニング技術利用によりブログを解析し、社会情 勢やコミュニティの存在など有益な情報を取り出すこと webマイニング データベース技術、情報検索技術、自然言語処理技術 との関連性も深く、データマイニング技術と連携している。 webコンテンツマイニング:webページを構成するテキスト情報 web構造マイニング:webページ間を結ぶリンク構造情報 web利用マイニング:webページへのアクセスログ 本研究は、webコンテンツマイニングであり、ブ ログの内容を対象としている。 主なブログ 主なブログとして16種類挙げる。 Autopage FC2ブログ gooブログ JUGEM livedoor ブログ Seesaaブログ So-net blog Yahoo!ブログ アメーバブログ ウェブリブログ エキサイトブログ ココログ ドリコムブログ はてなダイアリー ヤプログ! 楽天ブログ FC2ブログ 様々なカテゴリの ブログを作ること が可能 全てにおいて優 良で、幅広い目的 にあったサービス を展開。 登録者数は80万 人以上。 blogHITerの構成 ブログ収集 ブログ解析 バースト検索 傾向分析 行動分析 ブログ収集 Getfc2.java newentry.rdfを解析 fc2.txtに必要なデータを保存 Entry.java fc2.txtからデータを読込む ブログにアクセスし、内容を保存 ブログ解析 バースト検索 検索された言葉に関して、ブロ グ著者間の使用頻度を検索し 表示する機能 傾向分析 指定されたユーザIDや月に関し て、それぞれの言葉の使用頻 度を検索し表示する機能 行動分析 ブログ記入時間がいつだったか を表示する機能 Chasenについて 自然言語処理のうち、形態素解析(Morphological Analysis)に用いられるツール。 奈良先端科学技術大学院大学の自然言語処理学講座で 開発がなされ、フリーで配布されている。 収集ブログデータ 収集対象:FC2ブログ 収集範囲:2005/7/1~2006/6/31 収集ID数:338件 総記事数:32,841個 最小記事数:1個 最大記事数:364個 平均記事数:97.1個 バースト検索結果(検索語=「冬休み」) 冬休み期間である12月、1月が回数が多い。 7月、8月は回数が少ない。 検索語「知床」と「世界遺産」の結果 傾向分析結果(ユーザID=「156」) 「写真」という言葉が多 く、趣味が写真である と考えられる。 「156」は昼にブログを 書いていることがわか る。 実際に「156」のブログ を確認したところ、写 真関係の記事が多い。 行動分析結果(全ユーザ) ブログ記入時間の1時間毎の総計を分析することが出来る。 個々の行動分析をまとめて見ることが出来る。 行動分析の総計のグラフ 22時から1時までの夜間にブログを投稿している人が多い(25%) 昼時である12時が多い(8%) 朝方の5時、6時は投稿している人はほとんどいない(1.3%) ブログと観光との比較分析 一般ユーザと旅行カテゴリユーザの比較 行動分析 バースト検索 FC2ブログカテゴリ一覧 日記 ニュース ブログ モブログ 音楽 映画 政治・経済 オンラインゲーム ゲーム アニメ・コミック 本・雑誌 小説・文学 車・バイク テレビ・ラジオ アイドル・芸能 就職・お仕事 恋愛 ファッション・ブランド 結婚・家庭生活 育児 ペット 趣味・実用 ライフ 株式・投資・マネー アフィリエイト グルメ ヘルス・ダイエット ビジネス コンピュータ 携帯電話・PHS 写真 地域情報 旅行 海外情報 スポーツ ファイナンス 学校・教育 福祉・ボランティア 学問・文化・芸術 お笑い ギャンブル 謎 独身・フリー 心と身体 サブカル その他 アダルト 計47個 収集ブログデータ(旅行カテゴリ) 収集対象:FC2ブログ・旅行カテゴリ 収集範囲:2006/1/1~2006/12/31 収集ID数:111件 総記事数:8699個 最小記事数:1個 最大記事数:363個 平均記事数:78.0個 旅行カテゴリと一般の行動分析比較 一般は夜間に更新することが多いのに対し、旅行カテゴリは 18時-が多い。 旅行カテゴリの傾向分析(ユーザID=「chikatetsu」) 地下鉄関係の人である と推測できる。 夕方から夜にかけて更 新することが多い。 実際に、確認したところ 駅員であった。 検索語「観光」での検索結果 検出回数(回) 記事数(件) 割合(%) 2005年7月 65 1178 5.5 2005年8月 88 1328 6.6 2005年9月 70 1496 4.7 2005年10月 95 1828 5.2 2005年11月 128 2066 6.2 2005年12月 158 2461 6.4 2006年1月 154 2859 5.4 2006年2月 184 2979 6.2 2006年3月 293 3580 8.2 2006年4月 271 3803 7.1 2006年5月 177 4310 4.1 2006年6月 255 4953 5.1 338人中92人(27.2%)から検出した。 検索語「旅行」での検索結果 検出回数(回) 記事数(件) 割合(%) 2005年7月 340 1178 28.9 2005年8月 520 1328 39.2 2005年9月 401 1496 26.8 2005年10月 655 1828 35.8 2005年11月 703 2066 34.0 2005年12月 922 2461 37.5 2006年1月 1010 2859 35.3 2006年2月 1004 2979 33.7 2006年3月 1824 3580 50.9 2006年4月 1836 3803 48.3 2006年5月 1620 4310 37.6 2006年6月 1819 4953 36.7 338人中192人(56.8%)から検出した。 「観光」の検出人数 検出人数(人) 総人数(人) 2005年7月 11 79 13.9 2005年8月 15 90 16.7 2005年9月 16 108 14.8 2005年10月 12 129 9.3 2005年11月 20 148 13.5 2005年12月 15 168 8.9 2006年1月 13 193 6.7 2006年2月 19 214 8.9 2006年3月 25 243 10.3 2006年4月 22 269 8.2 2006年5月 24 290 8.3 2006年6月 27 338 8.0 割合(%) 7、8月が多い。 徐々に下がっていくグラフ。 「旅行」の検出人数 検出人数(人) 総人数(人) 2005年7月 26 79 32.9 2005年8月 30 90 33.3 2005年9月 27 108 25.0 2005年10月 36 129 27.9 2005年11月 42 148 28.4 2005年12月 45 168 26.8 2006年1月 50 193 25.9 2006年2月 63 214 29.4 2006年3月 79 243 32.5 2006年4月 80 269 29.7 2006年5月 77 290 26.6 2006年6月 91 338 26.9 割合(%) 7、8月や3、4月に検出される人数が多い。 ほぼ一定なグラフ。 終わりに ブログ分析ツールblogHITerの開発 ブログの記事が投稿された時間を表示する行動分析 そのユーザーがどのような単語を多く使っているかという 傾向分析 今後の展開 記事内容、トラックバック、コメント、アフィリエイトの分析 他のブログ(livedoorブログ等)のマイニング ブログ検索エンジン(テクノラティ等)の活用 観光とブログ分析の比較 一般ユーザと旅行カテゴリユーザとの比較 観光データとの比較 ブログマイニングによる観光情報分析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文
© Copyright 2024 ExpyDoc