Webマイニングについて

ブログマイニングによる観光情報分析
北海道工業大学 情報デザイン学科
岩佐渉、三田村保、湯川恵子、大堀隆文
はじめに


ブログ:日々更新される日記的サイト
ブログ開設数
868万人、インターネット利用者全体の11%



現在、北海道では観光産業が基幹産業として非
常に重要視されている
「北海道」というキーワードを含むブログはブロ
グ検索サイトで検索すると150万以上存在する
本研究では、ブログマイニングツールの開発を
行い、ブログと観光との関連についての研究の
基礎的な検討を行った
内容
ブログマイニング
 FC2ブログ
 開発ツール「blogHITer」

 システム構成
 形態素解析ツール「chasen」
 分析結果

「旅行」カテゴリユーザの分析
ブログマイニング

ブログマイニング
webマイニング技術利用によりブログを解析し、社会情
勢やコミュニティの存在など有益な情報を取り出すこと

webマイニング
データベース技術、情報検索技術、自然言語処理技術
との関連性も深く、データマイニング技術と連携している。




webコンテンツマイニング:webページを構成するテキスト情報
web構造マイニング:webページ間を結ぶリンク構造情報
web利用マイニング:webページへのアクセスログ
本研究は、webコンテンツマイニングであり、ブ
ログの内容を対象としている。
主なブログ

主なブログとして16種類挙げる。
Autopage
FC2ブログ
gooブログ
JUGEM
livedoor ブログ
Seesaaブログ
So-net blog
Yahoo!ブログ
アメーバブログ
ウェブリブログ
エキサイトブログ
ココログ
ドリコムブログ
はてなダイアリー
ヤプログ!
楽天ブログ
FC2ブログ



様々なカテゴリの
ブログを作ること
が可能
全てにおいて優
良で、幅広い目的
にあったサービス
を展開。
登録者数は80万
人以上。
blogHITerの構成

ブログ収集

ブログ解析
 バースト検索
 傾向分析
 行動分析
ブログ収集

Getfc2.java
newentry.rdfを解析
fc2.txtに必要なデータを保存

Entry.java
fc2.txtからデータを読込む
ブログにアクセスし、内容を保存
ブログ解析

バースト検索
検索された言葉に関して、ブロ
グ著者間の使用頻度を検索し
表示する機能

傾向分析
指定されたユーザIDや月に関し
て、それぞれの言葉の使用頻
度を検索し表示する機能

行動分析
ブログ記入時間がいつだったか
を表示する機能
Chasenについて


自然言語処理のうち、形態素解析(Morphological
Analysis)に用いられるツール。
奈良先端科学技術大学院大学の自然言語処理学講座で
開発がなされ、フリーで配布されている。
収集ブログデータ
 収集対象:FC2ブログ
 収集範囲:2005/7/1~2006/6/31
 収集ID数:338件
 総記事数:32,841個
 最小記事数:1個
 最大記事数:364個
 平均記事数:97.1個
バースト検索結果(検索語=「冬休み」)


冬休み期間である12月、1月が回数が多い。
7月、8月は回数が少ない。
検索語「知床」と「世界遺産」の結果
傾向分析結果(ユーザID=「156」)

「写真」という言葉が多
く、趣味が写真である
と考えられる。

「156」は昼にブログを
書いていることがわか
る。

実際に「156」のブログ
を確認したところ、写
真関係の記事が多い。
行動分析結果(全ユーザ)


ブログ記入時間の1時間毎の総計を分析することが出来る。
個々の行動分析をまとめて見ることが出来る。
行動分析の総計のグラフ



22時から1時までの夜間にブログを投稿している人が多い(25%)
昼時である12時が多い(8%)
朝方の5時、6時は投稿している人はほとんどいない(1.3%)
ブログと観光との比較分析

一般ユーザと旅行カテゴリユーザの比較
 行動分析
 バースト検索
FC2ブログカテゴリ一覧

















日記
ニュース
ブログ
モブログ
音楽
映画
政治・経済
オンラインゲーム
ゲーム
アニメ・コミック
本・雑誌
小説・文学
車・バイク
テレビ・ラジオ
アイドル・芸能
就職・お仕事
恋愛














ファッション・ブランド
結婚・家庭生活
育児
ペット
趣味・実用
ライフ
株式・投資・マネー
アフィリエイト
グルメ
ヘルス・ダイエット
ビジネス
コンピュータ
携帯電話・PHS
写真
地域情報
 旅行
 海外情報
 スポーツ
 ファイナンス
 学校・教育
 福祉・ボランティア
 学問・文化・芸術
 お笑い
 ギャンブル
 謎
 独身・フリー
 心と身体
 サブカル
 その他
 アダルト
計47個

収集ブログデータ(旅行カテゴリ)
 収集対象:FC2ブログ・旅行カテゴリ
 収集範囲:2006/1/1~2006/12/31
 収集ID数:111件
 総記事数:8699個
 最小記事数:1個
 最大記事数:363個
 平均記事数:78.0個
旅行カテゴリと一般の行動分析比較

一般は夜間に更新することが多いのに対し、旅行カテゴリは
18時-が多い。
旅行カテゴリの傾向分析(ユーザID=「chikatetsu」)

地下鉄関係の人である
と推測できる。

夕方から夜にかけて更
新することが多い。

実際に、確認したところ
駅員であった。
検索語「観光」での検索結果
検出回数(回)
記事数(件)
割合(%)
2005年7月
65
1178
5.5
2005年8月
88
1328
6.6
2005年9月
70
1496
4.7
2005年10月
95
1828
5.2
2005年11月
128
2066
6.2
2005年12月
158
2461
6.4
2006年1月
154
2859
5.4
2006年2月
184
2979
6.2
2006年3月
293
3580
8.2
2006年4月
271
3803
7.1
2006年5月
177
4310
4.1
2006年6月
255
4953
5.1

338人中92人(27.2%)から検出した。
検索語「旅行」での検索結果
検出回数(回)
記事数(件)
割合(%)
2005年7月
340
1178
28.9
2005年8月
520
1328
39.2
2005年9月
401
1496
26.8
2005年10月
655
1828
35.8
2005年11月
703
2066
34.0
2005年12月
922
2461
37.5
2006年1月
1010
2859
35.3
2006年2月
1004
2979
33.7
2006年3月
1824
3580
50.9
2006年4月
1836
3803
48.3
2006年5月
1620
4310
37.6
2006年6月
1819
4953
36.7

338人中192人(56.8%)から検出した。
「観光」の検出人数
検出人数(人)
総人数(人)
2005年7月
11
79
13.9
2005年8月
15
90
16.7
2005年9月
16
108
14.8
2005年10月
12
129
9.3
2005年11月
20
148
13.5
2005年12月
15
168
8.9
2006年1月
13
193
6.7
2006年2月
19
214
8.9
2006年3月
25
243
10.3
2006年4月
22
269
8.2
2006年5月
24
290
8.3
2006年6月
27
338
8.0


割合(%)
7、8月が多い。
徐々に下がっていくグラフ。
「旅行」の検出人数
検出人数(人)
総人数(人)
2005年7月
26
79
32.9
2005年8月
30
90
33.3
2005年9月
27
108
25.0
2005年10月
36
129
27.9
2005年11月
42
148
28.4
2005年12月
45
168
26.8
2006年1月
50
193
25.9
2006年2月
63
214
29.4
2006年3月
79
243
32.5
2006年4月
80
269
29.7
2006年5月
77
290
26.6
2006年6月
91
338
26.9


割合(%)
7、8月や3、4月に検出される人数が多い。
ほぼ一定なグラフ。
終わりに

ブログ分析ツールblogHITerの開発
 ブログの記事が投稿された時間を表示する行動分析
 そのユーザーがどのような単語を多く使っているかという
傾向分析

今後の展開
 記事内容、トラックバック、コメント、アフィリエイトの分析
 他のブログ(livedoorブログ等)のマイニング
 ブログ検索エンジン(テクノラティ等)の活用

観光とブログ分析の比較
 一般ユーザと旅行カテゴリユーザとの比較
 観光データとの比較
ブログマイニングによる観光情報分析
北海道工業大学 情報デザイン学科
岩佐渉、三田村保、湯川恵子、大堀隆文