967KB - 高知工科大学

平成 21 年度
フロンティアプロジェクト
学士学位論文
ブックマーク情報を用いた
Web 検索支援システムの開発
A support system to web search
using bookmark information
1100354
森
指導教員
清水
一聡
明宏
2010 年 3 月 1 日
高知工科大学 フロンティア工学コース
要 旨
ブックマーク情報を用いた
Web 検索支援システムの開発
森
一聡
近年,情報通信技術の普及とインターネット利用者の増加に伴い,Web 検索を用いて情
報を取得する人が増加している.Web 上には膨大な情報があり,様々な情報が取得できる.
しかし,Web 上の情報は年々増加しており,有益な情報を絞り込むことが煩雑な作業となっ
ている.
本論文では,個人利用者と比較して,必要な情報に偏りがある組織内の Web 利用者を対
象とした.利用者のブックマーク情報を用いることにより,組織内の Web 検索に適したシ
ステムを開発し,評価した.結果,Web 上の膨大な情報を絞り込むことができた.また,各
利用者の嗜好に合わせた Web ページの情報を推薦できた.
キーワード
Web 検索, 情報共有, ブックマーク, ソーシャルブックマーク, パーソナライズ
–i–
Abstract
A support system to web search
using bookmark information
Mori, Hitoshi
Recently,information and communication technology are spreading and the number Internet user increases,more internet user get information on the Web.There is
huge infromation on the Web,and various information can be acquired.However,it
increases every year,and it is complex work to narrow profitable information for the
user who retrieves becomes on the Web.
In this thesis,the Web user in the organization in which bias of necessary information was targeted compared with an individual user.The system that is appropriate
for the Web search in the organization was developed,and evaluated using user’s bookmark information.Huge information on the result and the Web was able to be narrowed.
Moreover information on the Web page matched to the each user’s preference has been
able to be recommended.
key words
web search, information sharing, bookmark, social bookmark, personal-
ize
– ii –
目次
第1章
はじめに
1
1.1
背景と目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
本論文の概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Web 検索について
3
2.1
既存の検索エンジンとその問題点 . . . . . . . . . . . . . . . . . . . . . .
3
2.2
組織での Web 活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
既存方式
5
利用者の Web 利用履歴を用いたキーワード推薦 . . . . . . . . . . . . . .
5
第2章
第3章
3.1
3.2
第4章
3.1.1
利用履歴の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
3.1.2
キーワード推薦 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
既存方式の問題点
提案方式
7
4.1
システム概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
4.2
ソーシャルブックマーク . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4.3
システム詳細 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4.3.1
ブックマークの収集と分析 . . . . . . . . . . . . . . . . . . . . . .
9
4.3.2
利用者の嗜好分析 . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
4.3.3
利用者のグループ化 . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.3.4
Web ページの推薦 . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
第5章
評価と考察
12
第6章
おわりに
15
– iii –
目次
謝辞
16
参考文献
17
– iv –
図目次
4.1
提案システムの概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4.2
提案システムの実行画面 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
5.1
評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
5.2
Web ページ数の評価
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
5.3
有用率の評価
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
–v–
表目次
4.1
ブックマーク情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
4.2
利用者の嗜好
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
– vi –
第1章
はじめに
本章では,本研究における社会的な背景と目的について述べ,本論文の概要について述
べる.
1.1
背景と目的
近年,情報通信技術の普及に伴い,Web 上の情報は急速に増加している.また,情報の
種類も文字だけでなく,画像や動画や Flash など様々である.このように,利用者は Web
を通して様々な情報を享受できる.しかし,Web 上の情報は 2006 年の段階で 330 億ペー
ジを超えており,非常に膨大である [1].この膨大な情報の中から,必要な情報を選別する
ことは煩雑な作業である.例えば Google の検索エンジンを用いて「PHP」というキーワー
ドで検索した場合,5,970,000,000 件の情報が検索される.利用者は AND 検索や OR 検索
などの検索テクニックを用いて情報を絞り込まなければならない.有益な情報を絞り込むた
め,利用者がブラウザに保存するブックマークの情報に着目した.
本研究では,ブックマーク情報を用いて利用者の Web 検索を支援するシステムを提案,
開発する.また提案システムは,個人利用者と比べて閲覧する情報に偏りがある組織内の利
用者を対象とした.
1.2
本論文の概要
本論文では,利用者のブックマーク情報を用いることにより,組織内における Web 検索
を支援するシステムについて述べる.
–1–
1.2 本論文の概要
第二章では,Web 検索について既存の検索エンジンとその問題点について述べる.また
組織内での Web 活用についても述べる.
第三章では,既存の Web 検索支援システムとそのシステムの問題点について述べる.
第四章では,ブックマーク情報を用いた Web 検索支援システムを提案する.また具体的
なシステム構成についても述べる.
第五章では,提案システムの運用評価と,その結果に対する考察を述べる.
最後に,本論文のまとめと今後の課題について述べる.
–2–
第2章
Web 検索について
本章では,一般的な Web 検索の現状と問題点について述べ,組織での Web 活用につい
て述べる.
2.1
既存の検索エンジンとその問題点
現在,日本国内における月間のインターネット利用者数は 2008 年 3 月の段階で 4863 万
人に上る.また,一人当たりの月間平均利用時間は 20 時間を超えている [2].そして,イン
ターネット利用者の 93.7%が Google や Yahoo などの検索エンジンを用いて検索行動を行
う [2].これらのことから,多くの利用者が検索エンジンを用いて Web 上から情報を取得し
ていることが分かる.
日本国内における検索エンジンの利用は,2009 年 1 月の時点で Google と Yahoo が
89.5%を締めている [3].これらの検索エンジンは,スパイダーやクローラーなどのソフト
ウェアを用いて自動的に索引付けをおこなう.そのため,ロボット型検索エンジンと呼ばれ
る.ロボット型検索エンジンは,定期的に情報を更新するため常に最新の情報を保持してい
る (以下,検索エンジンは全てロボット型検索エンジンとする).利用者は,調べたいキー
ワードを入力するだけでそのキーワードに関係する Web ページを閲覧できる.
しかし,現在の検索エンジンは入力したキーワードに対して得られる情報が膨大すぎる.
これにより,利用者は必要な情報を選別しなければならない.これは非常に煩雑な作業で
ある.
–3–
2.2 組織での Web 活用
2.2
組織での Web 活用
組織において Web 上の情報は有益な情報源である.そして組織ごとに有益な情報には違
いがある.会社であれば沢山の部署があり,大学であれば学部や学科や研究室など多くの組
織で構成されている.これらの組織には専門とする分野があり,その仕事や作業内容にはあ
る程度の偏りがある.同時に必要な情報にも偏りがあると考えられる.そのため,必要とな
る情報を組織内の人間が既に知っている可能性がある.しかし,このような組織の状況にお
いても,既存の検索エンジンでは全ての利用者に同じ情報が提供される.利用者は膨大な情
報の中から必要な情報を選別しなければならない.更に仕事で扱う場合,Web 上の情報の
中でも信頼できる情報でなければならない.
–4–
第3章
既存方式
本章では,利用者に合わせた検索支援について既存の方式を一つ述べる.
3.1
利用者の Web 利用履歴を用いたキーワード推薦
この手法は,利用者が検索をおこなう際,検索キーワードに関連するキーワードを推薦す
る手法である.[4].また,推薦されるキーワードは利用者に合わせたキーワードが推薦され
る.この手法は利用履歴の分析とキーワード推薦の二つに大きく分けられる.具体的な内容
を以下に示す.
3.1.1
利用履歴の分析
利用者に合わせたキーワードを推薦するため,まず利用者が閲覧する情報の傾向を分析す
る.この手法では,利用者の Web 利用履歴から閲覧傾向を分析する.具体的には,まず利
用者がこれまでに閲覧した Web ページの本文から構文解析により単語を抽出する.そして,
抽出された単語群を自己組織化マップ [5] により分析し,その分析結果を利用者の閲覧傾向
とする.自己組織化マップとは,ニューラルネットワークの一種である.自己組織化マップ
を利用することで,多次元のデータを 2 次元に可視化することが可能である.
3.1.2
キーワード推薦
利用者が検索キーワードを入力した際に関連キーワードを推薦する.具体的には,検索
キーワードを利用者の閲覧傾向と照らし合わせ,検索キーワードと近いキーワードを関連
–5–
3.2 既存方式の問題点
キーワードとして推薦する.これにより,利用者の閲覧傾向に合わせたキーワードが推薦さ
れる.
3.2
既存方式の問題点
既存方式では,検索キーワードと全く関係のないキーワードが推薦される傾向が強い.そ
のため,推薦されたキーワードの有効に作用する割合が約 3 割に留まっている.主な原因と
して,利用者の閲覧傾向を利用者が閲覧した全ての Web ページから解析したことがあげら
れる.その結果,利用者の閲覧傾向と関係のない Web ページが多数解析されたと考えられ
る.また,閲覧した Web ページの本文全体を解析したため,利用者の嗜好と全く関係のな
いキーワードが多数抽出されたと考えられる.
更に,検索する情報は既存の検索エンジンからの情報であるため,取得する情報が膨大で
あるという問題の解決には至っていない.
–6–
第4章
提案方式
本章では,Web 上にある情報を絞り込み,有益な情報を選別して利用者に推薦するシス
テムを提案する.
4.1
システム概要
提案システムでは,各利用者のブックマーク情報から Web ページを推薦する.これによ
り一度は他人に評価された情報を推薦するため,より有益な情報推薦が可能となる.同時に
Web 上の膨大な情報を絞り込むことが可能となる.
提案システムの概要を図 4.1 に示す.提案システムは大きく分けて次の 4 つのステップで
構成される.まず提案システムの利用者からブックマーク情報を収集する.次にソーシャル
ブックマーク (Social BookMark) によりブックマーク情報を分析する.次にブックマーク
情報を元に各利用者の嗜好を分析し,嗜好の似通った利用者同士をグループ化する.最後に
利用者が検索をおこなう際に同じグループに所属する利用者のブックマーク情報から Web
ページを推薦する.今回はブックマーク情報として Livedoor が提供する研究データを使用
した [6].そのため,ブックマークの収集と分析については未実装である.ただし試験的な解
析処理をおこなったため,ブックマークの収集と分析については,その動作について述べる.
まず,ソーシャルブックマークについて説明する.そしてシステムの詳細を各ステップご
とに説明する.
–7–
4.2 ソーシャルブックマーク
図 4.1
4.2
提案システムの概要
ソーシャルブックマーク
ソーシャルブックマークとは,利用者が自分のブックマークを Web 上に保存し,他の利
用者と共有するサービスである.日本国内では,多くのソーシャルブックマークが展開され
ている.中でも Livedoor クリップや,はてなブックマークが有名である.ソーシャルブッ
クマークに保存された Web ページには,タグと呼ばれる情報が付与される.タグは,Web
ページの特徴を表す単語であり,各利用者の手によって付与される.提案システムでは,こ
のタグの情報を Web ページの特徴とする.
提案システムでは,ソーシャルブックマークの一つ Livedoor クリップから提供されている
研究用データの一部を用いて実験した.具体的には 1000 人分のブックマーク情報,138,916
ページである.この情報を用いたシステムの詳細を以下で述べる.
4.3
システム詳細
ここではブックマークの収集と分析,利用者の嗜好分析,利用者のグループ化,Web ペー
ジの推薦について詳細に述べる.
–8–
4.3 システム詳細
4.3.1
ブックマークの収集と分析
今回実験に用いるブックマーク情報は,ソーシャルブックマークの研究用データを用いる.
そのため提案システムではブックマークの収集と分析は割愛する.実際には,利用者のブラ
ウザ上のブックマーク情報を収集する.そしてソーシャルブックマークにアクセスし,タグ
の情報を抽出する.タグの抽出は,正規表現を用いてソーシャルブックマークの本文から抽
出した.ブックマークの情報は,表 4.1 のように,そのブックマークを保持している利用者
ID と URL とブックマークに付与されているタグから構成される.これらを一つのデータ
として提案システムのサーバに保存する.
表 4.1
4.3.2
ブックマーク情報
利用者 ID
ブックマークの URL
タグ
A
http://www.xxxx...
PHP 開発 Java オブジェクト指向...
A
http://www.xxyy...
Java 開発 継承 eclipse SQL...
B
http://www.xyzx...
イタリア 旅行 ツアー ヨーロッパ...
C
http://www.zzzz...
Apple Mac iPod 音楽 iTunes...
...
...
...
利用者の嗜好分析
利用者の嗜好分析は,138,916 ページあるブックマーク情報からおこなう.まず,分析す
る利用者 ID のブックマーク情報を全て抽出する.そしてブックマークに付与されている各
タグの出現回数を分析する.今回は,出現回数の多い上位 30 個のタグを利用者の嗜好と定
義した.利用者ごとに持っているタグの数に差があるため 30 個と定義付けた.提案システ
ムでは,表 4.2 のように利用者 ID とその利用者の嗜好タグをサーバ上に保存する.
–9–
4.3 システム詳細
表 4.2
利用者 ID
4.3.3
利用者の嗜好
嗜好タグ
A
PHP 開発 JavaScript プログラム SQL MySQL Apache Java...
B
Java オブジェクト指向 eclipse 開発 リファレンス...
C
旅行 ツアー ヨーロッパ イタリア イギリス 絵画 イタリア料理
...
...
利用者のグループ化
グループ化は,各利用者の嗜好 30 タグを比較し,一定数以上一致する利用者同士を同じ
グループとする.ここで定めた一致する数のことをグループ化基準とする.今回の提案シス
テムでは,10 個∼20 個までの 10 種類のグループ化基準でそれぞれグループ化した.提案シ
ステムの目的の一つとして情報の絞り込みがあるため,このグループ化基準を設定した,10
個未満の一致数では推薦される Web ページ数が多すぎる.また逆に 20 個を超えるグルー
プ化基準でグループ化した場合,推薦ページが 0 ページであったり,少なすぎるケースが多
発した.以上のことから今回の提案システムでは,10 個∼20 個のグループ化基準で実験を
おこなった.
4.3.4
Web ページの推薦
提案システムを用いて検索をおこなう際に,Web ページを推薦する.まず,同じグルー
プにいる利用者のブックマーク情報を参照する.次にブックマーク情報に付与されているタ
グと検索キーワードを比較する.タグと一致した場合,そのタグが付与されているブック
マークを検索者に推薦する.キーワードを入力し,Web ページが推薦される様子を図 4.2 に
示す.
– 10 –
4.3 システム詳細
図 4.2
提案システムの実行画面
– 11 –
第5章
評価と考察
本章では,提案システムを評価し,その結果を考察する.
7 名の被験者が提案システムを活用した利用履歴から評価した.まず,被験者がそれぞれ
被験者の嗜好と関連するキーワードと関連のないキーワードで検索する.その結果,得られ
た Web ページ数とその Web ページの有用率を評価する.イメージを図 5.1 に示す.Web
ページの有用率は被験者が推薦された Web ページを一つひとつ閲覧し,嗜好に合っている
かを判断した結果とする.評価する Web ページは 1 回の検索につき得られた上位 30 位の
Web ページとした.これは検索エンジン利用者の約 90%が検索結果を 3 ページ目までしか
閲覧しないことと [7],検索エンジンの標準設定では 1 ページに表示する結果が 10 件である
ことから決定した.
図 5.1
評価実験
評価実験の結果,各グループ化基準において得られた Web ページ数は図 5.2 となった.
嗜好と一致したキーワードの場合,推薦される Web ページは平均 3,870 ページである.嗜
好と一致しないキーワードの場合,推薦された Web ページは平均 52 ページである.これ
らのことからから嗜好と一致したキーワードでの検索において結果数が多いことが分かる.
– 12 –
また,グループ化基準であるタグの一致数を増やすことにより,嗜好の一致不一致に関わら
ず,検索数が絞り込まれていることを確認できた.しかし,嗜好と不一致なキーワードで検
索した場合,推薦件数が 30 以下になることが多く,グループ外からも推薦するといった改
善が必要である.
図 5.2
Web ページ数の評価
Web ページの有用率は図 5.3 のような結果となった.図から,嗜好と一致したキーワー
ドでの検索において最高で平均 47.6%の有用率であることが分かる.この数値は,嗜好と一
致しないキーワードで検索した場合に比べ高い数値ではあるが,決して高い数値とは言え
ない.また,今回の場合グループ化基準が 14 個のとき有用率が最高であった.そのためグ
ループ化基準が 14 個のラインまで Web ページを絞り込むことが最も有効である.
提案システムでは,嗜好の一致度を上げることでグループ内の利用者の嗜好が近くなり,
有用率が上がり続けると考えていた.しかし図 5.3 では有用率が途中から下がり始めてい
る.これは推薦される Web ページ数が 30 ページ以下になるケースが増加したことが原因
– 13 –
であると考えられる.
図 5.3
有用率の評価
今後の課題として有用率の向上が最優先にあげられる.有用率が 47%に留まった原因と
して Web ページの特徴をソーシャルブックマークのタグからのみ抽出したことが考えられ
る.これにより,検索キーワードに対する Web ページの重要度が考慮されておらず,有用
な Web ページが上位に表示されなかった可能性が高い.検索キーワードのタグをより多く
持っている利用者のブックマークから優先的に表示したが,決定的な効果は得られなかった.
また今回は,複数の利用者が同じ Web ページを持っていた場合にそのまま表示した.その
ため Web ページの推薦数が増加し,利用者の検索を妨げる要因となった.より有用な Web
ページを上位に表示させ,全体的な有用率を向上させるために以下 3 つのことが必要である
と考えられる.
• Web ページの特徴をタグだけでなくタイトルや本文も解析することにより抽出する
• 抽出した特徴を数値化し Web ページごとに重要度をつける
• Web ページを推薦する際に同じ URL は表示しない
以上の実現により,有用な Web ページを上位に表示させ,重複した Web ページを省く.
結果として全体的な有用率が向上すると考えれる.
– 14 –
第6章
おわりに
本論文では,ブックマーク情報を用いた Web 検索支援システムについて提案し,開発と
システムの評価をおこなった.利用者のブックマーク情報から分析したタグを,嗜好タグと
して利用者に付与し,嗜好タグが一定数以上一致する利用者同士をグループ化した.結果
グループ内でお互いのブックマークを推薦し合うことが出来た.また,嗜好タグの一致数を
変更することにより,グループの利用者が変化し,推薦する Web ページを絞り込むことが
出来た.しかし推薦される Web ページが有用と判断される割合は嗜好に合ったキーワード
で検索した場合,最大 47%に留まった.さらに嗜好に合わないキーワードで検索した場合,
Web ページがほとんど推薦されない結果となった.
今後は,Web ページのタイトルや本文から特徴を抽出し,Web ページの重要度を定める
必要がある.この重要度の高い順に Web ページを推薦することで有用率を向上させる.ま
た,利用者の嗜好と合わないキーワードで検索した場合,Web ページがほとんど推薦され
ないため,他のグループからも情報を推薦するといった改善が必要である.そして,本シス
テムを応用した Web 検索サービスを提案する.
– 15 –
謝辞
本研究の遂行と論文作成にあたって,言葉では言い表せないほどの御指導,御助言をいた
だきました高知工科大学フロンティア工学コース 清水明宏教授に心より感謝し厚く御礼申
し上げます.本研究の副査を担当していただいた高知工科大学フロンティア工学コース 野
中弘二教授に深く御礼申し上げます.
また,提案システム実装にご協力いただきました清水研究室,青木渉氏,実験の被験者を
して頂きました清水研究室,青木渉氏,岡添拓典氏,若井誉大氏,彼末和也氏,駒木快比古
氏,中野友貴氏,傍士竜百氏に心より感謝いたします.
最後に,有益な議論を交わしていただいた高知工科大学 清水研究室の関係者各位に深く
感謝いたします.
– 16 –
参考文献
[1] Google が M&A を急ぐ理由 ー PageRank が崩壊する日ー:インターネットの理解
-, http://japan.cnet.com/blog/0058/2006/11/30/googlemapageran c27d/, CNET
Japan, 2006.
[2] 総務省 情報通信政策研究所 (IIPC) ,“インターネット検索エンジンの現状と市場規模
等に関する調査研究,” 報告書,2009,
[3] comScore,Yahoo Attracts More thanHalfofAll Searches Conducted in Japan in
January 2009,http://www.comscore.com/Press Events/Press Releases/2009/3/Ja
pan Search Engine Rankings,2009.
[4] 堀幸雄,今井慈朗,中山堯,“ユーザの Web 閲覧履歴を用いた検索支援システム,” 情
報知識学会誌 Vol.17,No.2,2007.
[5] 伊藤冬子,廣安知之,三木光範,“自己組織化マップ (Self-Organizing Maps) の基礎,”
http://mikilab.doshisha.ac.jp/dia/research/report/2005/0822/007/report20050822007.html,
2010/2.
[6] Livedoor
2008
研 究 用 デ ー タ セット
年
12
月 ま で の デ ー タ,
http://labs.edge.jp/datasets/,2009/12.
[7] iprospect,iProspect
Search
Engine
User
Behavior
Study
(April
http://www.iprospect.com/about/whitepaper seuserbehavior apr06.htm.
– 17 –
2006),