スライド - 静岡大学

環境リスクマネジメントに関する
検索システム
前田研究室 4年
石垣 泰
発表の流れ
1.背景と目的
 2.本検索システムの概要
 3.結果と考察
 4.結論

既存の検索エンジンの種類
ロボット型検索エンジンの検索
キーワード入力フォーム
ディレクトリ型検索エンジン
 ロボット型検索エンジン

Yahoo! JAPAN
http://www.yahoo.co.jp/
代表的なスコアリング手法
キーワード出現頻度
 タグごとの重み付け
 キーワードの近接度
 出現位置
 クリック人気
 リンクポピュラリティ

検索エンジンは検索キーワードに対して、適
切なページを表示する工夫をしている
しかし、
検索キーワードを含んでいても利用者の知り
たい情報は含まれていないこともある
本などの検索
に目的特化
舟久保弘明.
Web上で作動する環境リスクマネジメントに関する検索システム.
静岡大学工学部卒業論文、2002
先行研究について(1)
“川角友美. 環境リスクマネジメントに関するイン
ターネット検索ロボットの構築. 静岡大学工学
部卒業論文、2001”の研究結果
・文字数が多く専門用語が多く存在する
・キーワード単語を含んでいてもキーワード自
体の情報が得れないこともある
・検索時間は約2時間
・収集データは約12万件
先行研究について(2)
“舟久保弘明. Web上で作動する環境リスクマ
ネジメントに関する検索システム. 静岡大学
工学部卒業論文、2002”の研究結果
・川角友美「環境リスクマネジメントに関するイ
ンターネット検索ロボットの構築」よりも良質
な情報
・検索時間は約2時間
・収集データは約12万件
先行研究の課題
・検索時間の短縮
・収集データが少ない
・Webから利用可能にする
本研究の目的

先行研究により構築された環境リスクマネジ
メントに特化した検索システムを改善し、実際
にWeb上で運営できるようにすること。
新たな検索システム
先行研究
検索時間が長い
収集データ量が少ない
環境RMに特化
既存の検索システム
検索時間が短い
収集データ量が多い
環境RMに特化せず
長所の融合を目指す
検索エンジンシェア
Google 57.2%
 Yahoo! 21.3%
 MSN
8.6%

検索対象のWebページ
80億以上
http://www.google.co.jp/intl/ja/
corporate/index.htmlより
OneStat.com(オランダ)社
2005年1月調査
検索キーワード
GoogleWebAPIsによる検索
上位100件のURLを取得
上位100件のHTMLファイル収集
各HTMLファイル中の、検索キーワードに
関する専門用語の種類数を調べる
GoogleWebAPIsによる検索結果を専門
用語の種類数順に再ランキング
再ランキング結果
ユーザー側処理
再ランキング結果の出力
サーバー側処理
ランキングアルゴリズム

Ⅰ HTMLファイルに含まれる検索キーワー
ドに関する専門用語の種類数が多い

Ⅱ HTMLファイルのGoogle順位が高い
(優先順位Ⅰ>Ⅱ)
検索フォーム
http://kiso.sys.eng.shizuoka.ac.jp/search_engine/index.html
結果:先行研究と比較して
・検索時間は短縮された
・より良質な情報を得ることができた
結果:Googleと比較して
順位の変化
結論:先行研究と比較して
・検索時間は短縮
・良質な情報
課題
・検索時間の短縮
・GooglePageRankを、もう少し考慮に入れた
ランキングアルゴリズムを
・新規リスクへの対応