検索戦略と最適化

検索の進め方
検索戦略と最適化
2015
時実 象一
tokizane@[email protected]
1
検索の進め方 (1)
検索の進め方 (2)
• ツールを選ぶ
• 概念をまとめる
– 最大 3 つくらい
– 例:老人のスポーツ推進活動
– 検索目的にあったデータベース
• 主題対象
– 新聞記事、判例、学術文献
新聞
• 「老人」
• 「スポーツ」
• 「推進活動」
• 収録範囲
– 国、年代
• 収録情報
– 書誌、抄録、索引、本文、データ
3
4
検索の進め方 (3)
検索の進め方 (4)
• キーワード (同義語)
同義語) を選ぶ
• 段階的に検索して評価
– 「老人」→老人、高齢者、年寄り、シニア
– 「スポーツ」→スポーツ、運動、テニス、ゴルフ、ゲートボー
ル、水泳、マラソン
– たとえばまず「老人」の概念と「スポーツ」の概念で検索して
みる
– 結果がよければそこで終了
– 結果が悪ければ改良 (最適化)
最適化)
– 「推進活動」→推進、振興、運動、活動、施策、政策、自治
体、市、町、ボランティア
• 複合語はなるべく使わない
– 「老人のスポーツ」→「老人」 AND 「スポーツ」
5
情報検索演習 2015/7
6
検索の進め方
検索式の改良 (最適化)
最適化)
• 検索を広げる - 漏れを減らす
– 同義語を追加 (OR) (老人 → 高齢者)
– より広い語に置き換える (キャベツ → 野菜)
– より広いフィールドを使う (論文名 → フリーワード)
• 検索を絞る - ノイズを減らす
– 絞る語を追加 (AND)
– より狭い語に置き換える
– フィールドを限定
– 除外する語を指定 (NOT) (気をつけて使う)
8
「もれ」と「ノイズ」
検索結果の最適化
• 再現率と適合率 (精度)
精度)
• ランキング
情報の海
適
切
な
情
報
もれ
正解
ノイズ
見つかった情報
9
再現率 (正解/
正解/正解+
正解+もれ)
もれ)
見つかった情報の割合
•
もれの大きさは正確にはわからない
精度 (適合率)
正解/正解+
正解+ノイズ)
ノイズ)
適合率) (正解/
欲しい情報の割合
情報の海
適
切
な
情
報
情報の海
適
切
な
情
報
もれ
正解
もれの大きさは正確にはわからない
情報検索演習 2015/7
もれ
正解
ノイズ
ノイズ
見つかった情報
見つかった情報
•
10
11
12
検索の進め方
再現率を上げる
再現率を上げるには
ヒット数を増やす
• 「老人のスポーツ推進活動」
– 同義語を追加 (「老人」→「老人 OR 高齢者」)
高齢者」)
– より広い語を使う (「スポーツ」→「運動」)
「スポーツ」→「運動」)
– より広いフィールドを使う (「フリーワード」など)
「フリーワード」など)
情報の海
適
切
な
情
報
もれ
老人
正解
老人 OR 高齢者
ノイズ
見つかった情報
高齢者
(老人 AND スポー
ツ) AND 活動
13
精度 (適合率)
適合率) を上げる
14
精度 (適合率)
適合率) を上げるには
ノイズを減らす
• 「老人のスポーツ推進活動」
– 絞ることばを追加 (「施策」)
施策」)
– フィールドを限定 (「論文名」など
情報の海
適
切
な
情
報
もれ
正解 ノイズ
見つかった情報
施策
老人 AND ス
ポーツ
(老人 AND スポーツ)
AND 施策
15
16
再現率と精度 (適合率)
適合率)
• 一般に再現率と精度は反比例
の傾向
• ノイズが増える
– 精度を上げると再現率は下がる
• 漏れが増える
再現率
– 再現率を上げると精度は下がる
反比例
の関係
• 両方上げるのが好ましいが...
両方上げるのが好ましいが...
精度
18
情報検索演習 2015/7
検索の進め方
再現率と精度 (適合率)
適合率)
検索結果の配列 (sort)
• 「老人のスポーツ推進活動」(CiNii, 2014)
• 時系列順
– タイトルで検索、リハビリ関係は除く
– 通常新しい順 (新聞記事、CiNii,
新聞記事、CiNii, NDLNDL-OPAC)
適合率
A
B
C
老人
スポーツ
老人
スポーツ
推進
OR
スポーツ
推進
OR
スポーツ
老人
ヒット
正解
ノイズ
再現率*
(精度)
• 五十音順 (OPAC など)
など)
• 適合順 (Ranking)(検索エンジン
(Ranking)(検索エンジン))
– 検索結果をもっともな (適合しているとおもわれる)
適合しているとおもわれる) 順に配
列する
高齢者
老人
高齢者
推 進 OR 政 策 OR 施 策
OR 行 政 OR サ ー ク ル
OR イベント
19
20
検索範囲の制限
ランキング
• 検索をある範囲に制限
• 適合する情報とは
–
–
–
–
–
年代
資料種類
言語
ドメイン (検索エンジン)
検索エンジン)
– 検索キーワード
• 一致
• 近接
• キーワードのある場所
– 利用者が欲しい情報
ファイルタイプ
21
ランキング
22
ランキング
• 欲しい情報とは
• PageRank (Google)
– 重要な情報
– リンクが多いサイトは点数が高い
– 点数の高いサイトからのリンクは重みが高くなる
• 公的なサイト
• 他からのリンクが多いサイト
– 人気の高い情報
• アクセス数が多いサイト
• 他からのリンクが多いサイト
– 信頼性の高い情報
• 公的なサイト
• 他からのリンクが多いサイト
23
情報検索演習 2015/7
24
検索の進め方
ランキング
• 検索エンジン最適化
– Search Engine Optimization
– 自分のホームページが検索結果の上位に来るように最適
化する
– 商売では重要
25
情報検索演習 2015/7