検索の進め方 検索戦略と最適化 2015 時実 象一 tokizane@[email protected] 1 検索の進め方 (1) 検索の進め方 (2) • ツールを選ぶ • 概念をまとめる – 最大 3 つくらい – 例:老人のスポーツ推進活動 – 検索目的にあったデータベース • 主題対象 – 新聞記事、判例、学術文献 新聞 • 「老人」 • 「スポーツ」 • 「推進活動」 • 収録範囲 – 国、年代 • 収録情報 – 書誌、抄録、索引、本文、データ 3 4 検索の進め方 (3) 検索の進め方 (4) • キーワード (同義語) 同義語) を選ぶ • 段階的に検索して評価 – 「老人」→老人、高齢者、年寄り、シニア – 「スポーツ」→スポーツ、運動、テニス、ゴルフ、ゲートボー ル、水泳、マラソン – たとえばまず「老人」の概念と「スポーツ」の概念で検索して みる – 結果がよければそこで終了 – 結果が悪ければ改良 (最適化) 最適化) – 「推進活動」→推進、振興、運動、活動、施策、政策、自治 体、市、町、ボランティア • 複合語はなるべく使わない – 「老人のスポーツ」→「老人」 AND 「スポーツ」 5 情報検索演習 2015/7 6 検索の進め方 検索式の改良 (最適化) 最適化) • 検索を広げる - 漏れを減らす – 同義語を追加 (OR) (老人 → 高齢者) – より広い語に置き換える (キャベツ → 野菜) – より広いフィールドを使う (論文名 → フリーワード) • 検索を絞る - ノイズを減らす – 絞る語を追加 (AND) – より狭い語に置き換える – フィールドを限定 – 除外する語を指定 (NOT) (気をつけて使う) 8 「もれ」と「ノイズ」 検索結果の最適化 • 再現率と適合率 (精度) 精度) • ランキング 情報の海 適 切 な 情 報 もれ 正解 ノイズ 見つかった情報 9 再現率 (正解/ 正解/正解+ 正解+もれ) もれ) 見つかった情報の割合 • もれの大きさは正確にはわからない 精度 (適合率) 正解/正解+ 正解+ノイズ) ノイズ) 適合率) (正解/ 欲しい情報の割合 情報の海 適 切 な 情 報 情報の海 適 切 な 情 報 もれ 正解 もれの大きさは正確にはわからない 情報検索演習 2015/7 もれ 正解 ノイズ ノイズ 見つかった情報 見つかった情報 • 10 11 12 検索の進め方 再現率を上げる 再現率を上げるには ヒット数を増やす • 「老人のスポーツ推進活動」 – 同義語を追加 (「老人」→「老人 OR 高齢者」) 高齢者」) – より広い語を使う (「スポーツ」→「運動」) 「スポーツ」→「運動」) – より広いフィールドを使う (「フリーワード」など) 「フリーワード」など) 情報の海 適 切 な 情 報 もれ 老人 正解 老人 OR 高齢者 ノイズ 見つかった情報 高齢者 (老人 AND スポー ツ) AND 活動 13 精度 (適合率) 適合率) を上げる 14 精度 (適合率) 適合率) を上げるには ノイズを減らす • 「老人のスポーツ推進活動」 – 絞ることばを追加 (「施策」) 施策」) – フィールドを限定 (「論文名」など 情報の海 適 切 な 情 報 もれ 正解 ノイズ 見つかった情報 施策 老人 AND ス ポーツ (老人 AND スポーツ) AND 施策 15 16 再現率と精度 (適合率) 適合率) • 一般に再現率と精度は反比例 の傾向 • ノイズが増える – 精度を上げると再現率は下がる • 漏れが増える 再現率 – 再現率を上げると精度は下がる 反比例 の関係 • 両方上げるのが好ましいが... 両方上げるのが好ましいが... 精度 18 情報検索演習 2015/7 検索の進め方 再現率と精度 (適合率) 適合率) 検索結果の配列 (sort) • 「老人のスポーツ推進活動」(CiNii, 2014) • 時系列順 – タイトルで検索、リハビリ関係は除く – 通常新しい順 (新聞記事、CiNii, 新聞記事、CiNii, NDLNDL-OPAC) 適合率 A B C 老人 スポーツ 老人 スポーツ 推進 OR スポーツ 推進 OR スポーツ 老人 ヒット 正解 ノイズ 再現率* (精度) • 五十音順 (OPAC など) など) • 適合順 (Ranking)(検索エンジン (Ranking)(検索エンジン)) – 検索結果をもっともな (適合しているとおもわれる) 適合しているとおもわれる) 順に配 列する 高齢者 老人 高齢者 推 進 OR 政 策 OR 施 策 OR 行 政 OR サ ー ク ル OR イベント 19 20 検索範囲の制限 ランキング • 検索をある範囲に制限 • 適合する情報とは – – – – – 年代 資料種類 言語 ドメイン (検索エンジン) 検索エンジン) – 検索キーワード • 一致 • 近接 • キーワードのある場所 – 利用者が欲しい情報 ファイルタイプ 21 ランキング 22 ランキング • 欲しい情報とは • PageRank (Google) – 重要な情報 – リンクが多いサイトは点数が高い – 点数の高いサイトからのリンクは重みが高くなる • 公的なサイト • 他からのリンクが多いサイト – 人気の高い情報 • アクセス数が多いサイト • 他からのリンクが多いサイト – 信頼性の高い情報 • 公的なサイト • 他からのリンクが多いサイト 23 情報検索演習 2015/7 24 検索の進め方 ランキング • 検索エンジン最適化 – Search Engine Optimization – 自分のホームページが検索結果の上位に来るように最適 化する – 商売では重要 25 情報検索演習 2015/7
© Copyright 2024 ExpyDoc