情報検索演習

情報検索演習 第7回
2005年11月16日 後期 水曜5限
江草由佳 国立教育政策研 [email protected]
パソコンを起動しておくこと
前から4列目までに着席すること
前回までの配布資料(Webにないもの):教室の後方
授業のWebページ:PowerPointの配布資料は↓
http://amazon.slis.tsukuba.ac.jp/~yuka/lecture/2005/ir/
1
前回のまとめ
• 第3回レポートの返却
• 演習
– 図書内容情報
– 新聞記事原報
• 第4回レポート
2
本日のお品書き
• 前回の資料の訂正
• レポートの講評
• 演習:WWWと検索エンジン
– WWW
– 検索エンジンとは
• ディレクトリ型、ロボット型、ハイブリット型
• メタ検索エンジン
3
前回の資料の訂正
• スライド6
×p.6
○p.7
4
演習の準備
1. パソコンを起動
2. Internet Explorerを起動
– 以後、Internet Explorerは「IE」と呼ぶ
3. 「アドレス」に以下のURLを入力
http://www.searchdesk.com/
4. 「Enter」キーを押す
5. 「お気に入り」→「お気に入りに追加」
6. 「OK」
5
WWW: World Wide Web(1/2)
サーバ
サーバ
Web
ページ
Web
ページ
リンク
サーバ
http://yahoo.co.jp/
↑
サーバ
URL
(Uniform Resource Lolator):
各ファイルについている
住所となるもの
Web
ページ
6
WWW (2/2)
サーバ
WWWクライアント:
WWWブラウザ:Internet Explorer
リンク
サーバ
7
検索エンジン
• サーチエンジンとも言う
• 要素
– 情報ページの収集
– 検索用索引の作成
– 検索システムの提供
• 種類
– ディレクトリ型(カテゴリ型)
– ロボット型
– ハイブリット型
8
ディレクトリ型検索エンジン
• カテゴリ型検索エンジンともいう
• 代表的なもの:Yahoo!
• 人間がページを収集
– 一定の収集基準がある
– 有用なサイトが得られる確率が高い
– ロボット型に対して登録されているサイトが少ない
• 人手でページの説明情報を作成
• 人手で適切な階層(カテゴリ)に位置づけ
– 求める主題やトピックをたどってブラウジングができる
• 検索システムは階層や説明情報も検索
9
ロボット型検索エンジン
• 代表的なもの: Google, Goo
• ロボット(収集プログラム)でページを収集
– 登録しているサイトは膨大
– 検索結果の精度が低くなりがち
• インデクサ(索引プログラム)が索引語を作成
• 検索システムはページの全文を検索可にす
る
• ランキング(スコア)
– 関連の高いものから順に表示する
10
ハイブリット型検索エンジン
• ディレクトリ型とロボット型を組み合わせたも
の
– 最近はほとんどがこのタイプ
– 大抵どちらかのタイプが優先的に
• Yahoo! はディレクトリ型優先のハイブリット型
– ロボットで収集したサイトも検索できる。
• Googleはロボット型優先のハイブリット型
– 「ディレクトリ」で、カテゴリでブラウジングできる。
– 「ディレクトリ」のリンクをたどってみよう
11
検索エンジン利用の一般的な注意
(1/2)
1. ディレクトリ型とロボット型を使い分ける
•
異なる種類のものを意識して使う
2. 複数の検索エンジンを使い分ける
3. ページ内容を推測し、キーワードを考える
•
•
同義語:「電子計算機」、「コンピュータ」
下位語:「パソコン」
4. 表記の異なりに注意
•
「ディジタル・デバイド」 「ディジタルデバイド」
「デジタル・デバイド」「デジタルデバイド」
12
検索エンジン利用の一般的な注意
(2/2)
5. 複数キーワード、複合キーワードを使用する
•
•
•
通常空白で区切るとand検索になる
「携帯電話 カメラ」
「携帯電話 NOT カメラ」
「カメラ付き携帯電話」
6. AND検索のキーワードは2~3個に
7. 検索結果の参照は、最大でも数ページ程度まで
8. 検索機能の変更が頻繁
•
ヘルプ(使用方法)を確認する
13
ディレクトリ型検索エンジンの実際
Yahoo! Japan
•
•
•
•
•
•
Yahoo! Japan: http://yahoo.co.jp/
日本でよく利用されている
アナリストは200人といわれている
日本人に有用と考えられるページを収集
簡単な解説をサイト毎に付与
検索機能
– キーワード検索:
「島津製作所 ノーベル賞」 ← p.53 検索例3-1
– 検索オプション(詳細検索)
14
ロボット型検索エンジンの実際
Google(1)
• Google:http://www.google.co.jp/
• 検索式
– AND検索: 「半角スペース」
– OR検索: 「OR」
– Not検索: 「-」
– フレーズ検索:「”」でくくる
• 「I’m Feeling Lucky」 ボタン
– 最高位の検索結果を表示
15
ロボット型検索エンジンの実際
Google(2)
• 検索オプション(詳細検索)
– 語の区切りには半角を使うこと!
– 論理演算を使った検索
– ページの記述言語の指定
– 情報のファイルタイプの指定:doc,画像ファイル
– 情報の更新日付
– ドメイン指定
– 検索式で書けるものもある
16
ロボット型検索エンジンの実際
Google(3)
• p.55 検索例:3-2
– 久留米出身の洋画家で坂本繁二郎を除く青木
繁、古賀春江のサイトを検索する
• P.57 図3-6 (少し変えている)
– 読書習慣に関する、日本語のページで、日本の
省庁ドメイン(go.jp)にある、最近3ヶ月以内に更
新されたページを検索
17
メタ検索エンジン
• 複数の検索エンジンを同時に/並行的に検索
• ceek.jp http://www.ceek.jp/
– 複数の検索エンジンを同時検索
– 検索結果を統合表示
– 「検索オプション」:検索対象を選べる
• 検索デスク「SearchDesk」
http://www.searchdesk.com/
– キーワード入力はそのままで次々と異なった検索
エンジンへ
18
演習
1. 自分のすきなテーマでなんでもよいから、2語の検
索語(例:「日本 滝」)を使って、Yahoo! Japanと
Googleを検索
2. それぞれ上位20件の簡易検索結果の保存と印刷
1. 検索オプション:「表示件数」:20件
2. 「ファイル」「名前をつけて保存」「マイドキュメント」「保
存」
3. 「ファイル」「印刷」「印刷」
4. Googleには各検索結果に順位を手で書き加える
3. それぞれ上位20件の検索結果そのものの最初の
ページのみを印刷
19
演習
4. それぞれ、上位20件をYahoo! Japanを中
心にして表にまとめる→検索結果対応表と
呼ぶ
•
参照:配布資料
20
レポート課題5
•
•
•
•
•
•
•
•
以下をまとめて次回の授業の開始時に提出する
こと
「課題のタイトル:第5回レポート課題」「学籍番号」
「氏名」「提出した日付」
Yahoo!Japan:検索式、ヒット件数
Google:検索式、ヒット件数
簡易表示結果印刷物(Yahoo!, Google)
結果そのもの印刷物(Yahoo!, Google)
検索結果対応表
右隅をホッチキスで綴じること
21
本日のまとめ
• 前回の資料の訂正
• レポートの講評
• 演習:WWWと検索エンジン
– WWW
– 検索エンジンとは
• ディレクトリ型、ロボット型、ハイブリット型
• メタ検索エンジン
22