情報検索演習

情報検索演習
第3回
2005年10月12日
後期 水曜5限
江草由佳
国立教育政策研究所
[email protected]
前から4列目までに着席すること
1
前回のまとめ
• 講義内容
– レコードと検索フィールド
– 情報検索の理論
• 論理演算子(AND,OR,NOT)
• 位置演算子(隣接演算子、近接演算子)
• トランケーション(前方一致、後方一致、中間任意、中間一致)
– データベースのファイル構成
• インバーテッド・ファイル
• ストップワード
• シーケンシャル・ファイル
– 情報検索結果の評価
• 検索漏れ、ノイズ
• 再現率
• 精度
2
本日のお品書き
• 前回の資料の訂正・補足
• 講義
– データベースの定義
– データベースの歴史
– データベースの種類(分類)
– データベースの構築
– データベースの流通
3
前回の資料の訂正
• スライド8
誤: Aという検索語を持つ情報の集合と
正: Aという検索語を持つ情報の集合から
• スライド12
誤:
正:
誤:
正:
表1-1
1-1表
丁度
ちょうど
• スライド20
誤: 再現率:10/100×10 =10%
正: 再現率:10/100×100 =10%
4
前回の資料補足:
データベースのファイル構成(1)
–p.29
• インバーテッドファイル(inverted file) –p.29
– 転置ファイル、倒置ファイルとも呼ばれる
– レコード毎に蓄積されたデータを、検索語を基準にして並
べなおしたファイル
– レコード番号、検索フィールドおよび検索フィールドの何
番目かを示す番号、および検索語の件数が明記される
– 図1-9 データベースファイルの構成 –p.30
• ストップワード
– レコード中での出現頻度は高いが、検索上あまり重要で
ないため、検索対象から除外した語
5
前回の資料補足:
データベースのファイル構成(2)
–p.29
• シーケンシャル・ファイル(sequential file) –
p.31
– シリアル・ファイル、順次編成ファイル、線形
ファイル、リニアファイルなどとも呼ばれる
– レコード毎に蓄積されたデータ
– 検索結果の出力や一度検索した結果を対象に
絞込み検索するときに用いられる
6
データベースの定義
• 著作権法2条十の三 –p.35
– データベース 論文、数値、図形その他の情報の集合物
であって、それらの情報を電子計算機を用いて検索する
ことができるように体系的に構成したもの
• 日本工業規格(JIS) –p.35
– 適用業務分野で使用するデータの集まりであって、デー
タの特性とそれに対応する実態の間の関係とを記述した
概念的な構造によって編成されたもの(X0017)
– 特定の規則に従って電子的な形式で、一か所に蓄積され
たデータの集合であって、コンピュータでアクセス可能な
もの(X0807)
• データベース白書2003 –p.35
– 相互に関連のあるデータの集まり。複数のユーザが種々
の目的で利用できるよう、検索や更新の効率化が図られ
たもの。一般的には情報を統合し、コンピュータ処理が可
7
能なファイルの形で蓄積する。
データベースの歴史
• 表7.1データベース発展の歴史
– 配布資料(B4の紙)
8
データベースの種類(分類) (1)
• 図7.1データベースの分類
配布資料(B4)図7.1参照
– 配布資料(B4の紙)
1)形態別分類–p.39
– データの形態に注目して分類
– 図7.1:データの形態別分類を参照
2)分野別分類 –p.39
– データベースを扱っている主題分野によって分類
– 一般、自然科学・技術、社会・人文科学、ビジネ
ス、その他
9
データベースの種類(分類) (2)
配布資料(B4)図7.1参照
3)提供携帯別分類 –39p.
– オンライン
• 遠隔地にあるWWW上のデータベースを手元のコン
ピュータからネットワークを介して利用するもの
– オフライン(スタンドアロン)
• 手元のコンピュータのみで利用できるもの。CD-ROM
やDVDなどで提供されるパッケージ型のデータベース
など。
10
データベースの種類(分類) (3)
配布資料(B4)図7.1参照
4)用途別分類 —p.39
– データベースの用途に応じて分類
– 商用データベース
• 誰でも利用できるが、課金される
– インハウス・データベース
• 機関内で構築され、利用に制限があるもの
• 社内、業界、学術にさらに分類される
– パーソナルデータベース
• 個人が構築し、個人が利用するもの
– オープン
• インターネット上に提供され、一部を除いて無料で広く一般に開
放されている
11
データベースの種類(分類)(4)
配布資料(B4)図7.1参照
5)更新頻度別分類
– データベースの更新頻度で分類
– イミディエート
• 時々刻々と変化更新されるもの
• 株価情報や気象情報などを扱ったデータベース
– ヒストリカル
• 一か月、3ヶ月などある程度まとまって更新されるもの
• 書誌データベースなど
12
データベースの種類(分類)(5)
配布資料(B4)図7.1参照
6)利用料金別分類
– 利用料金の有無により分類
– 有料
• 商用のデータベース
– 無料
• 商用のデータベースであっても、図書館が一括して契
約し、利用者自身には料金がかからないものはこちら
にあてはまる
• インハウスデータベースもこれに該当する場合がある
– 機関内であれば無料だが、他者が利用する場合は課金され
るなど
• 無料のデータベース
13
データベースの種類(分類)(6)
まとめ
配布資料(B4)図7.1参照
• データベースの種類(分類)
– 形態別分類
– 提供形態別分類
– 分野別分類
– 用途別分類
– 更新頻度別分類
– 利用用金別分類
14
データベースの構築 –p.41
• 構築方法 → 文献データベースorそれ以外
• 文献データベース
1.書誌事項確定(文献情報源を識別可に)
2.主題分析
• 抄録作成、索引作成
• 件名標目、分類付与に必要な中心主題を抽出
– データベース利用者の質問後形成と検索に大きな影響をあた
える
– システムごとに詳細なマニュアルが用意される
15
商用データベースの流通 (1)
配布資料(B4)図7.5参照
• 商用データベースを概観できる資料 —39p.
– データベース白書
– データベース台帳総覧
• 1982年(昭和57)9月に創設された制度に基づいて、
データベースサービス企業の申告により作成されるも
の
• データベースの分野別の概要、利用方法などを記載
• データベースのライフサイクル —40p.
– 収集・選択・加工(組織化)・蓄積・検索・利用
16
商用データベースの流通 (2)
• データベース作成機関 —40p
配布資料(B4)図7.5参照
– プロデューサー、プロバイダーと呼ばれる
– データベース作成者(機関)のこと
– 文献データベースの場合は情報源収集から検索
語を付与し蓄積するまでを行う
– インテグレーデッド・プロデューサー
• 作成からオンライン情報サービスによる提供まで行う
もの
• 例:科学技術振興機構
– JSTPlusを作成し
– JOISで提供している
17
商用データベースの流通 (3)
配布資料(B4)図7.5参照
• データベース提供機関 –40p.
– ディストリビュータ、ベンダーと呼ばれる
– データベース作成機関から委託されたデータを、
自社のコンピュータによってサービスを提供する
機関
18
商用データベースの流通 (4)
配布資料(B4)図7.5参照
• 代理店(agent) –40p.
– プロデューサの著作権事務の代行
– ディストリビュータの営業事務の代理を行う
– 具体的には
• 情報検索の講習会
• 新規データベースの案内
• 検索マニュアルの日本語化
19
商用データベースの流通 (5)
配布資料(B4)図7.5参照
• 検索代行業(information broker) –40p
– インフォメーション・ブローカーと呼ばれる
– 利用者に代わってデータベースを検索し、結果を
利用者に提供する機関
– 形態はさまざま
• データベース販売代理店が行うなど
– 企業や情報センターなどではサーチャー(検索技
術者)が検索を行い、検索結果の評価、分析、報
告書作成などを代行する
20
商用データベースの流通 (6)
まとめ
配布資料(B4)図7.5参照
• データベース作成機関
– プロデューサー、プロバイダー
• データベース提供機関
– ディストリビューター、ベンダー
• 代理店
• 検索代行業
– インフォメーション・ブローカー
21
本日のまとめ
• データベースの定義
– 著作権法、JIS、データベース白書
• データベースの歴史 配布資料(B4)表7.1参照
• データベースの種類(分類)
– 形態別、提供形態別、分野別、用途別、更新頻度別、利
用用金別
• データベースの構築
• データベースの流通
配布資料(B4)図7.1参照
配布資料(B4)図7.5参照
– データベース作成機関(プロデューサー、プロバイダー)、
データベース提供機関(ディストリビューター、ベンダー)、
代理店、検索代行業(インフォメーション・ブローカー)
22
第1回レポート課題
• 今日までの3回の講義を1枚(A4)にまとめ17:45まで
に提出
– 時間内にできるかぎりでかまわない
– 手書きでもかまわない
• 以下の項目をレポートの冒頭に付けること
–
–
–
–
–
レポートのタイトル:第1回レポート課題
授業名:情報検索演習
提出した日付
学籍番号
氏名
• 今までの資料
http://amazon.slis.tsukuba.ac.jp/~yuka/lecture/2005/ir/
23