知識情報演習Ⅲ(後半第1回) 辻 慶太(火) 芳鐘 冬樹(水) http://www.slis.tsukuba.ac.jp/~fuyuki/cje3_09_1.html 1 後半5回の目的と予定 • 簡単な情報検索システムをプログラミングに よって自分の手で作る – 情報検索を通してプログラミングについて学ぶ – プログラミングを通して情報検索について学ぶ • 大まかな予定 – 第1回: 全体説明,情報検索の概要,Perl入門 – 第2回: Perlプログラミング – 第3回: 索引付けの概要,プログラミング – 第4回: 索引付けプログラミングの続き – 第5回: 検索システム完成,最終レポート 2 情報検索システムの世界観 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ) 検索 情報の登録者 生産 計算機上のシステム DB登録者,分類者, 索引作成者など 登録 蓄積される情報 図書,雑誌,画像,音声など 生産者側の処理 支援 検索エンジン,DB, インタフェースなど 人間の仲介者 代行検索者,図書館員など 利用者側の処理 3 情報検索の基本モデル 情報 解釈 文書 情報要求 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索 4 情報検索システムに要求される能力 • 正確性 – 必要な情報だけを検索する → 高い精度 • 完全性 – 必要な情報を漏れなく検索する → 高い再現率 • 完全性と正確性の両方を高める索引付けや 照合の手法が必要 5 索引付け(インデクシング) • 伝統的な書誌情報の検索 – 著者,タイトルなどの項目で構造化されている • 全文テキスト検索 – 情報が構造化・定型化されていない – 本文の内容を抽出し,形式化することが重要 – 索引語による形式化が一般的 • 人手による索引語の付与は高価で一貫性に欠ける • 自動的な手法が必要 6 索引語の良し悪しを決める要因 • 特定性 – ある文書を特定するために有効なキーであるか – 「正確性」に影響 • 網羅性 – 漏れなく検索できるようなキーであるか – 「完全性」に影響 極端な例: ある文書にしか出現しない語を索引とする → 特定性は高く,網羅性は低い 7 索引語の種類 単位 特定性 網羅性 文字(文字バイグラム) × ○ 抽出誤りなし 単語 △ △ 句(フレーズ) ○ × 形態素解析の ために抽出誤り がある 複数の単位を併用することも有効 8 形態素解析 • 自然言語文を入力とし,その文を構成する形 態素(語)を特定する処理 • 日本語や中国語のように分かち書きをしない 言語では重要 • 具体的には,以下の処理を行う – 語分割 – 原形の特定 – 品詞付与 – 読み(仮名)の付与 それぞれの段階で あいまい性が生じる 9 では,演習開始 • 必要なファイルは演習のホームページから取得できる • 演習はLinuxにログインして行う • まず,「演習を始める前の準備」の通りに実行する • 次に,「Perl入門」を各自で読みながら演習する – 資料には,Perlに関する最低限の内容が書かれている – 不明な点や発展的な内容はインターネットを使って適宜調べるとよい – 質問があれば遠慮なく担当者を呼ぶ • Perlプログラムファイルの文字コードは「EUC-JP」にする – それ以外の文字コードでは正しく動作しないことがある • 本日の課題(Perl入門の例題10)が終了したら担当者を呼ぶ – 課題ができたら本日の内容は終了 – 次回の分を進めても結構 10
© Copyright 2024 ExpyDoc