スライド 1 - 辻慶太のホームページ

知識情報演習Ⅲ(後半第1回)
辻 慶太(火)
芳鐘 冬樹(水)
http://www.slis.tsukuba.ac.jp/~fuyuki/cje3_09_1.html
1
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
2
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
3
情報検索の基本モデル
情報
解釈
文書
情報要求
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
4
情報検索システムに要求される能力
• 正確性
– 必要な情報だけを検索する → 高い精度
• 完全性
– 必要な情報を漏れなく検索する → 高い再現率
• 完全性と正確性の両方を高める索引付けや
照合の手法が必要
5
索引付け(インデクシング)
• 伝統的な書誌情報の検索
– 著者,タイトルなどの項目で構造化されている
• 全文テキスト検索
– 情報が構造化・定型化されていない
– 本文の内容を抽出し,形式化することが重要
– 索引語による形式化が一般的
• 人手による索引語の付与は高価で一貫性に欠ける
• 自動的な手法が必要
6
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– 「正確性」に影響
• 網羅性
– 漏れなく検索できるようなキーであるか
– 「完全性」に影響
極端な例:
ある文書にしか出現しない語を索引とする
→ 特定性は高く,網羅性は低い
7
索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
×
○
抽出誤りなし
単語
△
△
句(フレーズ)
○
×
形態素解析の
ために抽出誤り
がある
複数の単位を併用することも有効
8
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
あいまい性が生じる
9
では,演習開始
• 必要なファイルは演習のホームページから取得できる
• 演習はLinuxにログインして行う
• まず,「演習を始める前の準備」の通りに実行する
• 次に,「Perl入門」を各自で読みながら演習する
– 資料には,Perlに関する最低限の内容が書かれている
– 不明な点や発展的な内容はインターネットを使って適宜調べるとよい
– 質問があれば遠慮なく担当者を呼ぶ
• Perlプログラムファイルの文字コードは「EUC-JP」にする
– それ以外の文字コードでは正しく動作しないことがある
• 本日の課題(Perl入門の例題10)が終了したら担当者を呼ぶ
– 課題ができたら本日の内容は終了
– 次回の分を進めても結構
10