ま え が き スマートフォンやパソコン上で検索エンジンを用い,いつでもどこでもネット 上の膨大な情報源から迅速に情報を検索できる時代が来た。日々増え続けるディ ジタル情報から適切な情報を探してくれる情報検索(information retrieval)の 技術は,いまや多くの人にとって非常に身近なものであり,その重要性は論じ るまでもないだろう。情報検索研究の起源は,図書館から人手で本を探し出す ための索引づけ(indexing)の研究にあり,したがって 1950 年代に始まったも のといえる。約半世紀後の今日では,検索の対象,目的,形態が多様化し,学 界および産業界においてはより良い情報検索システム(information retrieval system)実現のために研究開発が日々続けられている。 本書は,情報検索システムに代表される情報アクセスシステムを,研究者が 適切な方法で評価し,健全な技術進歩に貢献するための道筋を示すことを狙っ たものである。読者としては,コンピュータサイエンス系の大学生や院生,も しくは情報アクセスおよび周辺分野の研究者を想定している。筆者自身も,早 稲田大学基幹理工学部情報理工学科および情報理工・情報通信専攻における講 義の教科書として,本書を活用している。情報検索や自然言語処理の分野では 良質な教科書が多いが,本書のようにシステムの評価という側面にこだわって 詳述したものは,国内外を問わず珍しいであろう。執筆にあたっては,特に,学 生や研究者の方々が既存の評価指標を盲目的に用いるのではなく,その意味を 理解し適切なものを選択できるようになるための手助けをすることを意識した。 さらに,実際に正しい方法によりシステム評価を行い,優れた論文や報告書を 書くのに役立つように,統計的検定の実施手順や信頼区間・効果量の算出手順 などについてもなるべく具体的に示した。 ii ま え が き 以下,準備事項としていくつかの基本的な用語を定義しておく。まず,情報検索 システムの定義を 1981 年の本より拝借しよう。以下は Robertson174, pp.9–10) †1 に よる定義である。 情報検索システム: 人間もしくは機械(もしくは両方)が適用する規則お よび手続きの集合 情報検索システムの役割: ユーザの情報に対する要求を満たす文書(doc- ument)にそのユーザを導くこと 上記「情報に対する要求」(need for information)は情報要求(information need)と呼ばれることが多い。これについては 1999 年の徳永の教科書295, p.3) より簡潔な定義を引用しておく。 情報要求: ユーザがある目的を達成するために現在持っている知識では不 十分であると感じている状態†2 さらに,われわれが情報検索評価において実際に扱う検索要求(search request) も,以下のように定義しておこう。 検索要求: ユーザの情報要求をテキストの形で明文化したもの 検索要求と似た言葉に質問(question)およびクエリ(query)がある。検索要 求が自然言語文である場合に前者が,スペースで区切られた語の羅列や論理式 のように,システムが解釈できる表現である場合に後者が用いられることが多 い。ただし,情報検索システムがいずれのような入力も直接解釈できるならば, 検索要求,質問,クエリの境界線はもはや曖昧となる。 情報検索(システム)の定義に戻ろう。前述の Robertson による定義では, 「情報」の代わりに「文書」という言葉が使われているが,Sparck Jones も 1997 年の本で以下のように述べている240, p.1) 。「情報検索は文書検索(最近ではテ キスト検索)と同義とされることが多い。すなわち,情報検索システムの仕事 は,ユーザの情報要求に適合する情報を含む文書もしくはテキストを検索する †1 肩付き番号は巻末の引用・参考文献を示す。 †2 Taylor 243) は,1962 年の論文において情報要求を四つのレベルに分類している295) 。 ま え が き iii ことである」。ここで文書と並べてわざわざテキストという言葉を使っている のは,文書全体ではなく文書の一部分,すなわちパッセージ(passage)を単位 とした検索を意識したためだと考えられる。今日では,文書という言葉は検索 の基本単位を表す一般的な概念として用いられることが多く,例えば文やパッ はんちゅう セージ,画像や映像の検索なども,文書検索すなわち情報検索の 範 疇 といえ る。本書では,曖昧性を回避するために検索単位(retrieval unit)という言葉 も適宜使用する。 上記の Sparck Jones による定義において,適合性(relevance)という概念 が登場している。本書では,Robertson 174, p.14) にならって,以下のようなさ らりとした定義を与えておこう。 適合性: ユーザの要求に文書がどれほど良くマッチしているか。 あるユーザの情報要求に対して特定の文書が適合するかしないかは,あくま で主観的に判断されるものである。一方,情報検索評価の目的は,ユーザの情 報要求を満たすためにより効果的なシステムを構築することであり,このため にシステムを客観的に評価し,技術進歩を促すことである。客観的なシステム 評価を狙った実験が,適合性判定(relevance assessment)と呼ばれる人手で 作成した正解データに依存しているという点は,情報検索評価の大きな特徴で ある。 情報検索は,システムの出力結果の形態から 2 種類に大別できる。 集合検索(set retrieval) : 検索対象が小規模であった初期の情報検索シス テムは,入力されたクエリに対して文書の集合を出力するものであった。 この場合,検索された文書間に順序関係はない。大規模な検索対象を扱 う今日においても,例えば特許調査のように必要な文書を洩れなく検索 することが要求される場合には,集合検索が採用される場合がある。 ランクつき検索(ranked retrieval): ウェブ検索エンジンを使ってみれば 明らかであるように,今日では情報検索システムといえば,文書をなんら かの方法により順序づけて出力するものが大半である。この場合,ユー ま iv え が き ザは検索された文書をしらみつぶしに調べるのではなく,検索結果の上 位にある文書のみを調べればよい。 以上より,情報検索システムの評価とは,文書(すなわち検索単位)の集合,も しくは文書のランクつきリストを評価することである。なお,ユーザからの検索 要求を待たずにシステム側から能動的に文書を提供する情報推薦(information recommendation)においても,情報検索評価の手法が適用できる場合がある だろう。 つぎに,情報アクセス(information access)を以下のように定義しよう。 情報アクセス: ユーザの情報要求を満たすための技術の総称。情報検索の 上位概念である。 前述の情報検索の定義に当てはまらない情報アクセスの形態としては,例えば長 いテキストの一部に含まれる有用な情報への効率的なアクセスを可能にするテ キスト要約(text summarization) ,ユーザの質問に対して自然言語により簡潔 に回答する質問応答(question answering) ,特定のタイプ(例えば政治,スポー ツなどのジャンル)の文書集合へのアクセスを可能にするテキスト分類(text categorization),特定の話題に関するポジティブ・ネガティブな意見などへの アクセスを可能にする意見分析(opinion analysis)などが挙げられる。ただし, 例えば質問応答システムが既存の文書から文字列を抜粋して回答を生成するも のであるならば,これは情報検索システムに近い。違いは,回答文字列があらか じめ検索単位として定められていない点である。また,ユーザが理解できない 外国語で書かれた文書中にある情報にアクセスするために機械翻訳(machine translation)が役立つとすると,これもまた情報アクセスの一形態といえるか もしれない。 情報アクセスシステムの評価は,被験者実験をもとに実際のユーザが検索し た情報の品質や検索の効率を論じるアプローチと,テストコレクション(test collection)という評価用に作成されたデータセットを評価指標(evaluation ま え が き v measure)とともに用いるアプローチに大別されるが,本書では後者を扱う†1 。 被験者実験は人間が直接参加するため「ユーザの情報要求を満足させる」という究 極目標に近いが,その反面,小規模になりがちで再現可能性(reproducibility)†2 が 保証できず,結果の一般化がしにくいという弱点もある。さらに,一般に被験 者は実際のユーザではないことに注意する必要がある†3 。これに対し,テスト コレクションを用いた評価においては,大規模かつ再現可能な実験を行うこと ができる反面, 「ユーザの情報要求を満足させる」という究極目標に即した適切 な評価指標を選定するという課題と,これらを適切な方法で利用しなければな らないという課題がある。よくいわれるように, 「測定できないものは改善でき ない」。システムの評価方法は,たいへん重要な研究課題なのである。 本書の構成は,以下のとおりである。 1 章では,1950 年代に始まったテストコレクションを用いた情報検索評価の 歴史を簡単に振り返る。 2 章では,集合検索およびランクつき検索のための基本的な評価指標を紹介 し,3 章では,比較的新しい情報検索評価指標,すなわち,テストコレクショ ンの適合性判定が網羅的でないことを考慮した評価指標,適合性だけでなく検 索された文書の内容の多様性を考慮した場合の評価指標,検索単位同士が部分 的に重複しうる XML 検索に特有な評価指標,ユーザが情報を見つけるのに要 した時間を考慮した評価指標などを紹介する。4 章では,テキストを出力する 情報アクセスシステムに適した評価指標,すなわち,機械翻訳やテキスト要約 の自動評価指標,質問応答やこれに類似するタスクにおける評価指標,さらに さまざまな形態の情報アクセスシステムを評価するための統一的な枠組みにつ いて紹介する。 †1 †2 †3 ユーザ実験を伴う情報検索評価方法については,Kelly の本299) もしくはその訳書300) を参照してほしい。 他の研究者が同様の条件で実験を行ったとき,同様の結果が得られるという性質。 Google や Microsoft など,ウェブ検索エンジンを運営している会社は,実際のユーザ の行動の多くを「インターネット越しに」観測することができる。これについては 8 章 で触れる。 vi ま え が き 5 章では,テストコレクションを用いて評価を行う具体的手順について述べる。 特に,評価ツールの使い方や,各種統計的検定(statistical significance test) の具体的手順,そして効果量(effect size) ,信頼区間(confidence interval)を 含めた実験結果の適切な報告方法について述べる。6 章では,研究者が自分で テストコレクションを設計・構築する方法について,7 章では,テストコレク ションおよび評価指標を評価・選定する方法について述べる。 8 章では, 「情報アクセス技術のオリンピック」に例えられる評価型国際会議 TREC†1 および NTCIR†2 などにおける各種タスク(すなわち「競技種目」)を 簡単に紹介する。また,明示的な適合性判定の代わりにユーザから収集した各 種シグナルを情報アクセス評価に利用する最近の試みについて触れる。なお, この章では,2014 年までの主要な動向をカバーしたつもりである。 本書に関する補足情報を筆者のウェブサイト http://www.f.waseda.jp/tetsuya/book.html に掲載している。本書の中で他のウェブサイトも紹介しているが,2015 年 1 月 現在の情報である。 筆者を 2000 年から 2001 年にかけて英ケンブリッジ大学にてご指導くださり, 2007 年に亡くなった Karen Sparck Jones 先生に本書を捧げたい。本書は日本 人学生向けに日本語で執筆したが,天国では言語横断情報アクセス技術が成熟 しており,Karen にもご高覧いただけるかもしれない。また,筆者を早稲田大 学の学生時代から二十余年にわたり見放すことなくご指導くださっている平澤 茂一先生に感謝する。5∼6 章の執筆にあたっては,早稲田大学経営システム工 学科の永田靖先生の統計学などの本を何冊も読んだ。その上で,ほぼ初対面の 永田先生の研究室に 2014 年 11 月に押しかけていき,統計的検定,信頼区間, 多重比較についていろいろ質問させていただいた。ご丁寧に答えてくださった 永田先生に感謝する。なお,本書の記述に誤りがあるとすれば,それはあくま †1 †2 Text Retrieval Conference NII Testbeds and Community for Information access Research ま え が き vii で筆者の誤りである。京都大学の山本岳洋先生と加藤誠先生には原稿を細部に わたりチェックしていただき,本書の内容に関してたくさんの有益なコメント をいただいた。加藤誠先生にはさらに,筆者の開発した UNIX 系環境用情報検 索評価ツール NTCIREVAL(5 章)を Mac 環境でも使えるように,ヘッダ ファイルなどを修正していただいた。筆者は本の執筆に関しては初心者であっ たが,コロナ社編集部のご支援により,なんとか形にすることができた。 最後に,筆者に国際的視野を与えてくれた両親と,自宅では書斎にこもって ばかりの筆者にいつも協力してくれる妻・美穂と娘・梨緒に感謝する。 2015 年 4 月 酒井哲也 目 次 1. 情報検索評価の歴史 1.1 情報検索研究の夜明け . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Cranfield 実 験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 Cranfield I................................................... 3 1.2.2 Cranfield II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 SMART システムの実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 MEDLARS システムの実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 “理想的な” 情報検索テストコレクション . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.6 評価型会議の始まり . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.7 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2. 基本的な情報検索評価指標 2.1 適合性判定の前提 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 集合検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.1 再 現 率 と 精 度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.2 E-measure と F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.3 マクロ平均とマイクロ平均 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3 二値適合性に基づくランクつき検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.1 再現率・精度曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.2 11 点平均精度,R 精度,測定長における精度 . . . . . . . . . . . . . . . . . . . 26 目 x 次 2.3.3 平 均 精 度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.4 逆 数 順 位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4 多値適合性に基づくランクつき検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . 31 nDCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4.2 Q-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.1 2.4.3 NCU と P + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.4 ERR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4.5 RBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.6 多値適合性に基づく評価指標の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3. より複雑な情報検索評価指標 3.1 失敗分析に適した評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.1 GMAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.2 改善信頼性(RI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2 不完全性を考慮した評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.1 bpref と RankEff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2.2 短縮リストを用いた評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.2.3 infAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.3 セッション向け評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 等価性と組み合わせ適合性への対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.4.1 等価性クラスの扱い . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.4.2 組み合わせ適合性の扱い . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.5 多様化検索のための評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.5.1 α-nDCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.5.2 ERR-IA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 目 3.5.3 D-measure 次 xi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.4 検索意図タイプを考慮した多様化検索評価指標 . . . . . . . . . . . . . . . . . 83 3.5.5 多様化検索のための評価指標の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.6 時間に着目した評価指標 TBG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.7 XML 検索向け評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.7.1 エレメント検索の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.7.2 パッセージ検索の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.8 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4. テキストを対象とした情報アクセス評価指標 4.1 機械翻訳の自動評価指標 BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.2 要約の自動評価指標 ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.3 質問応答の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.4 ワンクリックアクセスの評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.4.1 S-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.4.2 T-measure と S♯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.5 汎用的な評価指標 U-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.5.1 Trailtext と U-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.5.2 U-IA と D-U . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.6 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5. テストコレクションを用いた評価 5.1 テストコレクションの選定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.2 評 価 ツ ー ル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.2.1 trec eval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 xii 目 次 5.2.2 NTCIREVAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5.3 統計的検定:二つのシステムの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.3.1 対応のある t 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 5.3.2 符 号 検 定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.3.3 ブートストラップ検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.3.4 ランダム化検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.4 統計的検定:三つ以上のシステムの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 5.4.1 1 元配置の分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.4.2 繰り返しのない 2 元配置の分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.4.3 ランダム化 Tukey HSD 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.5 統 計 改 革 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.5.1 効 果 量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.5.2 信 頼 区 間 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 5.6 実験結果の報告の仕方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 5.6.1 二つのシステムの比較評価結果の報告 . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.6.2 三つ以上のシステムの比較評価結果の報告 . . . . . . . . . . . . . . . . . . . . . . 171 5.6.3 失 敗 分 析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.7 進 歩 の 検 証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.7.1 適切なベースラインの選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.7.2 評価型会議における進歩の検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.8 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 6. テストコレクションの設計 6.1 トピック数設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 6.1.1 t 検定に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 6.1.2 1 元配置の分散分析に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 目 次 xiii 6.1.3 信頼区間に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 6.1.4 母 分 散 の 推 定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.2 プーリングと適合性判定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 6.2.1 プーリング方式と提示順序のバリエーション . . . . . . . . . . . . . . . . . . . . 192 6.2.2 適合性判定基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 6.2.3 適合性判定ツール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 6.2.4 判定者間不一致の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 6.3 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 7. テストコレクションおよび評価指標の評価 7.1 適合性判定の縮小 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 7.1.1 リーブワンアウト法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 7.1.2 プール長の縮小 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 7.2 順 位 相 関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 7.2.1 Kendall の τ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 7.2.2 Yilmaz らの τap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 7.2.3 その他の順位相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 7.3 逆 転 法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 7.4 判 別 能 力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 7.5 トピック数設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.6 一 致 度 テ ス ト . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 7.7 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 xiv 目 次 8. 評価型会議の概観と情報アクセス評価の新潮流 8.1 評価型会議 TREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 8.1.1 過去の TREC トラックより . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 8.1.2 TREC 2014 のトラック . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 8.2 評価型会議 NTCIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 8.2.1 過去の NTCIR タスクより . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 8.2.2 NTCIR-11(2014 年)のタスク . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 8.3 その他の情報アクセス評価型会議 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 8.3.1 CLEF(2000∼)と初期 INEX(2002∼2012) . . . . . . . . . . . . . . . . 259 8.3.2 そ の 他 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.4 情報アクセス評価の新潮流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.4.1 クリックデータの活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 8.4.2 その他のシグナルの活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8.5 文 献 紹 介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.5.1 国 際 会 議 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.5.2 国 際 論 文 誌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 引用・参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 索 引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 1 情報検索評価の歴史 情報検索の研究者でなくても,検索洩れの少なさを表す再現率(recall)や検 索ノイズの少なさを表す精度(precision)という言葉を知っている人は少なく ない。これらの概念は情報検索研究から生まれ,今日の情報アクセスシステム の評価においても主要な概念である。本章では,今日の「実験室型」情報アク セス評価について学ぶための下準備として,1950 年代からの情報検索評価の歴 史をざっと振り返ることにする。 1.1 節では,情報検索の研究が 1950 年代にどのようにして盛んになったかにつ いて触れる。1.2 節では,テストコレクションを用いた情報検索評価という方法 論を確立した Cleverdon による 1950∼1960 年代の Cranfield 実験(Cranfield experiments)について述べる。1.3 節および 1.4 節では,1960 年代を代表す る情報検索評価のプロジェクトである Salton による SMART システムの実験, Lancaster による MEDLARS システムの実験について触れる。1.5 節では, 1970 年代に Sparck Jones と van Rijsbergen が提案した “理想的な” 情報検索 テストコレクション(‘ideal’ information retrieval test collections)の構想に ついて紹介する。1.6 節では,“理想的な” テストコレクションのアイデアを受 け継いで 1990 年代にスタートした情報検索の評価型会議の概要を述べる。最 後に,1.7 節では,本章でカバーしきれなかった関連する話題についての文献 情報を提供する。 2 1. 情報検索評価の歴史 1.1 情報検索研究の夜明け Swanson241) によれば,情報検索(information retrieval)という用語は Mooers により 1950 年に考案されたらしい。当初の情報検索研究の関心は,科学技術 文献などに対して人手で索引(index)をつけておき,これを利用して特定の主 題(subject)に関する文献へのアクセスを容易にすることであった† 。 1950 年代,索引づけといえば人手で行うものであった。すなわち,索引者 (indexer)が文献を読み,解釈し,あらかじめ定められた語彙体系から索引語 (index term)を選定していた。このように,あらかじめ定められた語彙から選 択される索引語を統制語(controlled term)という。上記の方法では,索引づ けの段階で索引者の解釈が入っていることに注意してほしい。 上記のような時代に,Luhn 146) は文書中の語の頻度カウントにより語の重 要性を自動推定するアイデアや,自動索引づけ(automatic indexing)のアイ デアを考案した。彼は自動索引づけについて 1961 年に以下のように述べてい る147, p.1022) 。「もし機械が著者自身の言葉により情報を格納できるのならば, 解釈は問い合わせを行う瞬間まで延期できる」 。これは,文書中に含まれる語を 片っ端から自動抽出して索引語とする今日では,当たり前の考え方である。こ のように,あらかじめ用意された語彙体系などの制約を受けない索引語を自由 語(free term)という。Swanson 241, p.95) による「機械は意味を認識できな いので,索引づけと分類のプロセスに対し人間の判断がもたらしうるものを再 現できない」という指摘は真理かもしれないが,膨大な検索対象データを扱う 今日において人手による索引づけ(manual indexing)は選択肢となりにくい。 ただし,例えば今日の Facebook などにおける画像へのタグづけや Twitter に おけるハッシュタグの利用は,自由語を用いた人手による索引づけの一種と見 なすことができる。 † Swanson は,世界初の索引づけシステムは,1247 年に 500 人の僧侶の労力を結集し て作成された聖書コンコーダンス(用語索引)だったと冗談半分に述べている。 1.2 Cranfield 実 験 3 話をもとに戻そう。1950∼1960 年代においては,人手による索引づけを前提 に,どのような索引の体系を用いるべきかが主要な関心事であったことを覚え ておいてほしい。ここに登場するのが,次節で述べる Cleverdon である。 1.2 Cranfield 実験 今日の情報検索評価の基本形を確立したのが,1958∼1966 年頃に行われた Cleverdon による二つの実験プロジェクト Cranfield I 51), 52) および II 53), 54) である。Cleverdon の思想は,彼が Cranfield II の論文53, p.263) で使ったこと わざ “The proof of the pudding is in the eating”(論より証拠。プディング を評価したいならまず食べよ!)に端的に表れている。彼は,実証実験も行わ ずに索引づけ手法の良し悪しを論じる研究者を痛烈に批判している54, p.10) 。以 下,Cranfield I および II の実験内容について概説する。なお,情報検索の実験 といっても,Cranfield 実験では,なんとコンピュータはいっさい用いられず, 終始手作業であった。 1.2.1 Cranfield I Cranfield I の目的は,人手による索引づけの 4 手法の比較であった。4 手法と は,木構造の知識体系である国際十進分類法(universal decimal classification) , 文献の主題を統制語で表す件名標目(subject headings) ,各文献の主題をいく つかの統制語の組み合わせで表現するファセット分類法(faceted classification scheme),そして各文献に自由語の組み合わせを付与するユニタームシステム (uniterm system)であった。 Cranfield I の功績は,上記 4 手法の有効性を比較するため,あらかじめ定め た文書コレクション,質問セットおよび各質問に対する正解文書を用意したこ と,すなわち今日のテストコレクションのひな型を構築したことであった。ま ず,文書コレクションは,航空学に関する 18 000 件の文献とした。この 18 000 という数字は,索引づけ手法四つ,索引者 3 名,各文書の索引づけにかける時 4 1. 情報検索評価の歴史 間 5 水準(2, 4, 8, 12, 16 分間),各水準の文書 100 件,以上の条件を各 3 回 試行,という設計により算出されたものである。質問セットについては,科学 者・技術者に上記文書コレクション中の特定の文書を見てもらい,ここから例 えば「転換式航空機とヘリコプターの比較(を主題とする文献が欲しい) 」のよ うな質問を作成してもらうというアプローチを採用した。 繰り返しになるが,この実験はコンピュータを用いたものではなく,3 名の 作業者が分担して人手で 18 000 件の文書に対して索引づけを行ったものであ り,その労力は膨大であった。Cleverdon 自身,この作業を「きわめて残酷な 51) 拷問」 と描写している† 。一方,本項では適合性判定という言葉が出てきてい ないことに気づいただろうか。Cranfield I の質問は,特定の実在する文書から ひねり出されたものなので,そのソース文書(source document)が自動的に その質問に対する正解となるのである。したがって,適合性判定の労力はゼロ であり,各索引づけ手法は「ソース文書を探し出せるか否か」という評価指標 により評価された。 Cranfield I におけるおもな知見は,ユニタームという自由語による単純な索 引づけ手法が,これまで有効だと信じられてきた他の手法と同等である可能性 があるということ,さらに,どの索引づけ手法を採用するかよりも,索引者が いかに重要な概念を文書中から見出せるかのほうがはるかに重要であるという ことだった。 1.2.2 Cranfield II さて,読者は,Cranfield I における質問の作成方法や評価方法に,なにか疑 問を感じただろうか。Cleverdon は,Cranfield I での実験方法について,散々 批判を浴びたらしい。まず,ソース文書を読んだ上でひねり出した質問という のは現実的なものだろうか。実際の情報検索システムのユーザは,検索対象の コレクションにどのような内容の文書が含まれるか,また,その文書中でどの ような言語表現が使われているか,具体的に知らないことが多いはずである。 † 実際,作業者のうち 1 名は途中棄権し,代打が起用された。 1.2 Cranfield 実 験 5 ソース文書と同じような言語表現を用いて質問を作成したなら,その質問によ りソース文書を探し出せることは,あまり驚くべきことではないのではないか。 さらに, 「ソース文書を探し出せるか否か」は,適合文書が 1 件しかない場合に 検索洩れの少なさを表す再現率を算出することに相当するが,検索誤りの少な さを表す精度に相当する評価が欠落しているのではないか† 。 上記のような批判を受けたことから,Cranfield II は以下のように行われた。 まず,論文の著者自身がその論文の研究課題を質問の形で表現し,その論文の参 考文献のうち質問に適合するものを列挙した。さらに,著者自身や雇われた学 生が,人手による検索により追加すべき適合文書を探した。この適合性判定の 導入が Cranfield II の功績の一つである。この結果でき上がった Cranfield II テストコレクションは,航空学に関する 1 400 件の文書,279 件の質問,および 質問ごとの適合性判定からなるものであった。Cranfield II は,前述の Sparck Jones らや後述する Salton らによっても後に利用され,複数の研究機関がテス トコレクションを共有する今日の状況の先駆けとなった。 Cranfield II の適合性判定は,各文書に適合性グレード(relevance grade)を 付与したものであった。具体的には,以下の 5 段階からなる多値適合性(graded relevance)データであった。 (1) 質問(研究課題)に対して完全な回答を与える文献 (2) この文献がなければ研究が遂行できない,もしくは余分な手間が多くか かってしまうというくらいに,質問に対する適合性が高い文献 (3) 質問である研究課題に対する一般的な背景情報として,もしくは研究課 題の一部分に対するアプローチ方法を示すものとして,有用といえる文献 (4) 歴史的観点から引用されたものなど,興味の度合いは最小限の文献 (5) 興味を持ち得ない文献 なお,1992 年に始まった評価型会議 TREC(1.6 節,8 章)では,適合性判 定に二値適合性(binary relevance) ,すなわち,各文書は検索要求に適合する かしないかのいずれかであるとする基準が採用された。TREC を立ち上げた米 † 再現率と精度の定式化は 2 章で行う。 6 1. 情報検索評価の歴史 NIST†1 の Harman は,情報アナリストが報告書を作成するための素材を集め ることを想定していたため,文書が有用な情報を含むか否かに基づく適合性判 定を採用したと説明している100) †2 。その後,2000 年頃になってウェブ検索の 評価において多値適合性の重要性が再認識され101, p.204) ,さらに多値適合性に 対応した評価指標が広く知られるようになったため,現在では多値適合性判定 を持つテストコレクションが主流である。一方,8 章で述べるように,日本で は 1990 年代より一貫して多値適合性が主流である。 話をもとに戻そう。Cranfield II におけるおもな知見は,例えば “pressure”(圧 力)や “distribution”(分布)のような単一の自由語に基づく索引づけのほうが, 統制語や概念に基づく索引づけよりも検索有効性(retrieval effectiveness)†3 が 高く,さらに,単一の自由語に基づく索引づけにおいては,同義語や活用の吸収 以上の複雑な処理を施しても結果はかえって悪くなるということであった。す なわち,最も単純な方法が最も有効であるという当時としては驚くべき結果で あった。Cleverdon が “The proof of the pudding is in the eating” というの も無理はない。評価はやってみなければわからない。ただし,その評価方法は 適切なものでなければならない。 Cranfield II における評価方法について付け加えておく。Cleverdon らは評 価指標として二値適合性しか扱えない再現率と精度を採用したため,多値適合 性判定を二値に落とし込んだ上で評価を行っている。筆者はこれをもったいな いことだと思うが,この方法は 1990 年代の TREC などでも踏襲されている。 このような背景から,3 章では多値適合性に対応した評価指標とその利点につ いて詳述する。 †1 †2 †3 National Institute of Standards and Technology 1.3 節で紹介する SMART テストコレクションは二値適合性を採用しており,Harman は SMART システムを開発した Salton の門下生であった139) 。このことも影響した かもしれない。 検索結果の質のこと。これに対し,いかに高速に検索結果を提供できるかを検索効率 (retrieval efficiency)というが,本書では直接扱わない。 1.3 SMART システムの実験 1.3 7 SMART システムの実験 情報検索の研究者でなくても,ベクトル空間モデル(vector space model)とい う言葉を聞いたことがある人は少なくないだろう。情報検索において,クエリお よび文書を索引語の頻度などを要素としたベクトルでそれぞれ表現し,例えば両 ベクトルの内積などにより文書の適合性を推定するという考え方である。Salton ら 216) は,このモデルに基づく評価実験用情報検索システム SMART を構築 し,1960∼1970 年代にテストコレクションを用いた実験室テスト(laboratory 174) test) を推し進め,この分野に多大な影響を与えた。Cleverdon の Cranfield 実験が人手による索引づけを扱うものであったのに対し,Salton らは前述の Luhn の考え方を基礎とする自動索引づけに関する多くの実験を行った。 Salton らは SMART の実験において,徹底してテストコレクションを複数用 いた実験を行った。複数のテストコレクションで同じような評価結果が得られ れば,その結果は一般性のある信頼性の高いものであるかもしれない。逆に,特 定のテストコレクションについてのみ得られる結果があったとすれば,そこに はなんらかの興味深い理由があるかもしれない。いずれにしても,複数のテス トコレクションによる実験結果は,単一のテストコレクションによるそれより も情報量が多く,有用性が高い。このような方法論を普及させたことは Salton らの功績の一つであろう。 表 1.1 に,Salton が 1960 年代に用いた三つのテストコレクションの概要を 示す† 。文書数の行を見ると,文書コレクションがきわめて小さいことがわかる。 一方,このため適合性判定は網羅的(exhaustive)である。すなわち,文書コ レクション中のすべての文書が,各検索要求に対する適合性判定の対象となっ ている。また,二値適合性が採用されている。 Salton らは,SMART システムにおける実験環境に統計的検定を組み込んで † “CRAN-I” と呼ばれるテストコレクションの文書は Cranfield II テストコレクション の一部であり,若干紛らわしい。 索 【あ】 アイトラッキング 121, 263 曖昧なクエリ 73 アドホックトラック 13, 196, 226 【い】 一致度テスト 88, 128, 218 一般化精度 99 意 図 73 意図意識型評価 77 意図確率 74, 86 意図ごとの収穫逓減 76, 87, 128 意図ごとの適合性判定 75 意図再現率 81 意味内容単位 103 インターリービング 101, 261 【う】 上側臨界値 161 ウェブトラック 56, 73, 77, 190, 195, 209, 230, 234 【え】 エフォート精度 93 【お】 重みつきナゲット再現率 112 重みつき Cohen の κ 201 確率ランキング原理 カスケードモデル 簡略ペナルティ 24 42 108 【き】 機械翻訳 iv 幾何平均 53 棄却域 149 擬似最小出力 117 擬似適合性フィードバック55 期待利得 242 帰無仮説 148 帰無仮説検定 147 逆数順位 30 逆転法 214 許容長 113 【く】 クエリ ii クエリ指向要約 102 クエリ修正 51 クエリ推薦 65 クエリログ 66, 261 組み合わせ適合性 71 組み合わせ適合性スコア 250 クラウドソーシング 20, 221 繰り返しのない 2 元配置の 分散分析 162, 172, 190 クリックデータ 66, 261 グローバル利得 80 訓練データ 133 【け】 【か】 外的評価 拡張可能性 引 246 11 言語横断質問応答 言語横断情報検索 検索意図 検索セッション 検索バイアス 検索放棄 検索有効性 検索要求 原子性 検出力 減衰関数 減損関数 減損利得 減損累積利得 検定統計量 30 65 129 263 6 ii 116 181, 185 89 89 33 33 149 【こ】 効果量 166, 177 更新利得 242 効 用 29 コンテクスト型推薦トラック 91, 237 【さ】 再現可能性 v 再現率 1, 20 再現率・精度曲線 8, 25 最小限テストコレクション 193 再利用可能性 13, 175 サブトピック 73 算術平均 23 参照要約 109 【し】 247 176, 245 時間要約トラック 実運用テスト 240 8 索 292 実験室テスト 失敗分析 9, 質問応答 iv, 質問応答チャレンジ 質問応答トラック 質問系列 実用的有意性 収穫逓減 39, 47, 125, 集合検索 自由度 集約検索タスク 順位相関 上位重視性 条件つき適合性判定 49, 冗長性クラス 情報アクセス 情報検索システム 情報収集型検索意図 30, 83, 情報要求 新規性バイアス利得 信頼区間 166, 168, 171, 177, 引 7 173 229 247 111 111 172 216 iii 149 93 211 62 197 94 iv i 128 ii 75 188 【す】 スキップバイグラム ステューデント化 スパムトラック 110 155 55 【せ】 正規化 33, 46, 87, 125, 128 正規化スライド比 33 精 度 1, 20 セッショントラック 235 線形縦断 29, 66, 126 選好判定 49, 197 潜伏減損関数 242 【そ】 相対再現率 測定長 9 15 【た】 第 1 種の誤り 第 2 種の誤り 対立仮説 多重比較法 159, 多値適合性 5, タッチインタラクション 多様化検索 73, 143, 多様性タスク 短縮リスト 59, 単文書要約 114, 【な】 181 181 149 177 195 263 221 73 140 246 【ち】 知識ベース加速トラック 238 調和平均 23 【て】 適合性 適合性グレード 適合性判定 iii, 194, 適合性判定者 適合性フィードバック テキスト含意 117, テキスト要約 テキスト要約チャレンジ テストコレクション テストデータ 徹底検索タスク 【と】 iii 5 196 14 56 254 iv 246 iv 133 93 等価性クラス 69 統計的検定 7 統計的有意性 11, 151, 172 統合検索 88 同時信頼区間 170 等分散性 160 特許検索 249 トピック 14, 179, 196 トピック数設計 180, 217 取引型検索意図 30 トレイルテキスト 121 内的評価 ナゲット 101, 103, ナゲット重み ナゲット精度 ナゲット F-measure 246 111 112 113 113 【に】 二値適合性 5 【の】 ノンパラメトリック検定 152 【は】 バイグラム パッセージ パッセージ再現率 パッセージ精度 パラメトリック検定 判定者間不一致 19, 判定者内不一致 判別能力 47, 87, 125, 128, 106 iii 98 98 147 198 19 216 【ひ】 非心パラメータ 182, 185 非心 χ2 分布 187 非心 F 分布 185 非心 t 分布 182 被覆率 247 ビューポートトラッキング 263 評価指標 iv 標準化 47 標本効果量 167, 171 【ふ】 ファクトイド型質問応答 ファセット型クエリ フィルタリング フィルタリングトラック 103 73 13 227 索 ブートストラップ検定 154, 171, 176 ブートストラップパーセン タイル法 177 ブートストラップ標本 155 ブートストラップ分布 156 プーリング 12, 57, 192 プール長 14 不可欠な文字列 117 不完全性 12, 57 復元抽出 155 複数文書要約 114, 247 符号検定 152 ブレンド比 35 ブログトラック 232 分散分析 159 【ま】 マイクロブログトラック マイクロ平均化 マウストラッキング 121, マクロ平均化 234 23 263 23 【む】 71, 249 【る】 累積利得 ルーティング 【ゆ】 有意水準 148 誘導型検索意図 30, 83, 128 有用性 18 ユニグラム 104 99 93 28 98 174 243 72 25 168 34, 89 227 【れ】 連結リスト 67 連合ウェブ検索トラック 239 【ら】 ラ ン ランク感度 ランクつき検索 ランダム化検定 156, ランダム化 Tukey HSD 検定 164, 171, ランダム抽出 ランダム標本 146, 【ほ】 包括性 補完クラス 補間精度 母効果量 【り】 【み】 無効資料調査 293 リーブワンアウト 207 リサンプリング 154 リスク敏感効用 56 リスク敏感タスク 56, 234 “理想的な” 情報検索テスト コレクション 1, 11 理想的リスト 32 利 得 32 両側臨界値 149 臨床意思決定支援トラック 243 未判定文書 59 ミリオンクエリトラック 65, 193 【へ】 平均一般化精度 平均エフォート精度 平均精度 平均補間精度 ベースライン 引 【ろ】 14 27 iii 177 ロバストトラック 53, 216, 227 ロバストネス 53 216 146 180 ワンクリックアクセス 114, 252 【わ】 ♢ 【A】 advanced crosslingual question answering ad hoc track 13, 196, aggregated search allowance alternative hypothesis ambiguous query 247 226 88 113 149 73 ♢ analysis of variance 159 average precision 28 arithmetic mean 23 【B】 atomicity 116 average effort-precision 93 baseline 174 average generalized bigram 106 precision 99 binary preference 57, 60 average interpolated binary relevance 5 precision 98 blended ratio 35 average nxCG 96 BLEU 102, 104 294 索 blog track bootstrap distribution bootstrap percentile method bootstrap sample bootstrap test 154, 171, brevity penalty 引 232 【D】 156 decay function 89 177 degree of freedom 149 155 diminishing return 176 39, 47, 125, 216 108 DIN-nDCG 84 discounted cumulative gain 【C】 33 cascade model 42 discounted cumulative chi-square distribution 187 utility 101 CLEF 250, 259 discounted gain 33 click data 66, 261 discount function 89 clinical decision support discriminative power track 243 47, 87, 125, 128, 216 Cohen の κ 198 diversified search Cohen’s kappa 198 73, 143, 221 combinational relevance 71 diversity task 73 combinational relevance D♯-nDCG 82 score 250 D-measure 80 complement class 72 D-nDCG 80 comprehensiveness 243 D-U 127 concatenated list 67 【E】 concordance test 88, 128, 218 effect size 166, 177 condensed list 59, 140 effort-precision 93 conditional relevance equivalence class 69 assessment 49, 197 evaluation measure iv confidence interval expected gain 242 166, 168, 171, 177, 188 expected global utility 101 contextual suggestion track expected reciprocal rank 42 91, 237 expected search length 48 coverage 247 extrinsic evaluation 246 Cranfield 実験 1, 3 eye tracking 121, 263 Cranfield experiments 1, 3 E-measure 21 critical region 149 【F】 cross-language information retrieval 176, 245 F 分布 161, 163 cross-language question faceted query 73 answering 247 factoid question answering crowdsourcing 20, 221 103 cumulative gain 34, 89 failure analysis 9, 173 federated web search track 239 filtering 13 filtering track 227 FIRE 260 Fleiss の κ 202 Fleiss’ kappa 202 focused retrieval task 93 F distribution 161, 163 F-measure 22 【G】 gain 32 generalized precision 99 geometric mean 53 geometric mean average precision 53 global gain 80 graded average precision 48 graded relevance 5, 195 【 H】 harmonic mean homoscedasticity H-measure 【I】 23 160 252 i ユニット 116 ‘ideal’ information retrieval test collections 1, 11 ideal list 32 IMine task 252 incompleteness 12, 57 induced average precision 65 INEX 91, 260 inferred average precision 63 informational intent 30, 83, 128 information access iv information need ii 索 information retrieval for question answering 19, 193, 195, 248 information retrieval system i intent 73 intent probability 74, 86 intent recall 81 INTENT task 74, 81, 175, 251 intent-aware evaluation 77 intent-aware expected reciprocal rank 78 interleaving 101, 261 interpolated precision 25 inter-assessor disagreement 19, 198 intra-assessor disagreement 19 intrinsic evaluation 246 invalidity search 71, 249 iUnit 116, 253 measurement depth 15 MediaEval 260 MedNLP task 257 microaveraging 23 microblog track 234 million query track 65, 193 minimal test collection 193 MobileClick task 127, 252 mouse tracking 121, 263 multiple comparison procedure 159, 177 multi-document summarization 247 multi-document summary 114 M-measure 253 【N】 N グラム 106 N -gram 106 navigational intent 30, 83, 128 noncentrality parameter 【K】 182, 185 Kendall の τ 212 noncentral chi-square distribution 187 Kendall’s tau 212 noncentral F distribution knowledge base 185 acceleration track 238 noncentral t distribution 【L】 182 152 laboratory test 7 nonparametric test normalization latency discount function 33, 46, 87, 125, 128 242 leave one out 207 normalized cumulative precision 38 linear traversal 29, 66, 126 normalized cumulative 【M】 utility 38 machine translation iv normalized discounted cumulative gain 33 macroaveraging 23 margin of error 169 normalized expected reciprocal rank 44 math task 256 mean average precision 30 normalized sliding ratio 33 75 mean reciprocal rank 31 novelty-biased gain 引 295 NTCIR vi, 174, 205, 243 NTCIREVAL 134, 136 nugget 101, 103, 111 nugget F-measure 113 nugget precision 113 nugget weight 112 null hypothesis 148 null hypothesis significance testing 148 nxCG 96 【O】 one click access 114, 252 one-way ANOVA 160, 184, 190 operational test 8 O-measure 40 【P】 p値 148 parametric test 147 passage iii passage precision 98 passage recall 98 patent retrieval 249 per-intent diminishing return 76, 87, 128 per-intent relevance assessment 75 pooling 12, 57, 192 pool depth 14 population effect size 168 POURPRE 113 practical significance 172 precision 1, 20 preference judgment 49, 197 probability ranking principle 24 Project Next NLP 52 pseudo-minimal output 117 pseudo-relevance feedback 55 P+ 41 296 P+Q P-measure p-value 索 引 85 relevance assessment 41 iii, 194, 196 148 relevance assessor 14 relevance feedback 56 【Q】 relevance grade 5 QA-Lab task 257 reliability of improvement qrels 15 56 query ii reliable information access query log 66, 261 workshop 52 query reformulation 51 reproducibility v query suggestion 65 resampling 154 query-biased summary 102 retrieval bias 129 question answering iv, 229 retrieval effectiveness 6 question answering reusability 13, 175 challenge 247 risk-sensitive task 56, 234 question answering track risk-sensitive utility 56 111 RITE task 254 question series 111 RITE-VAL task 254 Q-measure 34 robustness 53 robustness index 56 【R】 robust track 53, 216, 227 102, 109 R 精度 27 ROUGE 227 Randolph の κfree 204 routing 14 Randolph’s kappafree 204 run 27 randomization test 156, 177 R-precision randomized Tukey HSD 【S】 test 164, 216 random sample 146, 180 sample effect size 167, 171 random sampling 146 sampling with replacement ranked retrieval iii 155 rank correlation 211 scalability 11 rank effectiveness 58, 60 search abandonment 263 rank sensitiveness 27 search intent 30 rank-biased precision 44, 77 search request ii recall 1, 20 search session 65 recall-precision curve 8, 25 semantic content unit 103 RecipeSearch task 259 session discounted reciprocal rank 30 cumulative gain 67 redundancy class 94 session track 235 reference summary 109 set retrieval iii reference translation 104 significance level 148 relative recall 9 sign test 152 relevance iii simultaneous confidence interval 170 single document summarization 246 single-document summary 114 skip bigram 110 spam track 55 SpokenDoc task 255 SpokenQuery&Doc task 256 standardization 47 statistical power 181, 185 statistical significance 11, 151, 172 statistical significance test 7 Studentization 155 subtopic 73 swap method 214 S♯ 120 S-measure 117 【T】 t 検定 149, 171, 181 t 分布 149 TAC 260 Temporalia task 258 temporal summarization track 240 test collection iv test data 133 test statistic 149 textual entailment 117, 254 text summarization iv text summarization challenge 246 thorough retrieval task 93 time biased gain 88 topic 14, 179, 196 topic set size design 180, 217 top heaviness 62 touch interaction 263 索 trailtext 121 training data 133 transactional intent 30 TREC vi, 13, 205, 224 trec eval 59, 61, 134 TRECVID 260 two-sided critical value 149 two-way ANOVA without replication 162, 172, 190 Type I error 181 Type II error 181 t distribution 149 T-measure 120 t-test 149, 171, 181 【U】 unigram unjudged document update gain upper critical value usefulness utility U-IA U-measure 【V 】 viewport tracking vital string 引 297 242 Wilcoxon の符号順位検定 161 154 18 Wilcoxon’s signed rank test 29 154 127 【X】 101 XML retrieval 91 【数字・ギリシャ文字】 263 117 1 元配置の分散分析 160, 184, 190 【W】 1CLICK task 120 web track 56, 73, 77, 190, 11 点平均精度 26 195, 209, 230, 234 11-point average precision weighted Cohen’s kappa 26 201 α-DCG 75 104 weighted nugget recall 112 α-nDCG 77 59 χ2 分布 187 ―著者略歴― 1993年 早稲田大学大学院理工学研究科修士課程修了(工業経営学専門分野) 1993年 株式会社東芝勤務 2000年 博士(工学) (早稲田大学) 2000年 ケンブリッジ大学客員研究員 〜01年 2007年 株式会社ニューズウォッチ勤務 2009年 Microsoft Research Asia勤務 2013年 早稲田大学准教授 2015年 早稲田大学教授 現在に至る 情報アクセス評価方法論―検索エンジンの進歩のために― Information Access Evaluation Methodology: For the Progress of Search Engines c Tetsuya Sakai 2015 2015 年 6 月 11 日 初版第 1 刷発行 検印省略 著 者 発 行 者 印 刷 所 さか ★ い てつ や 酒 井 哲 也 コロナ社 株式会社 牛来真也 代 表 者 三美印刷株式会社 112–0011 東京都文京区千石 4–46–10 発行所 株式会社 コ ロ ナ 社 CORONA PUBLISHING CO., LTD. Tokyo Japan 振替 00140–8–14844・電話(03)3941–3131(代) ホームページ http://www.coronasha.co.jp ISBN 978–4–339–02496–8 (新宅) (製本:愛千製本所)G Printed in Japan 本書のコピー,スキャン,デジタル化等の 無断複製・転載は著作権法上での例外を除 き禁じられております。購入者以外の第三 者による本書の電子データ化及び電子書籍 化は,いかなる場合も認めておりません。 落丁・乱丁本はお取替えいたします 情報アクセス_奥付.indd 1 2015/04/15 11:37
© Copyright 2025 ExpyDoc