まえがき

ま
え
が
き
スマートフォンやパソコン上で検索エンジンを用い，いつでもどこでもネット
上の膨大な情報源から迅速に情報を検索できる時代が来た。日々増え続けるディ
ジタル情報から適切な情報を探してくれる情報検索（information retrieval）の
技術は，いまや多くの人にとって非常に身近なものであり，その重要性は論じ
るまでもないだろう。情報検索研究の起源は，図書館から人手で本を探し出す
ための索引づけ（indexing）の研究にあり，したがって 1950 年代に始まったも
のといえる。約半世紀後の今日では，検索の対象，目的，形態が多様化し，学
界および産業界においてはより良い情報検索システム（information retrieval
system）実現のために研究開発が日々続けられている。
本書は，情報検索システムに代表される情報アクセスシステムを，研究者が
適切な方法で評価し，健全な技術進歩に貢献するための道筋を示すことを狙っ
たものである。読者としては，コンピュータサイエンス系の大学生や院生，も
しくは情報アクセスおよび周辺分野の研究者を想定している。筆者自身も，早
稲田大学基幹理工学部情報理工学科および情報理工・情報通信専攻における講
義の教科書として，本書を活用している。情報検索や自然言語処理の分野では
良質な教科書が多いが，本書のようにシステムの評価という側面にこだわって
詳述したものは，国内外を問わず珍しいであろう。執筆にあたっては，特に，学
生や研究者の方々が既存の評価指標を盲目的に用いるのではなく，その意味を
理解し適切なものを選択できるようになるための手助けをすることを意識した。
さらに，実際に正しい方法によりシステム評価を行い，優れた論文や報告書を
書くのに役立つように，統計的検定の実施手順や信頼区間・効果量の算出手順
などについてもなるべく具体的に示した。
ii
ま
え
が
き
以下，準備事項としていくつかの基本的な用語を定義しておく。まず，情報検索
システムの定義を 1981 年の本より拝借しよう。以下は Robertson174, pp.9–10) †1 に
よる定義である。
情報検索システム：
人間もしくは機械（もしくは両方）が適用する規則お
よび手続きの集合
情報検索システムの役割：
ユーザの情報に対する要求を満たす文書（doc-
ument）にそのユーザを導くこと
上記「情報に対する要求」（need for information）は情報要求（information
need）と呼ばれることが多い。これについては 1999 年の徳永の教科書295, p.3)
より簡潔な定義を引用しておく。
情報要求：ユーザがある目的を達成するために現在持っている知識では不
十分であると感じている状態†2
さらに，われわれが情報検索評価において実際に扱う検索要求（search request）
も，以下のように定義しておこう。
検索要求：ユーザの情報要求をテキストの形で明文化したもの
検索要求と似た言葉に質問（question）およびクエリ（query）がある。検索要
求が自然言語文である場合に前者が，スペースで区切られた語の羅列や論理式
のように，システムが解釈できる表現である場合に後者が用いられることが多
い。ただし，情報検索システムがいずれのような入力も直接解釈できるならば，
検索要求，質問，クエリの境界線はもはや曖昧となる。
情報検索（システム）の定義に戻ろう。前述の Robertson による定義では，
「情報」の代わりに「文書」という言葉が使われているが，Sparck Jones も 1997
年の本で以下のように述べている240, p.1) 。「情報検索は文書検索（最近ではテ
キスト検索）と同義とされることが多い。すなわち，情報検索システムの仕事
は，ユーザの情報要求に適合する情報を含む文書もしくはテキストを検索する
†1
肩付き番号は巻末の引用・参考文献を示す。
†2
Taylor 243) は，1962 年の論文において情報要求を四つのレベルに分類している295) 。
ま
え
が
き
iii
ことである」。ここで文書と並べてわざわざテキストという言葉を使っている
のは，文書全体ではなく文書の一部分，すなわちパッセージ（passage）を単位
とした検索を意識したためだと考えられる。今日では，文書という言葉は検索
の基本単位を表す一般的な概念として用いられることが多く，例えば文やパッ
はんちゅう
セージ，画像や映像の検索なども，文書検索すなわち情報検索の範疇といえ
る。本書では，曖昧性を回避するために検索単位（retrieval unit）という言葉
も適宜使用する。
上記の Sparck Jones による定義において，適合性（relevance）という概念
が登場している。本書では，Robertson 174, p.14) にならって，以下のようなさ
らりとした定義を与えておこう。
適合性：
ユーザの要求に文書がどれほど良くマッチしているか。
あるユーザの情報要求に対して特定の文書が適合するかしないかは，あくま
で主観的に判断されるものである。一方，情報検索評価の目的は，ユーザの情
報要求を満たすためにより効果的なシステムを構築することであり，このため
にシステムを客観的に評価し，技術進歩を促すことである。客観的なシステム
評価を狙った実験が，適合性判定（relevance assessment）と呼ばれる人手で
作成した正解データに依存しているという点は，情報検索評価の大きな特徴で
ある。
情報検索は，システムの出力結果の形態から 2 種類に大別できる。
集合検索（set retrieval）
：
検索対象が小規模であった初期の情報検索シス
テムは，入力されたクエリに対して文書の集合を出力するものであった。
この場合，検索された文書間に順序関係はない。大規模な検索対象を扱
う今日においても，例えば特許調査のように必要な文書を洩れなく検索
することが要求される場合には，集合検索が採用される場合がある。
ランクつき検索（ranked retrieval）：ウェブ検索エンジンを使ってみれば
明らかであるように，今日では情報検索システムといえば，文書をなんら
かの方法により順序づけて出力するものが大半である。この場合，ユー
ま
iv
え
が
き
ザは検索された文書をしらみつぶしに調べるのではなく，検索結果の上
位にある文書のみを調べればよい。
以上より，情報検索システムの評価とは，文書（すなわち検索単位）の集合，も
しくは文書のランクつきリストを評価することである。なお，ユーザからの検索
要求を待たずにシステム側から能動的に文書を提供する情報推薦（information
recommendation）においても，情報検索評価の手法が適用できる場合がある
だろう。
つぎに，情報アクセス（information access）を以下のように定義しよう。
情報アクセス：
ユーザの情報要求を満たすための技術の総称。情報検索の
上位概念である。
前述の情報検索の定義に当てはまらない情報アクセスの形態としては，例えば長
いテキストの一部に含まれる有用な情報への効率的なアクセスを可能にするテ
キスト要約（text summarization）
，ユーザの質問に対して自然言語により簡潔
に回答する質問応答（question answering）
，特定のタイプ（例えば政治，スポー
ツなどのジャンル）の文書集合へのアクセスを可能にするテキスト分類（text
categorization），特定の話題に関するポジティブ・ネガティブな意見などへの
アクセスを可能にする意見分析（opinion analysis）などが挙げられる。ただし，
例えば質問応答システムが既存の文書から文字列を抜粋して回答を生成するも
のであるならば，これは情報検索システムに近い。違いは，回答文字列があらか
じめ検索単位として定められていない点である。また，ユーザが理解できない
外国語で書かれた文書中にある情報にアクセスするために機械翻訳（machine
translation）が役立つとすると，これもまた情報アクセスの一形態といえるか
もしれない。
情報アクセスシステムの評価は，被験者実験をもとに実際のユーザが検索し
た情報の品質や検索の効率を論じるアプローチと，テストコレクション（test
collection）という評価用に作成されたデータセットを評価指標（evaluation
ま
え
が
き
v
measure）とともに用いるアプローチに大別されるが，本書では後者を扱う†1 。
被験者実験は人間が直接参加するため「ユーザの情報要求を満足させる」という究
極目標に近いが，その反面，小規模になりがちで再現可能性（reproducibility）†2 が
保証できず，結果の一般化がしにくいという弱点もある。さらに，一般に被験
者は実際のユーザではないことに注意する必要がある†3 。これに対し，テスト
コレクションを用いた評価においては，大規模かつ再現可能な実験を行うこと
ができる反面，
「ユーザの情報要求を満足させる」という究極目標に即した適切
な評価指標を選定するという課題と，これらを適切な方法で利用しなければな
らないという課題がある。よくいわれるように，
「測定できないものは改善でき
ない」。システムの評価方法は，たいへん重要な研究課題なのである。
本書の構成は，以下のとおりである。
1 章では，1950 年代に始まったテストコレクションを用いた情報検索評価の
歴史を簡単に振り返る。
2 章では，集合検索およびランクつき検索のための基本的な評価指標を紹介
し，3 章では，比較的新しい情報検索評価指標，すなわち，テストコレクショ
ンの適合性判定が網羅的でないことを考慮した評価指標，適合性だけでなく検
索された文書の内容の多様性を考慮した場合の評価指標，検索単位同士が部分
的に重複しうる XML 検索に特有な評価指標，ユーザが情報を見つけるのに要
した時間を考慮した評価指標などを紹介する。4 章では，テキストを出力する
情報アクセスシステムに適した評価指標，すなわち，機械翻訳やテキスト要約
の自動評価指標，質問応答やこれに類似するタスクにおける評価指標，さらに
さまざまな形態の情報アクセスシステムを評価するための統一的な枠組みにつ
いて紹介する。
†1
†2
†3
ユーザ実験を伴う情報検索評価方法については，Kelly の本299) もしくはその訳書300)
を参照してほしい。
他の研究者が同様の条件で実験を行ったとき，同様の結果が得られるという性質。
Google や Microsoft など，ウェブ検索エンジンを運営している会社は，実際のユーザ
の行動の多くを「インターネット越しに」観測することができる。これについては 8 章
で触れる。
vi
ま
え
が
き
5 章では，テストコレクションを用いて評価を行う具体的手順について述べる。
特に，評価ツールの使い方や，各種統計的検定（statistical signiﬁcance test）
の具体的手順，そして効果量（eﬀect size）
，信頼区間（conﬁdence interval）を
含めた実験結果の適切な報告方法について述べる。6 章では，研究者が自分で
テストコレクションを設計・構築する方法について，7 章では，テストコレク
ションおよび評価指標を評価・選定する方法について述べる。
8 章では，
「情報アクセス技術のオリンピック」に例えられる評価型国際会議
TREC†1 および NTCIR†2 などにおける各種タスク（すなわち「競技種目」）を
簡単に紹介する。また，明示的な適合性判定の代わりにユーザから収集した各
種シグナルを情報アクセス評価に利用する最近の試みについて触れる。なお，
この章では，2014 年までの主要な動向をカバーしたつもりである。
本書に関する補足情報を筆者のウェブサイト
http://www.f.waseda.jp/tetsuya/book.html
に掲載している。本書の中で他のウェブサイトも紹介しているが，2015 年 1 月
現在の情報である。
筆者を 2000 年から 2001 年にかけて英ケンブリッジ大学にてご指導くださり，
2007 年に亡くなった Karen Sparck Jones 先生に本書を捧げたい。本書は日本
人学生向けに日本語で執筆したが，天国では言語横断情報アクセス技術が成熟
しており，Karen にもご高覧いただけるかもしれない。また，筆者を早稲田大
学の学生時代から二十余年にわたり見放すことなくご指導くださっている平澤
茂一先生に感謝する。5∼6 章の執筆にあたっては，早稲田大学経営システム工
学科の永田靖先生の統計学などの本を何冊も読んだ。その上で，ほぼ初対面の
永田先生の研究室に 2014 年 11 月に押しかけていき，統計的検定，信頼区間，
多重比較についていろいろ質問させていただいた。ご丁寧に答えてくださった
永田先生に感謝する。なお，本書の記述に誤りがあるとすれば，それはあくま
†1
†2
Text Retrieval Conference
NII Testbeds and Community for Information access Research
ま
え
が
き
vii
で筆者の誤りである。京都大学の山本岳洋先生と加藤誠先生には原稿を細部に
わたりチェックしていただき，本書の内容に関してたくさんの有益なコメント
をいただいた。加藤誠先生にはさらに，筆者の開発した UNIX 系環境用情報検
索評価ツール NTCIREVAL（5 章）を Mac 環境でも使えるように，ヘッダ
ファイルなどを修正していただいた。筆者は本の執筆に関しては初心者であっ
たが，コロナ社編集部のご支援により，なんとか形にすることができた。
最後に，筆者に国際的視野を与えてくれた両親と，自宅では書斎にこもって
ばかりの筆者にいつも協力してくれる妻・美穂と娘・梨緒に感謝する。
2015 年 4 月
酒井哲也
目
次
1. 情報検索評価の歴史
1.1 情報検索研究の夜明け . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2 Cranﬁeld 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.1 Cranﬁeld
I...................................................
3
1.2.2 Cranﬁeld
II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3 SMART システムの実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4 MEDLARS システムの実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.5 “理想的な” 情報検索テストコレクション . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 評価型会議の始まり . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2. 基本的な情報検索評価指標
2.1 適合性判定の前提 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 集合検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 再現率と精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 E-measure と F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 マクロ平均とマイクロ平均 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 二値適合性に基づくランクつき検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 再現率・精度曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 11 点平均精度，R 精度，測定長における精度 . . . . . . . . . . . . . . . . . . . 26
目
x
次
2.3.3 平均精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.4 逆数順位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 多値適合性に基づくランクつき検索評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . 31
nDCG
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.2 Q-measure
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.1
2.4.3 NCU と P + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.4
ERR
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.5
RBP
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.6 多値適合性に基づく評価指標の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3. より複雑な情報検索評価指標
3.1 失敗分析に適した評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1
GMAP
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.2 改善信頼性（RI） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 不完全性を考慮した評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.1 bpref と RankEﬀ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.2 短縮リストを用いた評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2.3
infAP
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 セッション向け評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 等価性と組み合わせ適合性への対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.1 等価性クラスの扱い . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.2 組み合わせ適合性の扱い . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5 多様化検索のための評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.1
α-nDCG
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.2
ERR-IA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
目
3.5.3 D-measure
次
xi
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5.4 検索意図タイプを考慮した多様化検索評価指標 . . . . . . . . . . . . . . . . . 83
3.5.5 多様化検索のための評価指標の比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.6 時間に着目した評価指標 TBG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.7 XML 検索向け評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.7.1 エレメント検索の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.7.2 パッセージ検索の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.8 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. テキストを対象とした情報アクセス評価指標
4.1 機械翻訳の自動評価指標 BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.2 要約の自動評価指標 ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.3 質問応答の評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.4 ワンクリックアクセスの評価指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.4.1 S-measure
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.4.2 T-measure と S♯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.5 汎用的な評価指標 U-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.1 Trailtext と U-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.5.2 U-IA と D-U . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.6 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5. テストコレクションを用いた評価
5.1 テストコレクションの選定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.2 評価ツール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.2.1 trec eval
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
xii
目
次
5.2.2 NTCIREVAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.3 統計的検定：二つのシステムの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.3.1 対応のある t 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.3.2 符号検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.3.3 ブートストラップ検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.3.4 ランダム化検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.4 統計的検定：三つ以上のシステムの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.4.1 1 元配置の分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.4.2 繰り返しのない 2 元配置の分散分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.4.3 ランダム化 Tukey HSD 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.5 統計改革 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.5.1 効
果
量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.5.2 信頼区間 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.6 実験結果の報告の仕方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.6.1 二つのシステムの比較評価結果の報告 . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.6.2 三つ以上のシステムの比較評価結果の報告 . . . . . . . . . . . . . . . . . . . . . . 171
5.6.3 失敗分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.7 進歩の検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.7.1 適切なベースラインの選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.7.2 評価型会議における進歩の検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.8 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6. テストコレクションの設計
6.1 トピック数設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6.1.1 t 検定に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.1.2 1 元配置の分散分析に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
目
次
xiii
6.1.3 信頼区間に基づく方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
6.1.4 母分散の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.2 プーリングと適合性判定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.2.1 プーリング方式と提示順序のバリエーション . . . . . . . . . . . . . . . . . . . . 192
6.2.2 適合性判定基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
6.2.3 適合性判定ツール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.2.4 判定者間不一致の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.3 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7. テストコレクションおよび評価指標の評価
7.1 適合性判定の縮小 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
7.1.1 リーブワンアウト法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
7.1.2 プール長の縮小 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
7.2 順位相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.2.1 Kendall の τ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.2.2 Yilmaz らの τap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
7.2.3 その他の順位相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
7.3 逆
転
法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
7.4 判別能力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
7.5 トピック数設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
7.6 一致度テスト . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
7.7 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
xiv
目
次
8. 評価型会議の概観と情報アクセス評価の新潮流
8.1 評価型会議 TREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
8.1.1 過去の TREC トラックより . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
8.1.2 TREC 2014 のトラック . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
8.2 評価型会議 NTCIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8.2.1 過去の NTCIR タスクより . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
8.2.2 NTCIR-11（2014 年）のタスク . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
8.3 その他の情報アクセス評価型会議 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.3.1 CLEF（2000∼）と初期 INEX（2002∼2012） . . . . . . . . . . . . . . . . 259
8.3.2 そ
の
他 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.4 情報アクセス評価の新潮流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.4.1 クリックデータの活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
8.4.2 その他のシグナルの活用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.5 文献紹介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.5.1 国際会議 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.5.2 国際論文誌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
引用・参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
索
引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
1
情報検索評価の歴史
情報検索の研究者でなくても，検索洩れの少なさを表す再現率（recall）や検
索ノイズの少なさを表す精度（precision）という言葉を知っている人は少なく
ない。これらの概念は情報検索研究から生まれ，今日の情報アクセスシステム
の評価においても主要な概念である。本章では，今日の「実験室型」情報アク
セス評価について学ぶための下準備として，1950 年代からの情報検索評価の歴
史をざっと振り返ることにする。
1.1 節では，情報検索の研究が 1950 年代にどのようにして盛んになったかにつ
いて触れる。1.2 節では，テストコレクションを用いた情報検索評価という方法
論を確立した Cleverdon による 1950∼1960 年代の Cranﬁeld 実験（Cranﬁeld
experiments）について述べる。1.3 節および 1.4 節では，1960 年代を代表す
る情報検索評価のプロジェクトである Salton による SMART システムの実験，
Lancaster による MEDLARS システムの実験について触れる。1.5 節では，
1970 年代に Sparck Jones と van Rijsbergen が提案した “理想的な” 情報検索
テストコレクション（‘ideal’ information retrieval test collections）の構想に
ついて紹介する。1.6 節では，“理想的な” テストコレクションのアイデアを受
け継いで 1990 年代にスタートした情報検索の評価型会議の概要を述べる。最
後に，1.7 節では，本章でカバーしきれなかった関連する話題についての文献
情報を提供する。
2
1. 情報検索評価の歴史
1.1
情報検索研究の夜明け
Swanson241) によれば，情報検索（information retrieval）という用語は Mooers
により 1950 年に考案されたらしい。当初の情報検索研究の関心は，科学技術
文献などに対して人手で索引（index）をつけておき，これを利用して特定の主
題（subject）に関する文献へのアクセスを容易にすることであった† 。
1950 年代，索引づけといえば人手で行うものであった。すなわち，索引者
（indexer）が文献を読み，解釈し，あらかじめ定められた語彙体系から索引語
（index term）を選定していた。このように，あらかじめ定められた語彙から選
択される索引語を統制語（controlled term）という。上記の方法では，索引づ
けの段階で索引者の解釈が入っていることに注意してほしい。
上記のような時代に，Luhn 146) は文書中の語の頻度カウントにより語の重
要性を自動推定するアイデアや，自動索引づけ（automatic indexing）のアイ
デアを考案した。彼は自動索引づけについて 1961 年に以下のように述べてい
る147, p.1022) 。「もし機械が著者自身の言葉により情報を格納できるのならば，
解釈は問い合わせを行う瞬間まで延期できる」
。これは，文書中に含まれる語を
片っ端から自動抽出して索引語とする今日では，当たり前の考え方である。こ
のように，あらかじめ用意された語彙体系などの制約を受けない索引語を自由
語（free term）という。Swanson 241, p.95) による「機械は意味を認識できな
いので，索引づけと分類のプロセスに対し人間の判断がもたらしうるものを再
現できない」という指摘は真理かもしれないが，膨大な検索対象データを扱う
今日において人手による索引づけ（manual indexing）は選択肢となりにくい。
ただし，例えば今日の Facebook などにおける画像へのタグづけや Twitter に
おけるハッシュタグの利用は，自由語を用いた人手による索引づけの一種と見
なすことができる。
†
Swanson は，世界初の索引づけシステムは，1247 年に 500 人の僧侶の労力を結集し
て作成された聖書コンコーダンス（用語索引）だったと冗談半分に述べている。
1.2 Cranﬁeld
実
験
3
話をもとに戻そう。1950∼1960 年代においては，人手による索引づけを前提
に，どのような索引の体系を用いるべきかが主要な関心事であったことを覚え
ておいてほしい。ここに登場するのが，次節で述べる Cleverdon である。
1.2
Cranﬁeld 実験
今日の情報検索評価の基本形を確立したのが，1958∼1966 年頃に行われた
Cleverdon による二つの実験プロジェクト Cranﬁeld I 51), 52) および II 53), 54)
である。Cleverdon の思想は，彼が Cranﬁeld II の論文53, p.263) で使ったこと
わざ “The proof of the pudding is in the eating”（論より証拠。プディング
を評価したいならまず食べよ！）に端的に表れている。彼は，実証実験も行わ
ずに索引づけ手法の良し悪しを論じる研究者を痛烈に批判している54, p.10) 。以
下，Cranﬁeld I および II の実験内容について概説する。なお，情報検索の実験
といっても，Cranﬁeld 実験では，なんとコンピュータはいっさい用いられず，
終始手作業であった。
1.2.1 Cranﬁeld
I
Cranﬁeld I の目的は，人手による索引づけの 4 手法の比較であった。4 手法と
は，木構造の知識体系である国際十進分類法（universal decimal classiﬁcation）
，
文献の主題を統制語で表す件名標目（subject headings）
，各文献の主題をいく
つかの統制語の組み合わせで表現するファセット分類法（faceted classiﬁcation
scheme），そして各文献に自由語の組み合わせを付与するユニタームシステム
（uniterm system）であった。
Cranﬁeld I の功績は，上記 4 手法の有効性を比較するため，あらかじめ定め
た文書コレクション，質問セットおよび各質問に対する正解文書を用意したこ
と，すなわち今日のテストコレクションのひな型を構築したことであった。ま
ず，文書コレクションは，航空学に関する 18 000 件の文献とした。この 18 000
という数字は，索引づけ手法四つ，索引者 3 名，各文書の索引づけにかける時
4
1. 情報検索評価の歴史
間 5 水準（2, 4, 8, 12, 16 分間），各水準の文書 100 件，以上の条件を各 3 回
試行，という設計により算出されたものである。質問セットについては，科学
者・技術者に上記文書コレクション中の特定の文書を見てもらい，ここから例
えば「転換式航空機とヘリコプターの比較（を主題とする文献が欲しい）
」のよ
うな質問を作成してもらうというアプローチを採用した。
繰り返しになるが，この実験はコンピュータを用いたものではなく，3 名の
作業者が分担して人手で 18 000 件の文書に対して索引づけを行ったものであ
り，その労力は膨大であった。Cleverdon 自身，この作業を「きわめて残酷な
51)
拷問」
と描写している† 。一方，本項では適合性判定という言葉が出てきてい
ないことに気づいただろうか。Cranﬁeld I の質問は，特定の実在する文書から
ひねり出されたものなので，そのソース文書（source document）が自動的に
その質問に対する正解となるのである。したがって，適合性判定の労力はゼロ
であり，各索引づけ手法は「ソース文書を探し出せるか否か」という評価指標
により評価された。
Cranﬁeld I におけるおもな知見は，ユニタームという自由語による単純な索
引づけ手法が，これまで有効だと信じられてきた他の手法と同等である可能性
があるということ，さらに，どの索引づけ手法を採用するかよりも，索引者が
いかに重要な概念を文書中から見出せるかのほうがはるかに重要であるという
ことだった。
1.2.2 Cranﬁeld II
さて，読者は，Cranﬁeld I における質問の作成方法や評価方法に，なにか疑
問を感じただろうか。Cleverdon は，Cranﬁeld I での実験方法について，散々
批判を浴びたらしい。まず，ソース文書を読んだ上でひねり出した質問という
のは現実的なものだろうか。実際の情報検索システムのユーザは，検索対象の
コレクションにどのような内容の文書が含まれるか，また，その文書中でどの
ような言語表現が使われているか，具体的に知らないことが多いはずである。
†
実際，作業者のうち 1 名は途中棄権し，代打が起用された。
1.2 Cranﬁeld
実
験
5
ソース文書と同じような言語表現を用いて質問を作成したなら，その質問によ
りソース文書を探し出せることは，あまり驚くべきことではないのではないか。
さらに，
「ソース文書を探し出せるか否か」は，適合文書が 1 件しかない場合に
検索洩れの少なさを表す再現率を算出することに相当するが，検索誤りの少な
さを表す精度に相当する評価が欠落しているのではないか† 。
上記のような批判を受けたことから，Cranﬁeld II は以下のように行われた。
まず，論文の著者自身がその論文の研究課題を質問の形で表現し，その論文の参
考文献のうち質問に適合するものを列挙した。さらに，著者自身や雇われた学
生が，人手による検索により追加すべき適合文書を探した。この適合性判定の
導入が Cranﬁeld II の功績の一つである。この結果でき上がった Cranﬁeld II
テストコレクションは，航空学に関する 1 400 件の文書，279 件の質問，および
質問ごとの適合性判定からなるものであった。Cranﬁeld II は，前述の Sparck
Jones らや後述する Salton らによっても後に利用され，複数の研究機関がテス
トコレクションを共有する今日の状況の先駆けとなった。
Cranﬁeld II の適合性判定は，各文書に適合性グレード（relevance grade）を
付与したものであった。具体的には，以下の 5 段階からなる多値適合性（graded
relevance）データであった。
(1) 質問（研究課題）に対して完全な回答を与える文献
(2) この文献がなければ研究が遂行できない，もしくは余分な手間が多くか
かってしまうというくらいに，質問に対する適合性が高い文献
(3) 質問である研究課題に対する一般的な背景情報として，もしくは研究課
題の一部分に対するアプローチ方法を示すものとして，有用といえる文献
(4) 歴史的観点から引用されたものなど，興味の度合いは最小限の文献
(5) 興味を持ち得ない文献
なお，1992 年に始まった評価型会議 TREC（1.6 節，8 章）では，適合性判
定に二値適合性（binary relevance）
，すなわち，各文書は検索要求に適合する
かしないかのいずれかであるとする基準が採用された。TREC を立ち上げた米
†
再現率と精度の定式化は 2 章で行う。
6
1. 情報検索評価の歴史
NIST†1 の Harman は，情報アナリストが報告書を作成するための素材を集め
ることを想定していたため，文書が有用な情報を含むか否かに基づく適合性判
定を採用したと説明している100) †2 。その後，2000 年頃になってウェブ検索の
評価において多値適合性の重要性が再認識され101, p.204) ，さらに多値適合性に
対応した評価指標が広く知られるようになったため，現在では多値適合性判定
を持つテストコレクションが主流である。一方，8 章で述べるように，日本で
は 1990 年代より一貫して多値適合性が主流である。
話をもとに戻そう。Cranﬁeld II におけるおもな知見は，例えば “pressure”（圧
力）や “distribution”（分布）のような単一の自由語に基づく索引づけのほうが，
統制語や概念に基づく索引づけよりも検索有効性（retrieval eﬀectiveness）†3 が
高く，さらに，単一の自由語に基づく索引づけにおいては，同義語や活用の吸収
以上の複雑な処理を施しても結果はかえって悪くなるということであった。す
なわち，最も単純な方法が最も有効であるという当時としては驚くべき結果で
あった。Cleverdon が “The proof of the pudding is in the eating” というの
も無理はない。評価はやってみなければわからない。ただし，その評価方法は
適切なものでなければならない。
Cranﬁeld II における評価方法について付け加えておく。Cleverdon らは評
価指標として二値適合性しか扱えない再現率と精度を採用したため，多値適合
性判定を二値に落とし込んだ上で評価を行っている。筆者はこれをもったいな
いことだと思うが，この方法は 1990 年代の TREC などでも踏襲されている。
このような背景から，3 章では多値適合性に対応した評価指標とその利点につ
いて詳述する。
†1
†2
†3
National Institute of Standards and Technology
1.3 節で紹介する SMART テストコレクションは二値適合性を採用しており，Harman
は SMART システムを開発した Salton の門下生であった139) 。このことも影響した
かもしれない。
検索結果の質のこと。これに対し，いかに高速に検索結果を提供できるかを検索効率
（retrieval eﬃciency）というが，本書では直接扱わない。
1.3 SMART システムの実験
1.3
7
SMART システムの実験
情報検索の研究者でなくても，ベクトル空間モデル（vector space model）とい
う言葉を聞いたことがある人は少なくないだろう。情報検索において，クエリお
よび文書を索引語の頻度などを要素としたベクトルでそれぞれ表現し，例えば両
ベクトルの内積などにより文書の適合性を推定するという考え方である。Salton
ら 216) は，このモデルに基づく評価実験用情報検索システム SMART を構築
し，1960∼1970 年代にテストコレクションを用いた実験室テスト（laboratory
174)
test）
を推し進め，この分野に多大な影響を与えた。Cleverdon の Cranﬁeld
実験が人手による索引づけを扱うものであったのに対し，Salton らは前述の
Luhn の考え方を基礎とする自動索引づけに関する多くの実験を行った。
Salton らは SMART の実験において，徹底してテストコレクションを複数用
いた実験を行った。複数のテストコレクションで同じような評価結果が得られ
れば，その結果は一般性のある信頼性の高いものであるかもしれない。逆に，特
定のテストコレクションについてのみ得られる結果があったとすれば，そこに
はなんらかの興味深い理由があるかもしれない。いずれにしても，複数のテス
トコレクションによる実験結果は，単一のテストコレクションによるそれより
も情報量が多く，有用性が高い。このような方法論を普及させたことは Salton
らの功績の一つであろう。
表 1.1 に，Salton が 1960 年代に用いた三つのテストコレクションの概要を
示す† 。文書数の行を見ると，文書コレクションがきわめて小さいことがわかる。
一方，このため適合性判定は網羅的（exhaustive）である。すなわち，文書コ
レクション中のすべての文書が，各検索要求に対する適合性判定の対象となっ
ている。また，二値適合性が採用されている。
Salton らは，SMART システムにおける実験環境に統計的検定を組み込んで
†
“CRAN-I” と呼ばれるテストコレクションの文書は Cranﬁeld II テストコレクション
の一部であり，若干紛らわしい。
索
【あ】
アイトラッキング 121, 263
曖昧なクエリ
73
アドホックトラック
13, 196, 226
【い】
一致度テスト 88, 128, 218
一般化精度
99
意図
73
意図意識型評価
77
意図確率
74, 86
意図ごとの収穫逓減
76, 87, 128
意図ごとの適合性判定
75
意図再現率
81
意味内容単位
103
インターリービング 101, 261
【う】
上側臨界値
161
ウェブトラック 56, 73, 77,
190, 195, 209, 230, 234
【え】
エフォート精度
93
【お】
重みつきナゲット再現率 112
重みつき Cohen の κ
201
確率ランキング原理
カスケードモデル
簡略ペナルティ
24
42
108
【き】
機械翻訳
iv
幾何平均
53
棄却域
149
擬似最小出力
117
擬似適合性フィードバック55
期待利得
242
帰無仮説
148
帰無仮説検定
147
逆数順位
30
逆転法
214
許容長
113
【く】
クエリ
ii
クエリ指向要約
102
クエリ修正
51
クエリ推薦
65
クエリログ
66, 261
組み合わせ適合性
71
組み合わせ適合性スコア 250
クラウドソーシング 20, 221
繰り返しのない 2 元配置の
分散分析
162, 172, 190
クリックデータ
66, 261
グローバル利得
80
訓練データ
133
【け】
【か】
外的評価
拡張可能性
引
246
11
言語横断質問応答
言語横断情報検索
検索意図
検索セッション
検索バイアス
検索放棄
検索有効性
検索要求
原子性
検出力
減衰関数
減損関数
減損利得
減損累積利得
検定統計量
30
65
129
263
6
ii
116
181, 185
89
89
33
33
149
【こ】
効果量
166, 177
更新利得
242
効用
29
コンテクスト型推薦トラック
91, 237
【さ】
再現可能性
v
再現率
1, 20
再現率・精度曲線
8, 25
最小限テストコレクション
193
再利用可能性
13, 175
サブトピック
73
算術平均
23
参照要約
109
【し】
247
176, 245
時間要約トラック
実運用テスト
240
8
索
292
実験室テスト
失敗分析
9,
質問応答
iv,
質問応答チャレンジ
質問応答トラック
質問系列
実用的有意性
収穫逓減
39, 47, 125,
集合検索
自由度
集約検索タスク
順位相関
上位重視性
条件つき適合性判定 49,
冗長性クラス
情報アクセス
情報検索システム
情報収集型検索意図
30, 83,
情報要求
新規性バイアス利得
信頼区間
166, 168, 171, 177,
引
7
173
229
247
111
111
172
216
iii
149
93
211
62
197
94
iv
i
128
ii
75
188
【す】
スキップバイグラム
ステューデント化
スパムトラック
110
155
55
【せ】
正規化 33, 46, 87, 125, 128
正規化スライド比
33
精度
1, 20
セッショントラック
235
線形縦断
29, 66, 126
選好判定
49, 197
潜伏減損関数
242
【そ】
相対再現率
測定長
9
15
【た】
第 1 種の誤り
第 2 種の誤り
対立仮説
多重比較法
159,
多値適合性
5,
タッチインタラクション
多様化検索
73, 143,
多様性タスク
短縮リスト
59,
単文書要約
114,
【な】
181
181
149
177
195
263
221
73
140
246
【ち】
知識ベース加速トラック 238
調和平均
23
【て】
適合性
適合性グレード
適合性判定
iii, 194,
適合性判定者
適合性フィードバック
テキスト含意
117,
テキスト要約
テキスト要約チャレンジ
テストコレクション
テストデータ
徹底検索タスク
【と】
iii
5
196
14
56
254
iv
246
iv
133
93
等価性クラス
69
統計的検定
7
統計的有意性 11, 151, 172
統合検索
88
同時信頼区間
170
等分散性
160
特許検索
249
トピック
14, 179, 196
トピック数設計
180, 217
取引型検索意図
30
トレイルテキスト
121
内的評価
ナゲット
101, 103,
ナゲット重み
ナゲット精度
ナゲット F-measure
246
111
112
113
113
【に】
二値適合性
5
【の】
ノンパラメトリック検定 152
【は】
バイグラム
パッセージ
パッセージ再現率
パッセージ精度
パラメトリック検定
判定者間不一致
19,
判定者内不一致
判別能力
47, 87, 125, 128,
106
iii
98
98
147
198
19
216
【ひ】
非心パラメータ
182, 185
非心 χ2 分布
187
非心 F 分布
185
非心 t 分布
182
被覆率
247
ビューポートトラッキング
263
評価指標
iv
標準化
47
標本効果量
167, 171
【ふ】
ファクトイド型質問応答
ファセット型クエリ
フィルタリング
フィルタリングトラック
103
73
13
227
索
ブートストラップ検定
154, 171, 176
ブートストラップパーセン
タイル法
177
ブートストラップ標本 155
ブートストラップ分布 156
プーリング
12, 57, 192
プール長
14
不可欠な文字列
117
不完全性
12, 57
復元抽出
155
複数文書要約
114, 247
符号検定
152
ブレンド比
35
ブログトラック
232
分散分析
159
【ま】
マイクロブログトラック
マイクロ平均化
マウストラッキング 121,
マクロ平均化
234
23
263
23
【む】
71, 249
【る】
累積利得
ルーティング
【ゆ】
有意水準
148
誘導型検索意図 30, 83, 128
有用性
18
ユニグラム
104
99
93
28
98
174
243
72
25
168
34, 89
227
【れ】
連結リスト
67
連合ウェブ検索トラック 239
【ら】
ラン
ランク感度
ランクつき検索
ランダム化検定
156,
ランダム化 Tukey HSD
検定
164, 171,
ランダム抽出
ランダム標本
146,
【ほ】
包括性
補完クラス
補間精度
母効果量
【り】
【み】
無効資料調査
293
リーブワンアウト
207
リサンプリング
154
リスク敏感効用
56
リスク敏感タスク
56, 234
“理想的な” 情報検索テスト
コレクション
1, 11
理想的リスト
32
利得
32
両側臨界値
149
臨床意思決定支援トラック
243
未判定文書
59
ミリオンクエリトラック
65, 193
【へ】
平均一般化精度
平均エフォート精度
平均精度
平均補間精度
ベースライン
引
【ろ】
14
27
iii
177
ロバストトラック
53, 216, 227
ロバストネス
53
216
146
180
ワンクリックアクセス
114, 252
【わ】
♢
【A】
advanced crosslingual
question answering
ad hoc track 13, 196,
aggregated search
allowance
alternative hypothesis
ambiguous query
247
226
88
113
149
73
♢
analysis of variance
159 average precision
28
arithmetic mean
23
【B】
atomicity
116 average eﬀort-precision 93 baseline
174
average generalized
bigram
106
precision
99 binary preference
57, 60
average interpolated
binary relevance
5
precision
98 blended ratio
35
average nxCG
96 BLEU
102, 104
294
索
blog track
bootstrap distribution
bootstrap percentile
method
bootstrap sample
bootstrap test 154, 171,
brevity penalty
引
232
【D】
156 decay function
89
177 degree of freedom
149
155 diminishing return
176
39, 47, 125, 216
108 DIN-nDCG
84
discounted cumulative gain
【C】
33
cascade model
42 discounted cumulative
chi-square distribution 187
utility
101
CLEF
250, 259 discounted gain
33
click data
66, 261 discount function
89
clinical decision support
discriminative power
track
243
47, 87, 125, 128, 216
Cohen の κ
198 diversiﬁed search
Cohen’s kappa
198
73, 143, 221
combinational relevance 71 diversity task
73
combinational relevance
D♯-nDCG
82
score
250 D-measure
80
complement class
72 D-nDCG
80
comprehensiveness
243 D-U
127
concatenated list
67
【E】
concordance test
88, 128, 218 eﬀect size
166, 177
condensed list
59, 140 eﬀort-precision
93
conditional relevance
equivalence class
69
assessment
49, 197 evaluation measure
iv
conﬁdence interval
expected gain
242
166, 168, 171, 177, 188 expected global utility 101
contextual suggestion track expected reciprocal rank 42
91, 237 expected search length 48
coverage
247 extrinsic evaluation
246
Cranﬁeld 実験
1, 3 eye tracking
121, 263
Cranﬁeld experiments 1, 3 E-measure
21
critical region
149
【F】
cross-language information retrieval
176, 245 F 分布
161, 163
cross-language question
faceted query
73
answering
247 factoid question answering
crowdsourcing
20, 221
103
cumulative gain
34, 89 failure analysis
9, 173
federated web search track
239
ﬁltering
13
ﬁltering track
227
FIRE
260
Fleiss の κ
202
Fleiss’ kappa
202
focused retrieval task
93
F distribution
161, 163
F-measure
22
【G】
gain
32
generalized precision
99
geometric mean
53
geometric mean average
precision
53
global gain
80
graded average precision 48
graded relevance
5, 195
【 H】
harmonic mean
homoscedasticity
H-measure
【I】
23
160
252
i ユニット
116
‘ideal’ information retrieval
test collections
1, 11
ideal list
32
IMine task
252
incompleteness
12, 57
induced average precision
65
INEX
91, 260
inferred average precision
63
informational intent
30, 83, 128
information access
iv
information need
ii
索
information retrieval for
question answering
19, 193, 195, 248
information retrieval
system
i
intent
73
intent probability
74, 86
intent recall
81
INTENT task
74, 81, 175, 251
intent-aware evaluation 77
intent-aware expected
reciprocal rank
78
interleaving
101, 261
interpolated precision
25
inter-assessor disagreement
19, 198
intra-assessor disagreement
19
intrinsic evaluation
246
invalidity search
71, 249
iUnit
116, 253
measurement depth
15
MediaEval
260
MedNLP task
257
microaveraging
23
microblog track
234
million query track 65, 193
minimal test collection 193
MobileClick task 127, 252
mouse tracking
121, 263
multiple comparison
procedure
159, 177
multi-document
summarization
247
multi-document summary
114
M-measure
253
【N】
N グラム
106
N -gram
106
navigational intent
30, 83, 128
noncentrality parameter
【K】
182, 185
Kendall の τ
212 noncentral chi-square
distribution
187
Kendall’s tau
212
noncentral F distribution
knowledge base
185
acceleration track
238
noncentral t distribution
【L】
182
152
laboratory test
7 nonparametric test
normalization
latency discount function
33, 46, 87, 125, 128
242
leave one out
207 normalized cumulative
precision
38
linear traversal 29, 66, 126
normalized cumulative
【M】
utility
38
machine translation
iv normalized discounted
cumulative gain
33
macroaveraging
23
margin of error
169 normalized expected
reciprocal rank
44
math task
256
mean average precision 30 normalized sliding ratio 33
75
mean reciprocal rank
31 novelty-biased gain
引
295
NTCIR
vi, 174, 205, 243
NTCIREVAL
134, 136
nugget
101, 103, 111
nugget F-measure
113
nugget precision
113
nugget weight
112
null hypothesis
148
null hypothesis signiﬁcance
testing
148
nxCG
96
【O】
one click access
114, 252
one-way ANOVA
160, 184, 190
operational test
8
O-measure
40
【P】
p値
148
parametric test
147
passage
iii
passage precision
98
passage recall
98
patent retrieval
249
per-intent diminishing
return
76, 87, 128
per-intent relevance
assessment
75
pooling
12, 57, 192
pool depth
14
population eﬀect size 168
POURPRE
113
practical signiﬁcance
172
precision
1, 20
preference judgment 49, 197
probability ranking
principle
24
Project Next NLP
52
pseudo-minimal output 117
pseudo-relevance feedback
55
P+
41
296
P+Q
P-measure
p-value
索
引
85 relevance assessment
41
iii, 194, 196
148 relevance assessor
14
relevance feedback
56
【Q】
relevance grade
5
QA-Lab task
257 reliability of improvement
qrels
15
56
query
ii reliable information access
query log
66, 261
workshop
52
query reformulation
51 reproducibility
v
query suggestion
65 resampling
154
query-biased summary 102 retrieval bias
129
question answering iv, 229 retrieval eﬀectiveness
6
question answering
reusability
13, 175
challenge
247 risk-sensitive task 56, 234
question answering track
risk-sensitive utility
56
111 RITE task
254
question series
111 RITE-VAL task
254
Q-measure
34 robustness
53
robustness index
56
【R】
robust track
53, 216, 227
102, 109
R 精度
27 ROUGE
227
Randolph の κfree
204 routing
14
Randolph’s kappafree 204 run
27
randomization test 156, 177 R-precision
randomized Tukey HSD
【S】
test
164, 216 random sample
146, 180 sample eﬀect size 167, 171
random sampling
146 sampling with replacement
ranked retrieval
iii
155
rank correlation
211 scalability
11
rank eﬀectiveness
58, 60 search abandonment
263
rank sensitiveness
27 search intent
30
rank-biased precision 44, 77 search request
ii
recall
1, 20 search session
65
recall-precision curve 8, 25 semantic content unit 103
RecipeSearch task
259 session discounted
reciprocal rank
30
cumulative gain
67
redundancy class
94 session track
235
reference summary
109 set retrieval
iii
reference translation
104 signiﬁcance level
148
relative recall
9 sign test
152
relevance
iii
simultaneous conﬁdence
interval
170
single document
summarization
246
single-document summary
114
skip bigram
110
spam track
55
SpokenDoc task
255
SpokenQuery&Doc task
256
standardization
47
statistical power 181, 185
statistical signiﬁcance
11, 151, 172
statistical signiﬁcance test 7
Studentization
155
subtopic
73
swap method
214
S♯
120
S-measure
117
【T】
t 検定
149, 171, 181
t 分布
149
TAC
260
Temporalia task
258
temporal summarization
track
240
test collection
iv
test data
133
test statistic
149
textual entailment 117, 254
text summarization
iv
text summarization
challenge
246
thorough retrieval task 93
time biased gain
88
topic
14, 179, 196
topic set size design
180, 217
top heaviness
62
touch interaction
263
索
trailtext
121
training data
133
transactional intent
30
TREC
vi, 13, 205, 224
trec eval
59, 61, 134
TRECVID
260
two-sided critical value 149
two-way ANOVA without
replication 162, 172, 190
Type I error
181
Type II error
181
t distribution
149
T-measure
120
t-test
149, 171, 181
【U】
unigram
unjudged document
update gain
upper critical value
usefulness
utility
U-IA
U-measure
【V 】
viewport tracking
vital string
引
297
242 Wilcoxon の符号順位検定
161
154
18 Wilcoxon’s signed rank test
29
154
127
【X】
101 XML retrieval
91
【数字・ギリシャ文字】
263 117 1 元配置の分散分析
160, 184, 190
【W】
1CLICK task
120
web track 56, 73, 77, 190, 11 点平均精度
26
195, 209, 230, 234 11-point average precision
weighted Cohen’s kappa
26
201 α-DCG
75
104 weighted nugget recall 112 α-nDCG
77
59 χ2 分布
187
―著者略歴―
1993年　早稲田大学大学院理工学研究科修士課程修了（工業経営学専門分野）
1993年　株式会社東芝勤務
2000年　博士（工学）
（早稲田大学）
2000年　ケンブリッジ大学客員研究員
〜01年　2007年　株式会社ニューズウォッチ勤務
2009年　Microsoft Research Asia勤務
2013年　早稲田大学准教授
2015年　早稲田大学教授
現在に至る
情報アクセス評価方法論―検索エンジンの進歩のために―
Information Access Evaluation Methodology:
For the Progress of Search Engines

c Tetsuya Sakai 2015
2015 年 6 月 11 日　初版第 1 刷発行
検印省略
著　者
発行者
印刷所
さか
★
い
てつ
や
酒　井　哲　也
コロナ社
株式会社
牛来真也
代表者
三美印刷株式会社
112–0011　東京都文京区千石 4–46–10
発行所
株式会社
コ　ロ　ナ　社
CORONA PUBLISHING CO., LTD.
Tokyo Japan
振替 00140–8–14844・電話（03）3941–3131（代）
ホームページ http://www.coronasha.co.jp
ISBN 978–4–339–02496–8　（新宅）（製本：愛千製本所）G
Printed in Japan
本書のコピー，スキャン，デジタル化等の
無断複製・転載は著作権法上での例外を除
き禁じられております。購入者以外の第三
者による本書の電子データ化及び電子書籍
化は，いかなる場合も認めておりません。
落丁・乱丁本はお取替えいたします
情報アクセス_奥付.indd 1
2015/04/15 11:37

Download Report