11章の大枠 • (問題提起) 情報要求に対して適合文書を得る･･･適合性って? – → boolean検索や vector space model では単語 (term) に(数学的な)意味的に不明確な重み付けをして計算をしていた – 確率論を用いて「適合確率」を推定するまた別のアプローチを見ていくのが本章 • 11.4.1 "確率的情報検索システムの場合、最終的にクエリをコサイン類似度や tf-idf によってスコアづけするのではなく、確率理論による少しだけ違う式を用いるだけである" • 11.3 "確率的検索の仕組みを厳密に組み立てるには、文書に出現する単語が適合性にどれだけ寄与しているかを推定する必要がある。具体的には文書的合確率を推定するために、単語頻度、文書頻度、文書長、そのほか文書の適合性の測定に影響する統計値をどのように合理的に組合わせれば良いのか、といったことを知りたい。それらが得られれば、推定された適合確率によって文書を並べれば良い" • vector space model と比較した場合に、確率モデルは数学的意味が比較的明確なのでモデルの解釈/拡張などを厳密に行っていくことができる • tf-idf などのヒューリスティクスも、確率モデルによりアルゴリズムとして解釈しなおすことができる各章のサマリ • • • 11.1 Review of basic probability theory – 確率論の簡単な復習 – P(A, B) = P(A∩B) = P(A|B)P(B) = P(B|A)P(A) とかそういうの – ベイズ確率公式とか 11.2 The probability ranking principle – 情報要求に対して確率論を当てはめるための考え方 – 情報要求への適合確率を推定して並び替えろ、という話 – 当たり前のことを明文化しているだけ 11.3 The binary independence model – 11章の主なところ – 適合確率関数 P(R|d,q) 推定のために簡単な仮定を置く → これが BIM というモデル。11.3 はその解説 • – • Naive Bayes によく似た、独立性を仮定するモデル BIM により導出される式が TF-IDF や Relevance feedback とどう関連しているかなどを見ていく 11.4 An appraisal and some extensions – 古典的な確率的モデルの3つの拡張手法 (Tree-structured dependencies between terms, Okapi BM25, Bayesian network approaches) 11.3 The binary independence model • Binary Independence Model – 確率関数 P(R|d, q) を推定するためのモデル – 以下を仮定して単純化するモデル • 文書 / クエリ / 適合性を2値で表現 • 単語間の独立性 • クエリに現われない単語が結果に影響しない • 文書間における適合の独立性 11.3 の骨子 • • • 11.3 – BIM 解説の前準備、仮定の導入 – P(R|d, q) を仮定により導入される式で変形していく 11.3.1 Deriving a ranking function for query terms – クエリqが与えられたときに、検索結果をランキングする目的で、更に式変形を続ける – 適合確率の推定に、"RSV" や ct などの単純化された値を推定すればよい、という結論に帰着する 11.3.2 Probability estimates in theory – • • ct 推定に MLE (最尤推定) ではなく MAP (事後確率最大法) を用いることでゼロ確率問題をスムージングしましょう、という話 11.3.3 Probability estimates in practice – ここまでで導出した数式に対して、こういう考え方をすると、こういうランキングになるという研究例を紹介する節 – 例えばクエリ単語の出現確率が全て一定という簡単な仮定を置くと、文書ランキングは idf で重み付けされることがわかる、など 11.3.4 Probabilistic approaches to relevance feedback – 9章などで熱かった Relevance feedback を、確率モデルにおいてはどう考えるか