ブーリアンおよび拡張ブーリアン検索 • 完全一致検索である boolean 検索 • 最良優先探索的な拡張 ブーリアン検索 • 質問は論理式。例えば、Q= 科学or( 研究費and 申請) • 転置ファイルを検索して、タームt に対応する文書の集合D(t) が得ら れるとしよう。すると、質問の論理式(1) によって検索した結果は次 のようになる。 • D( 科学) or (D( 研究費) and D( 申請)) • 質問論理式を作ることが素人には難しい。 • 検索結果の文書数が多過ぎたり、あるいは0 だったりすると、論理式 を調整して適当な大きさの結果集合にするのだが、この調整が非常 に難しい。 拡張ブーリアン検索 Mixed Min and Max • • • • • • • インデクスになるタームA に対して、文書DのA への関連性の高さを 表す重みdA を決めておく。例えば、tf×idf dAandB = min(dA ; dB )、 dAorB = max(dA ; dB ) タームA1, A2, ... , An で文書D を検索する場合のタームと文書の類 似度 sim( 質問論理式; 文書) をand とor に関して以下のように定義 sim((A1orA2or::orAn);D) = Cor1 × max(dA1 ; dA2 ; :::; dAn ) +Cor2 × min(dA1 ; dA2 ; :::; dAn ) sim((A1andA2and::andAn);D) = Cand1 × min(dA1 ; dA2 ; :::; dAn ) +Cand2 × max(dA1 ; dA2 ; :::; dAn ) Cor1 > Cor2 ; Cand1 > Cand2 このような計算により、関連性の大小を反映した順序付けができる ので、最良優先検索になる。 拡張ブーリアン検索 Paice モデル • タームA1, A2, ... , An で文書D を検索する場合のターム と文書の類似度 sim( 質問論理式; 文書) を以下のよう に定義 sim((A1 and/or A2 and/or ....and/or An), D) dA1 r dA2 r 2 dA3.... r n-1 dAn 1 r r 2 .... r n-1 • and の場合はr = 1:0 、or の場合は r = 0:7 にするとよ い結果が得られる 拡張ブーリアン検索 P-normモデル • 文書D に対するタームAi の重みをdAi(<1) 、質問におけ るタームAi の重みをqi とする。このとき、or とand の質 問に対する類似度sim( 質問;D) を以下のように定義 • P は1 より大きいのが普通だが、類似度計算には時間が かかる。 1 (dA1q1) p .... (dAn qn) p p sim((A1 or A2 or ... or An), D) q1p .... qn p 1 ((1-dA1)q1) p .... ((1 dAn)qn) p p sim((A1 and ....and An), D) 1- q1p .... qn p
© Copyright 2024 ExpyDoc