ブーリアンおよび拡張ブーリアン検索

ブーリアンおよび拡張ブーリアン検索
• 完全一致検索である boolean 検索
• 最良優先探索的な拡張
ブーリアン検索
• 質問は論理式。例えば、Q= 科学or( 研究費and 申請)
• 転置ファイルを検索して、タームt に対応する文書の集合D(t) が得ら
れるとしよう。すると、質問の論理式(1) によって検索した結果は次
のようになる。
• D( 科学) or (D( 研究費) and D( 申請))
• 質問論理式を作ることが素人には難しい。
• 検索結果の文書数が多過ぎたり、あるいは0 だったりすると、論理式
を調整して適当な大きさの結果集合にするのだが、この調整が非常
に難しい。
拡張ブーリアン検索 Mixed Min and Max
•
•
•
•
•
•
•
インデクスになるタームA に対して、文書DのA への関連性の高さを
表す重みdA を決めておく。例えば、tf×idf
dAandB = min(dA ; dB )、
dAorB = max(dA ; dB )
タームA1, A2, ... , An で文書D を検索する場合のタームと文書の類
似度 sim( 質問論理式; 文書) をand とor に関して以下のように定義
sim((A1orA2or::orAn);D)
= Cor1 × max(dA1 ; dA2 ; :::; dAn )
+Cor2 × min(dA1 ; dA2 ; :::; dAn )
sim((A1andA2and::andAn);D)
= Cand1 × min(dA1 ; dA2 ; :::; dAn )
+Cand2 × max(dA1 ; dA2 ; :::; dAn )
Cor1 > Cor2 ; Cand1 > Cand2
このような計算により、関連性の大小を反映した順序付けができる
ので、最良優先検索になる。
拡張ブーリアン検索 Paice モデル
• タームA1, A2, ... , An で文書D を検索する場合のターム
と文書の類似度 sim( 質問論理式; 文書) を以下のよう
に定義
sim((A1 and/or A2 and/or ....and/or An), D)
dA1  r dA2  r 2 dA3.... r n-1 dAn

1 r  r 2 .... r n-1
• and の場合はr = 1:0 、or の場合は r = 0:7 にするとよ
い結果が得られる
拡張ブーリアン検索 P-normモデル
• 文書D に対するタームAi の重みをdAi(<1) 、質問におけ
るタームAi の重みをqi とする。このとき、or とand の質
問に対する類似度sim( 質問;D) を以下のように定義
• P は1 より大きいのが普通だが、類似度計算には時間が
かかる。
1
 (dA1q1) p .... (dAn qn) p  p
sim((A1 or A2 or ... or An), D)  


q1p .... qn p



1
 ((1-dA1)q1) p .... ((1 dAn)qn) p  p
sim((A1 and ....and An), D) 1-


q1p .... qn p


