自習用問題１：ブーリアンモデル問１．３枚の音楽CDのレビュー文から，CDごとに索引語（下線部）を抽出し，転置索引を作成しなさい．解答：抽出した索引語ごとに，その語が出現する文書（レビュー文）のリストを求めると，以下のようになる．索引語出現文書リスト幸せ d1, d3 夏 d1, d2, d3 明るい d1, d2 元気 d1, d3 切ない d2, d3 優しい d3 左表において， d1 = 「I LOVE YOU」 d2 = 「ハチミツ」 d3 = 「love the world」自習用問題２：ベクトル空間モデル問１．３枚の音楽CDのレビュー文から，CDごとに索引語（下線部）を抽出し，文書ベクトルを作成しなさい．ただしベクトルの成分の値として，各索引語の出現頻度（回数）を用いる．解答：各文書に各索引語が何回出現するか数えて表形式にまとめると，以下のような文書‐単語行列が得られる．文書 d1 d2 d3 幸せ夏 4 0 1 3 1 1 明るい元気切ない優しい単語 1 4 0 1 0 1 0 3 1 0 0 2 この行列の各行ベクトルが求める文書ベクトルである．例えば， d1 = ( 4, 3, 1, 1, 0, 0 ) 問２．この転置索引を用いて，次の２つの検索質問に対する検索結果を求めなさい． q1：「元気な曲と切ない曲の両方が入っているCD」（「元気」 AND 「切ない」）解答：索引語「元気」，「切ない」にそれぞれ対応する出現文書リストの共通部分を求めればよいので， { d1, d3 } ∩ { d2, d3 } = { d3 } つまり，「love the world」のみが検索結果となる．（答） q2：「元気な曲と切ない曲のいずれかが入っているCD」（「元気」 OR 「切ない」）解答： OR検索なので２つの出現文書リストの和集合を求める． { d1, d3 } ∪ { d2, d3 } = { d1, d2, d3 } つまり，３枚のCDすべてが検索結果となる．（答）問２．この文書ベクトルを用いて，次の２種類の検索要求に対する検索結果を求めなさい． q1：「元気な曲も聴きたいし切ない曲も聴きたい．ただしこれら２つの要望の重み（優先度）は同程度」解答： q1 = (0, 0, 0, 1, 1, 0) と各文書の類似度（コサイン係数） d1・q1／|d1| |q1| = 1／√27√2 = 0.14 d2・q1／|d2| |q1| = 3／√26√2 = 0.42 d3, d2, d1 の順 d3・q1／|d3| |q1| = 2／√8 √2 = 0.50 で適合する q2：「元気な曲も聴きたいし切ない曲も聴きたい．ただし元気な曲よりも切ない曲を重視（優先）する」解答： q2 = (0, 0, 0, 1, 2, 0) と各文書の類似度（コサイン係数） d1・q2／|d1| |q2| = 1／√27√5 = 0.09 d2・q2／|d2| |q2| = 6／√26√5 = 0.53 d2, d3, d1 の順 d3・q2／|d3| |q2| = 3／√8 √5 = 0.47 で適合するまとめ • ブーリアンモデル – 検索条件に適合する文書とそうでない文書が明確に区別される – AND検索とOR検索の区別がある – 検索条件に適合する文書どうしの間で優先度を与えることはできない • ベクトル空間モデル – 検索条件への適合度が実数値で得られるので，文書間の優先度が分かるが，適合と不適合の境界は明確でない（実用上は，しきい値を設定して，しきい値以上の適合度をもつ文書を検索結果として出力するようにする） 1