ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使 用頻度の小さな語は語彙数が多い 語を使用頻度f の大きい順に並べたときの順位をr とする と, f× r = 一定値 Zipfの第2法則:文章L において使用頻度f の異なり語の 数をk とすると、 k× f2 ≈(L に依存する定数) L がこの式に関与している理由は,文章が長くなれば使 用語彙数が増えるなどという文章依存性を表すため 情報検索のキーワードになるタームとしては、頻度が少 な過ぎもせず、多過ぎもしない中程度の頻度の語彙を選 べばよい Poisson分布 文書D を短い間隔でn 個に分割し、そこにある タームt が出現する確率をp とすると、文書に タームt がx回現れる確率は、二項分布により B(x; n; p) で近似できる nを大きくすることは文書をより短い間隔に分割 することだが、n×p=λ に保てば文書D におけるt の出現回数の期待値はλであり、tがDにx回現 れる分布は二項分布の極限形であるPoisson分 布になる。 x p ( x; ) e λ x! λ タームtの出現する文書数の期待値すなわ ちdocument frequency : df = N(1-p(0;λ)) Nは全文書数 の小さいタームではよく当てはまるが、大き いタームではdf を大き過ぎる値に予測してし まう傾向がある。これは、あるタームは一度 現れると続けて現れる傾向が強いことに起 因する。 これを補うのが2重Poisson分布 2重Poisson分布 λ1 > λ2 p( x; 1 ,2 , ) e 1 1x x! ( 1 )e 2 2x x! インデクスになりうる高頻度のクラスと、イ ンデクスにはなりにくい低頻度のクラスに タームを分けることを意味する。 K混合分布 df は文書集合中でタームt の現れる文書数、N は文書集合中の全文書数、cf は文書集合の全 文書でタームt の出現回数 λ= cf⁄N β=cf⁄df -1, α=λ⁄β =df/N×cf/(cf-df) タームt が文書にk 回出現する確率Pt(k) がK 混 合分布(K mixture) では次式で表される。 タームt が文書にK回出現する確率Pt(k) がK 混 合分布(K mixture) pt (0) 1 1 K pt ( K ) ( ) 1 1 if K>1 β は、文書中に同じタームが1 回より多く出現す る頻度である。よって、 β= 0 すなわち、cf = df す なわち、どの文書にも1 回しか現れないタームは、 Pt(k) =0 when k > 1となる。 文書中に多数回出現するタームt の場合は、 βが大 きくなり、その結果Pt(K) がK が大きくなってもなかな か減少しないということになる。 これらのことは、直観にあっている。実際、文書の意 味内容に直結しないタームではよい近似である。しか し、文書の中心的概念を表すタームは、式 よりは減 少の度合が小さいという観測結果がある。
© Copyright 2025 ExpyDoc