PowerPoint プレゼンテーション

ターム分布の確率モデル
 Zipfの法則:使用頻度の大きな語は語彙数が少なく,使
用頻度の小さな語は語彙数が多い
 語を使用頻度f の大きい順に並べたときの順位をr とする
と, f× r = 一定値
 Zipfの第2法則:文章L において使用頻度f の異なり語の
 数をk とすると、 k× f2 ≈(L に依存する定数)
 L がこの式に関与している理由は,文章が長くなれば使
用語彙数が増えるなどという文章依存性を表すため
 情報検索のキーワードになるタームとしては、頻度が少
な過ぎもせず、多過ぎもしない中程度の頻度の語彙を選
べばよい
Poisson分布
文書D を短い間隔でn 個に分割し、そこにある
タームt が出現する確率をp とすると、文書に
タームt がx回現れる確率は、二項分布により
B(x; n; p) で近似できる
nを大きくすることは文書をより短い間隔に分割
することだが、n×p=λ に保てば文書D におけるt
の出現回数の期待値はλであり、tがDにx回現
れる分布は二項分布の極限形であるPoisson分
布になる。
x
p ( x;  )  e
λ
x!
λ
タームtの出現する文書数の期待値すなわ
ちdocument frequency : df = N(1-p(0;λ))
Nは全文書数
 の小さいタームではよく当てはまるが、大き
いタームではdf を大き過ぎる値に予測してし
まう傾向がある。これは、あるタームは一度
現れると続けて現れる傾向が強いことに起
因する。
これを補うのが2重Poisson分布
2重Poisson分布
 λ1 > λ2
p( x; 1 ,2 , )  e 1
1x
x!
 ( 1   )e 2
2x
x!
インデクスになりうる高頻度のクラスと、イ
ンデクスにはなりにくい低頻度のクラスに
タームを分けることを意味する。
K混合分布
df は文書集合中でタームt の現れる文書数、N
は文書集合中の全文書数、cf は文書集合の全
文書でタームt の出現回数
λ= cf⁄N
β=cf⁄df -1,
α=λ⁄β =df/N×cf/(cf-df)
タームt が文書にk 回出現する確率Pt(k) がK 混
合分布(K mixture) では次式で表される。
タームt が文書にK回出現する確率Pt(k) がK 混
合分布(K mixture)

pt (0)  1   
 1



K
pt ( K ) 
(
)
 1  1
if K>1
β は、文書中に同じタームが1 回より多く出現す
る頻度である。よって、 β= 0 すなわち、cf = df す
なわち、どの文書にも1 回しか現れないタームは、
Pt(k) =0 when k > 1となる。
文書中に多数回出現するタームt の場合は、 βが大
きくなり、その結果Pt(K) がK が大きくなってもなかな
か減少しないということになる。
これらのことは、直観にあっている。実際、文書の意
味内容に直結しないタームではよい近似である。しか
し、文書の中心的概念を表すタームは、式 よりは減
少の度合が小さいという観測結果がある。