`

[#0x002B] IR经典模型之布尔模型

 
阅读更多

 

1. 经典模型的前提概念

  • 以ki表示indexing itemK = {k1, k2, …, kt}为整个系统的indexing item集,即整个系统只有tindexing item
  • 针对文档dj,wij为ki在dj中的权值,若ki没有在dj中出现,则wij = 0
  • dj可以表示为dj = {w1j, w2j, …, wtj}
  • gi(dj) =  wij

2. 布尔模型中的查询q

  • q由若干ki、连接词ANDORNOT构成,比如q = ka AND (kb OR (NOT kc)) 
  • q可以写成一个析取范式qdnf = (1, 1, 1) ∨(1, 1, 0)∨(1, 0, 0),三元组(1, 1, 1)称为qdnf的一个合取分量qcc

3. 布尔模型中的相似度

  • if 存在qcc ∈ qdnf满足对任意ki,gi(dj) = wij = gi(qcc),则sim(dj, q) = 1,即文档dj与查询q相关
  • else sim(dj, q) = 0,即文档dj与查询q无关

4. 关于gi(qcc)的理解

  • 考虑到dj是个t元组,形如dj = {1, 0, 1, 1, ..., 0, 0},“对任意ki,gi(dj) = wij = gi(qcc)”从实质上就是dj = qcc,但是:
  • qcc中并不会包含所有t个indexing item,设|qcc| = n,一般情况下t != n,所以可以从以下两个方面理解
  • (1)扩展qcc到t元
  • (2)截取(或者叫投影)dj到n元
  • 举例:dj = (w1j = 0, w2j = 1, w3j = 1),qcc = (w2 = 1, w3 = 1)。扩展dj(投影dj到(w2, w3)),dj' = (w2j = 1, w3j = 1) = qcc;扩展qcc,qcc' = (w1 = 0, w2 = 1, w3 = 1) = dj
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics