`

从语言模型“反推”的角度看查询扩展

阅读更多

6.2从语言模型“反推”的角度看查询扩展

查询扩展就是根据实际出现的词项推断应该出现的词项,也就是从用户提交的查询推断出隐含在用户查询意图背后的其他词项,从而“揣摩”出用户真实的信息需求。启发式的查询扩展方法在实现扩展时,采用的是一种启发式的扩展词选取方法和权重修正策略,缺乏严格的数学推导和理论依据。为了在统计语言模型框架内实现查询扩展,有必要将用户真实的查询意图表示为查询语言模型(或叫信息需求语言模型),记为θU

在最简单的情况下,假设θU为一元模型。查询扩展的目的就是利用所有与用户信息需求有关的已知信息来“反推”出潜在的查询语言模型。

这里的“过滤”是一种不可见的潜在过程,可认为是由用户完成的,IR系统的用户根据自己的信息需求(查询意图)挑选出一些能代表其查询意图的关键词构成初始查询提交给IR系统;“反推”则由IR系统来完成,是IR系统根据用户提交的查询“揣摩”其真实查询意图的过程,即根据现有的所有与用户信息需求有关的已知信息(用户提交的查询、文档集、检索的上下文信息、用户的个性化信息以及其他外部知识如WordNet等)“推断”出其真实的查询意图。

 

6.3基于语言模型估计的反推方法

对于由给定的n篇与用户信息需求相关的文档组成的相关文档集合R={D1,D2,,Dn},假设R中的每篇文档仅含有一个主题(显然,该主题是与用户信息需求相关的),基于这种假设,我们可认为相关文档集合R所讨论的主题由某个概率模型所生成;为了简化问题的规模,进一步假设该概率生成模型为最简单的一元语言模型,称为相关主题模型,记为θR。根据初始的查询语言模型θQ和相关主题模型θR,我们可以采用线性插值平滑的方法将这两部分信息结合起来,从而获得反推后的查询语言模型θU

 

P (w|θU)=α*p(w|θQ)+(1-α)*p(w|θR)

 

其中α为小于1大于0的插值系数,根据经验获得,缺省值为0.2

 

参考:基于统计语言建模的信息检索及相关研究

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics