`

与tf*idf权重的关系

阅读更多

3.3.4tf*idf权重的关系

tf*idf权重计算策略在传统的检索模型如向量空间模型和概率检索模型中都起着十分关键的作用。但是直观地看,查询似然检索模型的文档排名函数即式似乎只与词频tf有关,好像并没有利用idf的信息,而idf权重因子在度量词项的全局区分能力上扮演着至关重要的角色。从以下的推导和讨论中我们将看到,基于查询似然的文档排名实际上整合了传统的tf*idf权重信息,这种整合正是通过文档语言模型的平滑估计来体现的。

文档语言模型的平滑估计问题,实际上可以划分成两个子问题:其一,对于文档中出现的词项,使用一个什么样的概率估计值,通常采取的策略是对其极大似然估计值进行一定的折扣处理;其二,对于文档中未出现的词项,使用什么样的估计值来作为参考,通常使用词项在文档集中的出现概率。为便于分析,在此将第四章给出的文档语言模型的平滑估计的一般形式列出:

 

P(w|D)=PDML(w|D)  (if wD)

P(w|D)=αD(w|C)    (otherwise)

 

其中PDML(w|D)为对极大似然估计值进行折扣处理后的值,p(w|C)为词项w在文档集C中的概率估计值,αD为归一化因子以保证平滑后的文档语言模型符合概率分布的特性即∑wp(w|D)=1,它反映了分配给那些未出现在文档中的词项的概率之和。

根据上述平滑的一般形式,我们可对查询似然P(Q|D)进行如下的等价转换。首先对式等号两边取对数:

 

logp(w|D)=Σwc(w,Q)logp(w|D)

 

         由于

 

Σwc(w,Q)logp(w|D)= ΣwDc(w,Q)logp(w|D)+ Σw!∈Dc(w,Q)logp(w|C)

 

可得:

 

Logp(w|D)=ΣwDc(w,Q)logpDML(w|D)+Σw!∈Dc(w,Q)logαD(w|C)

 

         又因为:

 

Σw!∈Dc(w,Q)logαD(w|C)

=Σwc(w,Q)logαD(w|C)- ΣwDc(w,Q)logαD(w|C)

 

得到:

 



 

 

上式的最后一项与文档D无关,不影响文档排名。因此,基于查询似然的文档排名函数最终可等价转换为如下的形式:

 



 

 

可见,文档排名函数被分解为两部分:前一部分可以看成是查询Q和文档D中那些匹配词项的权重之和,匹配词项的权重为Weight(w)=log(pDML(w|D)/(αDp(w|C)))。该权重随着词项w在文档D中的频度tf的增大而增大,随着词项w在文档集C中的频度的增加而降低。所以,使用p(w|C)作为参考概率估计值来进行平滑,其作用类似于传统检索模型中的idf权重因子,对于频繁出现在文档集中的词项,权重Weight(w)将降低。上式中的后一部分则包含了一个与文档相关的常量αD,我们认为它在一定程度上扮演着文档长度规格化的角色,长文档的αD倾向于更小。

上述分析表明,基于查询似然的文档排名函数实质上包含了tf*idf权重信息和文档长度规格化的信息。[Hiemstra&Vries 2000]对这种关联性有更加严格的推导,[Lafferty&Zhai 2002a]则对查询似然检索模型与传统的概率检索模型之间的关系进行了讨论,从理论上说明了查询似然检索模型与概率检索模型在概率本质上的紧密关联性。

 

参考:基于统计语言建模的信息检索及相关研究

  • 大小: 4.5 KB
  • 大小: 6.1 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics