与tf*idf权重的关系

summerbell

浏览: 803296 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

研究技术综合

C C++C#D语言

3.3.4与tf*idf权重的关系

tf*idf权重计算策略在传统的检索模型如向量空间模型和概率检索模型中都起着十分关键的作用。但是直观地看，查询似然检索模型的文档排名函数即式似乎只与词频tf有关，好像并没有利用idf的信息，而idf权重因子在度量词项的全局区分能力上扮演着至关重要的角色。从以下的推导和讨论中我们将看到，基于查询似然的文档排名实际上整合了传统的tf*idf权重信息，这种整合正是通过文档语言模型的平滑估计来体现的。

文档语言模型的平滑估计问题，实际上可以划分成两个子问题：其一，对于文档中出现的词项，使用一个什么样的概率估计值，通常采取的策略是对其极大似然估计值进行一定的折扣处理；其二，对于文档中未出现的词项，使用什么样的估计值来作为参考，通常使用词项在文档集中的出现概率。为便于分析，在此将第四章给出的文档语言模型的平滑估计的一般形式列出：

P(w|D)=P_DML(w|D) (if w∈D)

P(w|D)=α_D(w|C) (otherwise)

其中P_DML(w|D)为对极大似然估计值进行折扣处理后的值，p(w|C)为词项w在文档集C中的概率估计值，α_D为归一化因子以保证平滑后的文档语言模型符合概率分布的特性即∑_wp(w|D)=1，它反映了分配给那些未出现在文档中的词项的概率之和。

根据上述平滑的一般形式，我们可对查询似然P(Q|D)进行如下的等价转换。首先对式等号两边取对数：

logp(w|D)=Σ_wc(w,Q)logp(w|D)

由于

Σ_wc(w,Q)logp(w|D)= Σ_w_∈Dc(w,Q)logp(w|D)+ Σ_w_！∈Dc(w,Q)logp(w|C)

可得：

Logp(w|D)=Σ_w_∈Dc(w,Q)logp_DML(w|D)+Σ_w_！∈Dc(w,Q)logα_D(w|C)

又因为：

Σ_w_！∈Dc(w,Q)logα_D(w|C)

=Σ_wc(w,Q)logα_D(w|C)- Σ_w_∈Dc(w,Q)logα_D(w|C)

得到：

上式的最后一项与文档D无关，不影响文档排名。因此，基于查询似然的文档排名函数最终可等价转换为如下的形式：

可见，文档排名函数被分解为两部分：前一部分可以看成是查询Q和文档D中那些匹配词项的权重之和，匹配词项的权重为Weight(w)=log(p_DML(w|D)/(α_Dp(w|C)))。该权重随着词项w在文档D中的频度tf的增大而增大，随着词项w在文档集C中的频度的增加而降低。所以，使用p(w|C)作为参考概率估计值来进行平滑，其作用类似于传统检索模型中的idf权重因子，对于频繁出现在文档集中的词项，权重Weight(w)将降低。上式中的后一部分则包含了一个与文档相关的常量α_D，我们认为它在一定程度上扮演着文档长度规格化的角色，长文档的α_D倾向于更小。

上述分析表明，基于查询似然的文档排名函数实质上包含了tf*idf权重信息和文档长度规格化的信息。[Hiemstra&Vries 2000]对这种关联性有更加严格的推导，[Lafferty&Zhai 2002a]则对查询似然检索模型与传统的概率检索模型之间的关系进行了讨论，从理论上说明了查询似然检索模型与概率检索模型在概率本质上的紧密关联性。

参考：基于统计语言建模的信息检索及相关研究

查看图片附件

分享到：

希腊字母一览 | 语言模型方法

2009-10-19 20:27
浏览 2782
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论