3.3.4与tf*idf权重的关系
tf*idf权重计算策略在传统的检索模型如向量空间模型和概率检索模型中都起着十分关键的作用。但是直观地看,查询似然检索模型的文档排名函数即式似乎只与词频tf有关,好像并没有利用idf的信息,而idf权重因子在度量词项的全局区分能力上扮演着至关重要的角色。从以下的推导和讨论中我们将看到,基于查询似然的文档排名实际上整合了传统的tf*idf权重信息,这种整合正是通过文档语言模型的平滑估计来体现的。
文档语言模型的平滑估计问题,实际上可以划分成两个子问题:其一,对于文档中出现的词项,使用一个什么样的概率估计值,通常采取的策略是对其极大似然估计值进行一定的折扣处理;其二,对于文档中未出现的词项,使用什么样的估计值来作为参考,通常使用词项在文档集中的出现概率。为便于分析,在此将第四章给出的文档语言模型的平滑估计的一般形式列出:
P(w|D)=PDML(w|D) (if w∈D)
P(w|D)=αD(w|C) (otherwise)
其中PDML(w|D)为对极大似然估计值进行折扣处理后的值,p(w|C)为词项w在文档集C中的概率估计值,αD为归一化因子以保证平滑后的文档语言模型符合概率分布的特性即∑wp(w|D)=1,它反映了分配给那些未出现在文档中的词项的概率之和。
根据上述平滑的一般形式,我们可对查询似然P(Q|D)进行如下的等价转换。首先对式等号两边取对数:
logp(w|D)=Σwc(w,Q)logp(w|D)
由于
Σwc(w,Q)logp(w|D)= Σw∈Dc(w,Q)logp(w|D)+ Σw!∈Dc(w,Q)logp(w|C)
可得:
Logp(w|D)=Σw∈Dc(w,Q)logpDML(w|D)+Σw!∈Dc(w,Q)logαD(w|C)
又因为:
Σw!∈Dc(w,Q)logαD(w|C)
=Σwc(w,Q)logαD(w|C)- Σw∈Dc(w,Q)logαD(w|C)
得到:
上式的最后一项与文档D无关,不影响文档排名。因此,基于查询似然的文档排名函数最终可等价转换为如下的形式:
可见,文档排名函数被分解为两部分:前一部分可以看成是查询Q和文档D中那些匹配词项的权重之和,匹配词项的权重为Weight(w)=log(pDML(w|D)/(αDp(w|C)))。该权重随着词项w在文档D中的频度tf的增大而增大,随着词项w在文档集C中的频度的增加而降低。所以,使用p(w|C)作为参考概率估计值来进行平滑,其作用类似于传统检索模型中的idf权重因子,对于频繁出现在文档集中的词项,权重Weight(w)将降低。上式中的后一部分则包含了一个与文档相关的常量αD,我们认为它在一定程度上扮演着文档长度规格化的角色,长文档的αD倾向于更小。
上述分析表明,基于查询似然的文档排名函数实质上包含了tf*idf权重信息和文档长度规格化的信息。[Hiemstra&Vries 2000]对这种关联性有更加严格的推导,[Lafferty&Zhai 2002a]则对查询似然检索模型与传统的概率检索模型之间的关系进行了讨论,从理论上说明了查询似然检索模型与概率检索模型在概率本质上的紧密关联性。
参考:基于统计语言建模的信息检索及相关研究
- 大小: 4.5 KB
- 大小: 6.1 KB
分享到:
相关推荐
在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了...
在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了...
智能导医系统中TF-IDF权重改进算法研究.pdf
该文档是文本分类中权重计算的算法,即TF*idf算法的源代码,希望对您有所帮助
而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进...
面向患者的智能导医系统...针对传统TF-IDF算法在待分类疾病类中数量分布不均时提取疾病效果差的问题,提出基于疾病类间分布的症状权重改进算法。实验结果表明,改进算法在疾病推荐正确率和可信度两方面具有更好的效果。
该资源属于代码类,用C语言和Python实现了TF-IDF算法,适用于文本分类等特征权重抽取
搜索引擎广泛使用TF-IDF来评估文档与用户查询的相关性,以决定搜索结果排名。此外,搜索引擎还使用链接分析等方法来排序搜索结果。深入了解TF-IDF的原理和应用有助于更好地理解其在信息检索和文本分析中的关键作用。
带有tf-idf权重和排名系统的索引器 开发支持tf-idf权重的索引器和使用排名的系统。 怎么跑 使用以下命令执行该应用程序: doc stopwords queries GS weights scores 参数: doc-要读取的文档/目录的名称; 停用词...
该权重为IDF(Inverse Document Frequency)逆文档频率,它的大小与一个词的常见程度成反比。在我们得到词频(TF)和逆文档频率(IDF)以后,将两个值相乘,即可得到一个词的TF-IDF值,某个词对文章的重要性越高,其...
实现词项权重的计算的传统tfidf的方法。
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法,整个工程可以直接运行,
传统的排序方法,很难融合多种因数,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息了,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。LTR采用机器学习很好...
Tf-Idf_from_scratch 术语频率(TF)单词在文档中出现的次数除以文档中单词的总数。 每个文档都有其自己的任期频率。 逆数据频率(IDF)记录的文档数除以包含单词w的文档数。...最后,TF-IDF只是TF与IDF的乘积。
TF-IDF和TextRank均属于此类方法,其中TF-IDF方法通过计算单文本词频(Term Frequency, TF)和逆文本频率指数(Inverse Document Frequency, IDF)得到词语权重;TextRank方法基于PageRank的思想,通过词语共现...
朴素贝叶斯分类算法的特征项间强独立性的假设在...与基于传统TF一IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高。
向量空间模型 权重计算方法 信息检索常用的方法 用于自然语言处理 可以适用于分类
余弦相似度Tf-Idf ##概述这是Java中的简单代码,它接收一组文档,并根据其单词的Tf-Idf权重计算其中两个文档之间的余弦相似度。
求各个词语的权重值