写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会有不少地方会有差错,也请高手指正,上次计算相关度的方式发布后,就得到了高人的点化,在此谢谢这位高手,也谢谢大家对我的关注。
下面进入主题:
今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。
在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低,举个例子吧,类似于这样的一个词:“吸烟的危害”,在这个词里面,吸烟是整个文章的一个主词,也就是说,吸烟这个词是整篇文章的核心,而“危害”这个词却能表达很多危害,例如环境污染危害,破坏公物的危害等。剩下的一个词“的”在整个句子里根本就没有任何意义,这样一来,我们的权重问题就可以看的很明白了,具体的权重大小就如下这样
吸烟>危害>的,而“的”这个词因为不包含任何意义,所以,一般情况下,搜索引擎的计算规则中会讲“的”这个词消噪(这点纯属个人看法,请高手指教。)
我们可以看到的是,有些词,只要你搜索一下,马上就会得出结果,例如吸烟 危害这样的词,而“的”这个词虽然存在于几乎所有的网页中,却根本不能反应出任何意义,这样一来他的权重就少的可怜了,这就是搜索引擎中的:“逆文本频率指数”(Inverse document frequency 缩写为IDF)他的计算公式是这样的,假如一个词W在DW个网页中出现过,那么DW的值越大,W的权重就越小。具体的公式如下log(D/dW).
这个我们可以举个例子,假如有10亿个网页在搜索库里,而手机这个词出现的次数是两百万次,那么我们的计算公式就是
log(2000000/1000000000)=log(500)=6.2
通过这样的方式,我们就可以算出词的权重,这个办法,可以使用在优化当中的长尾生僻词的办法中,利用计算,得到最大的权重词,当然,你无法知道数据库里到底有多少个网页,因此,也就只能通过搜索结果来判断了,呵呵。
那么TF是什么呢?
TF是指你所选定关键词的出现频率,也就是单词汇的出现频率,(Term Frequency)举个例子,还是上面的例子,假如在一个有一千字的文章中“吸烟的危害”这几个词组在网页中分别出现以下的次数:
吸烟:5次
的:46次
危害:9次
这样,吸烟出现的频率是0.005%,“的”出现的频率是0.046,危害出现的频率是0.009%这样,结合相加,这个词“吸烟的危害”在这个文章中的比重就是0.06%。但是我们刚才说过,“的”这个词在大量网页中出现,而且根本无法形容任何意义,因此这个词是需要被删除的,那么,整个这个文章的关键词密度 就是(5+9)*100%,也就是仅仅0.016%。
这个办法我们一般会使用在页面的关键词密度计算上,记住:类似“的”这样的词语是不能被作为关键词的,因为他会被忽略
知道了以上的计算方法后,我们基本就可以知道搜索引擎是如何工作的了,但是有些朋友为了提高文章权重,大量的堆砌主关键词,也就是说假如“吸烟危害”是这个网页的关键词,他会为了提高排名而大量的堆砌关键词,其实根本没有必要去做,我在我的博客里曾经提到过一个“免费送Q币”的案例,他就完全避开了这样的限制,却做到了很好的排名,这就是一个关键词组合的办法,以后我会讲到,有兴趣的朋友可以去研究一下。
接着我们的话题,TF/IDF被认为是信息检索中最伟大的发明,就是因为他在一定意义上解决了很多网页排序的问题,现在的大型搜索引擎都是靠这个公式去做为基础的,当然,在计算方式上会改进很多的部分,以求更准确,另外,结合向量空间模型(Vector Space Models) 、多文档列表求交计算等方式,使得搜索引擎的结果更加准确。
写这篇小文的意思,主要是想让各位对搜索引擎的排序做一个深入的了解,上次我所说过的相关度与这篇文章也是息息相关的,大家不妨研究一下。
本文原载:飘渺蝶舞的SEO梦想
分享到:
相关推荐
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法,整个工程可以直接运行,
基于TF-IDF算法和LDA主题模型数据挖掘技术在电力客户抱怨文本中的应用.pdf
Keyword extraction based on TF-IDF of specific corpus. 基于特定语料库的TF-IDF的中文关键词提取
tf-idf算法简单分析多个pdf文件关键词
基于特定语料库的TF-IDF的中文关键词提取 使用前按照说明操作。
关键词提取TF-IDF算法综述,TFIDF词频逆文档频率是关键词提取常用算法,本文是对该方法全面的综述
本文总结了三种常用的抽取文本关键词的方法:TF-IDF、TextRank和Word2Vec词向量聚类,并做了原理、流程以及代码的详细描述。因本文使用的测试语料较为特殊且数量较少,未做相应的结果分析,根据观察可以发现,得到的...
TF-IDF算法的优点是简单快速,结果比较符合实际情况
实现基于TF-IDF算法抽取,对关键词进行抽取的算法,程序
基于python的英文文档集上的tf、idf和tf_idf图像绘制,完整代码,博客详见:https://blog.csdn.net/weixin_43863744/article/details/120442166
es的排序准则的相关度,根据搜索 ...TF/IDF会随着关键词出现的次数得分逐渐增高,BM25随着关键词出现的次数,得分会有一个极限(用两个参数可以进行调节 k1[默认1.2],b[默认0.75])。目前ES5.0以后版本默认使用BM25。
人工智能-项目实践-聚类-利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助...
而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进...
keywords_关键词提取_tf-idf.zip
TF-IDF计算文本重要性,并考虑字符长度
keywords_关键词提取_tf-idf_源码.zip
利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
TF-IDF 简介。浅显易懂,值得学习。