`
phantom
  • 浏览: 160511 次
社区版块
存档分类
最新评论

你知道google和百度两个关键词的相关度是多少么?

阅读更多

你知道google和百度两个关键词的相关度是多少么?
--最后我将来回答这个问题

通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。

传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。

例子:
文章 A: 谈论的是大学教育,最高频的关键词是:学生[3],学习[2],大学[2]
文章 B: 谈论的是普通教育,最高频的关键词是:教育[5],教师[1],进修[1]
[]里是相对的权重,可以理解成 TF*IDF

根据传统的相关性计算,我们会得到如下的结果:

1. 文章A 与 文章B 不相关
2. 查询 学生,学习,大学只能返回文章A,不能返回文章B
3. 查询 教育,教师,进修只能返回文章B,不能返回文章A

分析:
这个显然是有一定的问题的,问题的出现在于我们通常将“字面”的意思做为分析的来源而且依靠和仅仅依靠这些“字面”的关键词做为文章相关性和查询相关性判断的唯一要素。

如何避免?
我在以前的文章中提到过【关键词相关度】的概念,举例说明:
当出现:{学习}这个词汇的时候,真实的表达的意义往往是这样的:
{W1*学习,W2*教育,W3*教师,W4*大学。。。。。。}
其中W1,W2...是学习和相关词汇的相关权重。

基于这样一个矩阵,我们就能够将一个词扩展成为一组词汇,因而也同时可以将文章所对应的向量扩展成一个更多词汇的集合。

这里的计算需要一个完整的相关度矩阵:M

M(i,j) = {关键词i,j的相关度}
而两篇文章的相关度的计算,也由简单的
R= Sigma Vi*Vi
变为
R= Sigma Vi*M(i,j)*Vj

查询关键词和文章的相关度也由简单的
R(i)=TF(i)*IDF(i)
变为
R(i)=Sigma TF(j)*IDF(j)*M(i,j)


下面碰到一个核心问题就是:关键词之间的相关度如何计算?
例如:学校和学生的相关度是多少?
计算方法:
假设一个文章集合 {C},总文章数目为N,其中含有单词A的文章总数为Na,含有单词B的文章总数是Nb,含有{A+B}的文章总数是 Nab,那么相关性这么计算

CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)

本计算中可能会得到负相关,如果考虑到Na,Nb都是小量,可以忽略,那么

CorrAB= Nab/(Na+Nb-Nab)

至此,要计算相关度之间的全部要素都获得了。

思考,那么到底 学校 和学生 之间的相关度是多少呢?
我们利用google来回答这个问题吧:

约有91,700,000项符合学校的查询结果
约有88,200,000项符合学生的查询结果
约有48,900,000项符合学生 学校的查询结果

Corr{学校,学生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37

这个原理我以前应用在了计算【网页信噪比】上,和网页信噪比一起成为衡量一个网页的关键词的核心算法。
这也就是为什么6e的网页信噪比能够不依靠网页上现有的关键词而准确的判断网页的分类和相关度,是因为除了TF和IDF之外,我们能够从已有的文本集合里学到更多的“知识”。

那么百度和google的相关度应该不难计算了:

利用 google计算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03

利用 baidu计算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08

看来基本上相关度小于10%。

Posted at July 31, 2006 10:16 AM
分享到:
评论

相关推荐

    优化宝贝标题

    我建议从两个方面入手,这个关键字的热度(你可以通过查询百度指数和谷歌关键字来确认这个关键字的搜索量)。百度指数方面可以用观其站长工具箱。查指数很方便。尤其是批量的时候。谷歌关键字批量查我还没有找到好...

    百度推广-搜索营销新视角

    7.4.3 百度指数的两个重要概念 244 7.4.4 注册版百度指数 244 7.4.5 百度指数的引用 245 7.4.6 百度指数的注册 245 7.4.7 百度指数功能详解 245 7.5 百度风云榜 247 7.5.1 什么是百度风云榜 247 7.5.2 百度风云榜...

    追词助手 v8.5.zip

    竞争度分析为你详尽剖析关键词自然排名前两页的详尽情况,是轻松掌握关键词的竞争强度的简易工具。它会把对手的SEO强度仔细罗列出来。并且支持导出报表,供日后详尽分析使有。 内链专家: 提供网站链接与关键词...

    seo建设者|SEO建设者免费版

    在百度相继取消相关关键词服务,和关键词指数flash显示后,本软件是网络上唯一可以同时查询这两项的优化工具了。  *百度关键词指数查询*  可查询关键词的详细百度指数信息,包括当天搜索量、月搜索量、百度,...

    网络促销方案设计.docx

    (比如:家具和办公家具,明显办公家具的转化率高) 优化:通过关键词日常的点击,百度统计,客户的搜索习惯统计好关键词的转化率。 3、设置关键词排名 关键词排名就是竞价广告展示位置的排名。 优化:关键词排名...

    网络营销设计方案.doc

    网络营销前的准备工作: 1、首先企业树立一个产品的品牌,围绕这个品牌在网上宣传和推广; 2、编辑完善产品资料,制定完善的售前售后服务 3、制作出公司的企业网站和网上商城,并完善网站内容; 4、组建好网络营销...

    旺道SEO优化软件 v6.8.0.1.zip

    旺道SEO优化软件是一款专业的SEO优化软件,这款SEO优化软件能够帮助你的网站排名在百度的第一页,增加品牌及产品的展示率,从而提升产品的推广力 度,增加意向顾客量。旺道SEO优化软件以百度优化排名为主,同时提升在...

    电子商务实验报告.doc

    " "任务二:你的老板是做雨花石及玩石生意的,现在想要开一个网上商城,并扩展生意" ",请你在网上搜集一下相关资料,给出一个搜索报告; " "任务三:你父母要宴请一个从德国来的老朋友(老家湖南,30年没有回来)...

    基于协同过滤的推荐系统算法研究项目源码+论文.zip

    当前要解决这个问题主要有两个途径:一类是使用搜索引擎,比如谷歌、百度、搜狐等,但是这类方法需要用户的需求明确,用户也得十分清楚的表达出自己的意向,其搜索结果的质量很大程度上依赖于用户对需求描述的准确度...

    《工具书与文献检索》作业-2(答案)[定义].pdf

    检索器的功能是根据用户的查询在索引中快速检出文档,进行文档与查询的相关度评价。用户接口的作用是输入用户查询、显示查询结果,提供用户相关性反馈机制。 2. 搜索引擎的核心和用户接口: 搜索引擎的核心是索引...

    知识图谱与智能问答基础理解(1).pdf

    ⽐如在Google的搜索框⾥输⼊Bill Gates的时候,搜索结果页⾯的右侧还 会出现Bill Gates相关的信息⽐如出⽣年⽉,家庭情况等等。 image.png 上⾯提到的知识图谱都是属于⽐较宽泛的范畴,在通⽤领域⾥解决搜索引擎优化...

    搜索引擎代码

    1.全新规划系统架构,彻底分离数据访问层,推出Access和MS SQL两个版本。(非常重要) 2.增加百宝箱功能,可以像百度开放平台一样轻松地在自己的搜索中增加自己特有的应用,如:万年历、时间、在线汇率等; 3.推广用户...

    知识图谱与智能问答基础理解.pdf

    ⽐如在Google的搜索框⾥输⼊Bill Gates的时候,搜索结果页⾯的右侧还 会出现Bill Gates相关的信息⽐如出⽣年⽉,家庭情况等等。 image.png 上⾯提到的知识图谱都是属于⽐较宽泛的范畴,在通⽤领域⾥解决搜索引擎优化...

    王通2010年最新SEO教程完整版.pdf

    如何分析关键词的搜索量有多少............................................................................- 65 - 如何分析你的竞争对手SEO.....................................................................

    工程硕士学位论文 基于Android+HTML5的移动Web项目高效开发探究

    Android 一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑,由Google公司和开放手机联盟领导开发 IOS 由苹果公司开发的移动操作系统 Webkit 一个开源的浏览器引擎,在手机上的...

Global site tag (gtag.js) - Google Analytics