隐性语义检索（LSI）和搜索引擎优化【转www.chinageren.com 】

isiqi

浏览: 16068383 次
性别:
来自: 济南

最近访客更多访客>>

nison

hellohank

wangyy

devcang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-07 ( 335)
2012-06 ( 252)
2012-05 ( 362)
更多存档...

搜索引擎 Google 算法网络应用数据结构

最近，当人们用“paypal ”在Google中进行搜索，排名第一位的却不再是国际知名网络支付公司Paypal的官方网站Paypal.com了。这一现象显然反映了Google正在加大对那些采用了“异常”的回向链接文字（锚文字）的惩罚力度。虽然作为典型例子的Paypal在Google中出现的排名问题已经得到了纠正，但仍有成千上万名不见经传的小网站们正遭受着同样的困扰：那就是即使用公司名称在Google中搜索，网站的排名都成问题，更不用说用原来排名一直很好的关键词了。对于搜索引擎优化人员来说，最重要的是了解两点：一是Google是怎样实施锚文字处罚的，二是当我们采用不同变化形态的锚文字时，隐含语义检索（LSI）是怎样确保锚文字的这种变化不会对链接推广活动的效果造成影响的。

　　一、锚文字处罚

　　去年就有不少人已经注意到这个现象了：对于一个在很短时间内就建立了大量回向链接的网站来说，它只能在象雅虎这样的一些大搜索引擎中得到它所期望的排名效果，而对于Google来说，这一链接推广行为却无法奏效。原因在于：Google已经在搜索算法中增加了一些过滤特性，可以把那些感觉具有“不正常”回向链接结构的网站从其搜索结果中剔除出去。“异常锚文字处罚”就是其中的一个特性。

　　使用描述性词语作为文字内容，无论对于一个网站内部链接还是外部链接的链接文字，也就是我们通常所说的锚文字，都无疑是最为搜索引擎优化人员所推崇的做法。但有很多优化人员在选择锚文字内容时，总是只围绕一个主要关键词，尤其是如果这个关键词可以吸引比网站次关键词多的多的访问量的时候，这种做法尤为突出。此外，网站能够获得高质量的回向链接十分不容易，这也就成了为什么优化人员在对网站进行优化时，不会漏过一个在其锚文字中加入该主要关键词的机会的主要原因。

　　只要锚文字中的关键词和网站内容高度相关，这种做法在我们来看应该是无可厚非的。但遗憾的是，“千篇一律”的链接内容对搜索引擎来说是有问题的。因为在搜索引擎看来，最自然的链接文字应该是多种多样的，例如公司名称、关键词、关键词同义词、网站地址、甚至“请点击此处进入”诸如之类的锚文字内容才最正常。但如果所有的外部链接文字内容都是“网站主关键词”，那么很显然，在搜索引擎的搜索算法机制看来，这些链接绝对不是通过正常渠道得来的。

　　二、什么是隐含语义检索（LSI）

　　LSI是一种信息检索技术，通过统计手段，LSI可以把虽然不含查询字串但却相关的文档提取出来，经过转换后，相关的词汇会经由文件所包含的内容而产生关连，和“概念检索”有相同之处。使用LSI技术就意味着搜索引擎在检索网页时，试图把某些查询术语和其潜在概念联系起来。例如，把iMac和苹果公司的电脑联系起来。

　　三、LSI的工作原理

　　作为一种IR向量空间技术，LSI被证实比在Salton的SMART系统中使用的传统向量空间技术性能更好。其工作原理是利用矩阵理论中的“奇异值分解（SVD）”技术，将词频矩阵转化为奇异矩阵：首先从全部的文档集中生成一个标引项－文档矩阵，该矩阵的每个分量为整数值，代表某个特定的标引项出现在某个特定文档中次数。然后将该矩阵进行奇异值分解，较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射到一个子空间中，在该空间中，来自标引项－文档矩阵的语义关系被保留，同时标引项用法的变异被抑制。最后，可以通过标准化的内积计算来计算向量之间的夹角余弦相似度，再将文档按与查询的相似度降序排列。

　　四、LSI信息检索技术对搜索引擎索引的价值

　　对一个文档集合进行关键词查询的常规途径应用的是会计思想，非常简单直接，需要做的就是查看文档中包不包含给定的词语。根据给定的关键词和短语，按顺序查阅每个文档的内容，将内容中不包含这些关键词和短语的文档剔除出去，然后将其余的满足条件的文档通过一些排名系统进行排列，并建立一个结果数据集。每个文档在搜索引擎的算法面前都是独立的，文档之间并无任何形式的依赖关系，搜索算法也仅仅是根据每个文档的内容对其与关键词之间的相关性进行评估的。

　　LSI给文档检索过程增加了一个重要步骤。这种信息检索技术除了能够记录一个文档包含哪些关键词之外，还可以把一个网站的文档集合作为一个整体来检查，看看还有哪些文档包含这些关键词。LSI认为，若文档含有大量的共同单词，则可表明这些文档在语义上具有很大的一致

或相近性，反之则说明这些文档在语义上的关系较远。这种方法虽然简单，却能够和我们人类在阅读文章内容，然后对一个文档集合进行归类的方式上有着惊人的吻合。虽然LSI检索算法无法理解单词的具体含义，但它对信息的这种检索方式却能够让它看起来似乎有惊人的智能。

　　对于一个通过LSI技术检索的数据库，当用户查询时，搜索引擎会查看它对每个文档内容的单词计算出的相似性值，然后把它认为最符合用户查询要求的文档返回给用户。由于即使不具有共同的关键词，但根据LSI分析的结果，两个文档之间在语义上很接近，所以采用LSI技术的搜索结果无需严格匹配，只需在语义上与查询词语匹配即可。当对用户查询的某一查询条件没有包含关键词的文档与之严格匹配时，LSI往往返回一些虽然根本不包含查询关键词，但内容却与查询条件相关的文档搜索结果。

　　我们来看一个实例：假如我们已经通过LSI技术对一些数学方面的文章进行过检索，又假如“n维”、“流形”“拓扑”这三个术语在这些文章中一同出现过多次，那么搜索引擎算法将会注意到这三个术语在语义上具有相近性。当用户查询“n维流形”时，搜索引擎不但返回一组包含“n维流形”这个查询词语的文章，还会把那些虽然不包含这个词语，但含有“拓扑”这个词的文章结果一并返回给用户。这是因为，虽然搜索引擎对数学一无所知，但通过对大量文章的检查已经教会它知道这三个术语之间是有关联的。所以它利用这一信息对搜索结果进行了拓展，改进了搜索效果。

　　五、LSI对搜索引擎优化的重要性

　　在了解了LSI的基本工作原理之后，再回过头来看被一些人视为真理的所谓“若不在回向链接文字中包含网站的主要关键词，则无疑是对这条回向链接的浪费”的观点，我们可以发现这种说法是没有根据的。也许在不久的将来，隐含语义检索技术会在那些主要的搜索引擎中得到更为全面的应用，而隐含语义检索的这种理念将可以证实上面那种“链接中必须包含主关键词”的说法是错误的。

　　当用户在用搜索引擎查询信息时，隐含语义检索可以帮助人们克服“词汇不匹配”的问题。单个的词语有时往往无法提供对于一个文档的概念含义的可靠证据。例如，一个和“laptop”高度相关的网页可能根本不会使用“notebook”这个词，但我们都清楚，“laptop”本身就有“notebook”的意思。对于任何给定的查询主题，LSI技术可以利用统计技术创建一个语义分析。在实践中，这就意味着一个网页上即使并没有包含某特定关键词，它也可以被认为是和那个关键词具有相关性。就拿上面的例子来说吧，即使网页里从来没有出现过“notebook”这个词，一旦LSI技术分析结果决定了“notebook”在语义上和“laptop”这个单词具有相关性，那么搜索引擎一样会认为这个网页和“notebook”具有相关性。

　　这一原理同样适用于回向链接。即使回向链接的锚文字中没有包含网站的主要关键词，只要其中包含了同义或相关的词语，搜索引擎一样会认为这条链接和网站的主关键词有着一定程度的关联，从而给这条外部链接一定的权值。

　　六、怎样知道我的关键词和哪些概念关联

　　想要知道Google对你的查询关键词怎么想吗？很简单，只要使用Google的语义查询功能，即在查询关键词前加一个“～”符号，就可以看到和你的查询词语相关的一些词语。例如在Google搜索框中输入“~Soda”，出现在搜索结果中首页位置的是百事可乐、可口可乐这些大公司，而输入“~phone”出现在搜索结果第一位的是诺基亚的网站。同样，要想看到Google的正常搜索结果，只需去掉“～”符号即可。

　　七、链接发展的最佳实践：变换链接文字

　　搜索引擎业界普遍猜测LSI技术已在Google搜索中得到应用。其实在搜索引擎论坛中一直有着类似的传言，即Google在其最新的搜索排名算法更新中加大了对LSI隐含语义搜索技术的应用比例。这种说法的根据是：Google已将这一技术应用到其广告服务中有一段时间了，用来决定AdSense服务的广告内容。目前种种迹象似乎表明Google同样把这一技术理念应用到了搜索算法中，借以提高搜索服务的质量。

　　倘若Google确实采用了这一信息检索新技术，而且随着那些被搜索引擎认为采用了“不正常”锚文字的网站遭到处罚的案例的增多，我们不难看出，随着搜索引擎在搜索算法上的不断更新和完善，即使针对一个关键词，但采用该关键词的多种不同形式来组织成链接内容，也有可能触犯

搜索引擎相当发达的惩罚机制。因此我们有理由相信，对网站实施搜索引擎优化的目标已经不能再象以往那样锁定在一个关键词身上，正确的做法应该是针对一组语义相关的关键词来组织链接文字内容。可以根据网站的某一主要关键词，并以该关键词及其同义关键词作为优化对象，对网站的一些页面围绕这些关键词而不只是主关键词进行适当的优化。在和其它网站交换链接时，也不要只用网站的主关键词作为锚文字内容，而是围绕该关键词的各种变化形式和同义词撰写锚文字。

分享到：