`
johnnyhg
  • 浏览: 343165 次
  • 来自: NA
社区版块
存档分类
最新评论

搜索引擎优化基础,第 3 部分: 让 Web 页面进入搜索引擎索引

    博客分类:
  • web
阅读更多
作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的第 3 部分中,您将学习如何让 Web 站点的页面进入搜索索引。

Web 搜索是热点,而且越来越热门。四分之三的 Web 用户经常进行搜索,64% 的 Web 用户以搜索作为寻找信息的主要方法(参见 参考资料 中相关研究的链接)。这些用户会找到您的站点吗?您的 Web 站点会错过机会吗?

在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词规划和优化的基础知识(第 2 部分)。

在 第 3 部分中,我们重点介绍让 Web 站点的页面进入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 这样的搜索引擎在用户进行搜索时使用的数据库。如果 Web 页面没有被编入搜索引擎的索引,那么引擎就不会找到它,所以将页面添加到索引中是取得 SEO 成功的关键一步。

我的站点上有多少页面进入了索引?

如 果想知道您的站点上有多少页面进入了索引,那么先做个简单的测试。进入 Google 或者您喜欢的其他搜索引擎,搜索您公司的名称。如果公司名称是一个常见名称(比如 AAA Plumbing 或 Acme Industries),那么再加上地区(AAA Plumbing Peoria)或公司最出名的产品(Acme Industries sheet metal),看看您的站点是否被找到了。

如果发现一个 Web 站点根本 没有被编入搜索索引中,那么通常有两个原因:

  • 站点是新的。如果 Web 站点是刚刚建立的,而且在搜索索引中没有其他站点链接到它,那么搜索引擎还没有发现它。在这种情况下,只需让其他某些站点链接到您的站点。
  • 站点被禁止了。如果搜索引擎认为您的站点采用了不道德的(即黑帽)SEO 做法,就可能会从它们的索引中删除您的所有页面。如果您发现自己处于这种糟糕的境地,那么找一位搜索营销专家来对站点进行分析并找出违反道德的地方,在纠正问题之后,向搜索引擎请求予以 “宽恕”。

如 果幸运的话,在搜索引擎中输入公司名称时,至少会找到您 Web 站点上的一个页面。通常情况是任何特定的搜索引擎只将您的部分页面编入了索引中,但是如果几乎所有页面都被编入了索引,就更好了。没有编入索引的页面越 多,您站点的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。

包含率

首先,计算包含率(inclusion ratio),也就是被搜索引擎编入索引的页面占总页面数的百分比。当然,理想的包含率是 100%,但是稍微低一些也可以让人满意。如果页面中只有不到 50% 被包含在搜索索引中,那么就要认真对待了。

为了计算包含率,将搜索引擎索引中的页面数除以您站点上的页面总数。如果您的 Web 站点相当小,那么估算站点的页面总数可能很容易,但是对于大型站点,有时候很难查明有多少个页面。对于大型站点,可以使用几种方法估算页面数:

对 Web 站点的规模进行估算之后,就要查明站点中有多少页面被编入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符,它会报告您需要知道的信息。输入 site:,后面加上您的域名(比如 site:kodak.com),查看返回的结果。更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool(参见 参考资料),它会显示任何站点在每个搜索索引中的页面数。





回页首


爬行器路径

如果计算包含率的结果很糟糕,那么该怎么办呢?首先,我们回顾一下搜索引擎如何将页面编入索引。搜索引擎使用专门设计的称为爬行器(spidercrawler)的程序来检查站点上的页面。

爬 行器收集每个页面的 HTML,并记录到其他页面的链接,这样以后它就可以去收集这些页面的 HTML。您可以想像到,经过足够长的时间之后,爬行器最终会找到 Web 上的每个页面(至少是每个链接到其他页面的页面)。获得页面,找到页面上的所有链接,然后获得链接到的那些页面,这个过程称为 “在 Web 上爬行”。

因为爬行器是这样工作的,创建对每个页面的链接可以简化让站点被编入索引的任务 —— 我们将这些技术称为爬行器路径(spider path)。您的站点已经包含路径,而且可能已经有了最重要的爬行器路径类型:站点地图。如果站点只包含少量页面,那么站点地图可以列出并链接到站点上的每个页面。

但是,站点地图不应该超过 100 个链接,所以比较大的站点地图必须链接到分类页面,这些页面再链接到站点上的其他页面。最大型的 Web 站点通常划分成针对各个国家的分站,这就需要特殊的站点地图,称为国家地图(country map),其中列出每个国家的名称并链接到各个国家站点的主页。爬行器非常喜欢这种技术。(参见 参考资料 中大型站点地图的示例。)

只有爬行器到了您的站点上,站点地图才会发挥作用,但是还有更加主动的使页面被编入索引的方法。Google 和 Yahoo! 都提供包含程序(inclusion program),专门用来使页面被编入索引。Google 的 beta 程序称为 Sitemaps(参见 参考资料),它是免费的,提供几种向 Google 爬行器通知页面位置的方法。甚至可以请求 Google 对您的一部分页面进行更频繁的索引更新。Yahoo! 提供一个付费的包含程序 SiteMatch(参见 参考资料),它承诺在 48 小时内对您的页面重新编制索引。(Google 对时间没有做出承诺。)

RSS feed 提供了另一种方法,可以在页面发布时使页面迅速地被编入索引。使用 Ping-O-Matic!(参见 参考资料)通知搜索引擎在 RSS feed 有了新条目,新条目常常会在一两天内被编入索引。





回页首


清理爬行器路径

徒步旅行的队伍要让开路者去探索和标出前进路线,但是开路者必须经常清理这些路径,使路径不会损毁或荒废。爬行器路径也是一样的;除非经常检查它们,否则很可能就会阻塞了。

如果您忽视了爬行器的工作方式,爬行器路径就很容易成为爬行器陷阱。对人来说很好的页面却可能阻碍爬行器。爬行器是自动的,所以不会像人类访问者那样填写注册表单。如果链接到站点上的页面所需的操作不仅仅是沿着 HTML 锚标记走,那么这个链接可能会对爬行器隐藏。

这意味着 JavaScript、Flash、frames 和 cookie 也会造成问题。如果您的 Web 页面没有这些技术就根本无法显示,那么页面就不会被爬行器编入索引。另外,如果用户需要这些技术才能使用链接,那么爬行器就无法沿着链接前进。

爬行器只查看 HTML 代码,就像有视力障碍的用户所用的屏幕阅读器一样。要想体会一下爬行器看到了什么,可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx Viewer(参见 参考资料)。如果页面可以使用 Lynx 完整地显示,那么它们很可能能够被编入索引。根本不显示或者显示得很不完整的页面不容易被搜索引擎找到。

即使您避免使用这些惹麻烦的技术,仍然可能会给爬行器造成阻碍。爬行器对 HTML 代码的正确性要求非常严格 —— 浏览器就要宽容多了。在浏览器中看起来很好的页面却可能阻碍爬行器,这会使爬行器看不到或误解整个页面或部分页面。HTML 检验服务(参见 参考资料)和 Firefox 浏览器可以发现这些错误。

还 必须注意爬行器对每个页面的内容大小限制。大多数爬行器只对页面中的前 100,000 个字符编制索引。这个数字听起来似乎很大,但是如果在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放进一个 PDF 文件中,那么很快就会达到这个限制。所以,可以考虑将手册分割为每章一个 PDF,并将所有 JavaScript 和样式表代码转移到外部文件中。





回页首


欢迎爬行器

清 理了爬行器路径之后,必须确保爬行器是受欢迎的。最明显的建议是,当爬行器到达时,确保站点正在运行,能够做出响应。因为不知道爬行器什么时候会访问您的 站点,频繁地停机(即 “维护时间窗”)会有风险,如果爬行器在站点停机时到来,它就会认为站点是失效的,从而转到其他站点去。

如果站点的响应速度非常慢,这几乎和完全失效一样糟糕,因为爬行器是按进度计划运行的。对于缓慢的站点,它们编入索引的页面更少,而且再次访问的频率更低,因为在同样的时间内它们能够在其他地方处理更多的页面。

即使您的站点通常不停机而且速度很快,仍然有可能由于错误地编写了机器人指令(robots instruction) 而将爬行器拒之门外。可以使用 robots.txt 文件让爬行器避开某些页面、目录或整个站点,所以如果站点的指令编写错了,就可能赶走爬行器。另外,每个页面都可以有一个 robots 标记,它指示爬行器是否将这个页面编入索引,以及是否沿着其中的链接前进(参见 参考资料。)





回页首


留住爬行器

即使您的站点欢迎爬行器,也不能保证它以后不会遗弃这个站点。

会 阻碍爬行器的一个问题是对页面使用长的动态 URL。许多动态 URL 需要用参数来选择要显示的内容,比如来自 Canada 产品目录的产品 2372 的法文说明。爬行器很反感这些动态站点,因为参数的组合几乎是无穷的 —— 爬行器不希望在站点中迷路。当爬行器看到 URL 超过 1,000 个字符或者其中的参数超过两个时,它们往往会跳过这些页面。

如果您的站点存在这些有问题的 URL,就必须参考 Web 服务器的文档,研究如何改变 URL 的形式以使爬行器满意。例如,Apache 使用 “mod_rewrite” 功能(参见 参考资料)修改 URL,其他 Web 服务器也有相似的功能。

所 谓的 “会话标识符” 也会吓走爬行器。一些程序员在 URL 中创建一个参数,用来捕捉关于当前访问者的信息(常常用 “id=” 加上惟一的字母数字编码来标识)。爬行器很讨厌这种技术,因为它导致成百上千的不同 URL 显示同样的内容。程序员应该将这一信息存储在 Web 应用服务器的会话层或者 cookie 中。(但是,正如前面讨论的,显示页面应该不需要 cookie,否则爬行器无法将它编入索引。)

分析了动态页面之后,还要注意另一个可能给页面造成麻烦的问题。重定向 这种技术告诉浏览器和爬行器请求的 URL 已经改变了。例如,如果您的公司改名了,它可能也会改变 Web 站点的域名,所以重定向可以将来自旧 URL 的所有访问者转到新的 URL。但是,对于爬行器有效的重定向方法只有一种:服务器端重定向,也称为 301 重定向(参见 参考资料)。其他重定向技术对浏览器是有效的,比如元刷新重定向和 JavaScript 重定向,但是爬行器无法沿着这些重定向的路径前进,这会使重定向的页面不被编入搜索索引。





回页首


结束语

显然,页面必须先被编入索引,然后搜索引擎才能找到它们,但是大多数页面没有被编入索引。在 1999 年,所有 Web 页面中大约有 16% 被搜索引擎编入了索引,但是几年之后,这个比例大大下降了:在 2001 年,估计只有 0.03% 的页面被编入了索引。

既然这个比例如此低,您的站点中很可能有许多页面没有被编入索引,因此这些页面不可能被搜索到。您现在知道应该如何解决这个问题了。

但是,仅仅进入搜索索引还不够。在这个 SEO 系列的第 4 部分中,我们将讨论大型 Web 站点特有的一些搜索营销问题,比如如何对动态页面进行优化、如何跨多国站点工作以及如何让大型团队进行协同工作。



参考资料

学习

获得产品和技术
  • OptiSpider($98)或 Xenu(免费应用程序):查明站点中有多少个页面。
  • Marketleap 的免费工具 Saturation Reporting Tool:查明任何站点在每个搜索引擎中编入的页面数。
  • Google Sitemaps:请试用这个包含程序的免费 beta 版本。
  • Yahoo! Small Business SiteMatch:请研究这个付费的包含程序,它承诺在 48 小时内对您的页面重新编制索引。
  • Ping-O-Matic!:它会通知搜索引擎在 RSS feed 有了新条目。
  • Lynx 浏览器:用这个文本模式的浏览器体会一下页面阅读器(和搜索引擎爬行器)如何看待您的站点。
  • Lynx Viewer:如果不想下载 Lynx 浏览器,可以使用这个工具。
  • W3C Markup Validation Service:用这个免费服务来检查 HTML 和 XHTML Web 文档是否符合 W3C Recommendations 和其他标准。

讨论


作者简介

Photo of Bill Hunt

Bill 负责一个 Search Engine Marketing Strategists 团队,他们帮助财富二百强公司用全球化视角管理企业的 SEM 规划。Bill 当前被认为是企业和国际 SEM 策略方面最出色的专家,他是受到高度好评的 Search Engine Marketing, Inc.(由 IBM Press 出版)一书的合作作者。Bill 获得了马里兰大学(东京校区)的亚洲研究和日语 B.A. 学位,以及加利福尼亚州立大学(洛杉矶)的国际商务学士学位。他还是海军陆战队的退伍兵。


Photo of Mike Moran

Search Engine Marketing, Inc. 一书的合作作者 Mike Moran 是一位 IBM Distinguished Engineer,他在 IBM Research、Lotus 和其他 IBM 软件方面从事搜索技术研究已经超过了 20 年。他在 1989 年领导了开发第一个商业语言学搜索引擎的产品团队,并获得了搜索和检索技术方面的四项专利。他领导过 ibm.com 最初的搜索引擎营销策略的开发,以及与 ibm.com 的站点搜索技术的集成。除了搜索技术之外,他还在内容管理、个性化和 Web 尺度方面的 ibm.com 项目中发挥先锋作用。Mike 当前是 ibm.com Web Experience 的经理,负责站点的设计、信息架构、技术架构和运作。

评论

相关推荐

    Lucene搜索引擎开发权威经典 光盘

    应用本书介绍的所有知识构建一个桌面搜索引擎和一个Web搜索引擎。这部分作为对前面所有内容的总结。第6部分:Nutch搜索引擎框架。介绍了基于Luceng的完整搜索引擎Nutch。 本书适合从Lucene初学者到高级开发人员之间...

    搜索引擎优化高级编程(PHP版)

    第3章 友好的搜索引擎URL地址 3.1 为什么URL地址重要 3.2 动态URL地址和静态URL地址 3.2.1 静态URL地址 3.2.2 动态URL地址 3.2.3 URL地址与网站单击率 3.2.4 URL地址与重复内容 3.3 真实世界的URL地址 3.3.1 实例#1...

    基于JAVA JSP搜索引擎的研究与实现的毕业设计,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明

    新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了...

    搜索引擎的设计与实现

    新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了...

    利用开源工具搭建小型搜索引擎

    基于开源搜索引擎工具(如Heritrix +Lucence,或Nutch+Solr),搭建独立完整的搜索引擎测试平台。 2)垂直搜索行业信息:...3)搜索测试:搭建web平台(建议通过Tomcat实现),通过web平台实现垂直搜索引擎系统的搜索功能。

    爬虫搜索引擎实例有兴趣的朋友可以研究一哈

    Spider发现的一切都进入到搜索引擎的第二个部分:索引。有时索引叫做目录,像一本包含有spider发现的每一个web页的巨书,如果有一个web页发生变化,于是此书就会更新新的信息。 有时对于新页面或spiders加到索引中...

    深入搜索引擎:海量信息的压缩、索引和查询 (高清带书签版)

    《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给...

    深入搜索引擎--海量信息的压缩、索引和查询

    《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给...

    深蓝搜索引擎dbse.rar

     深蓝搜索引擎由面向用户的Web搜索界面、自动网页索引机器人深蓝之蛛、发布广告和进行关键词竞价排名的深蓝商务中心和独立的数据库系统几大部分组成。其中前台WEB部分用ASP编写,后台数据库采用Microsoft SQL ...

    Webinfo自动化搜索引擎系统 v1.41

    可以让中小网站也有有自己特色的搜索引擎。适合与于对某一指定领域里的网站进行搜索,比如建立一个内网的搜索引擎。 升级内容: 1.增加屏蔽网址功能 。 2.修正上一版本处理网页重定向时判断部分网址的错误。3....

    Web下搜索引擎的设计与实现.doc

    因为搜索引擎这一技术很好的解决了用户搜索网上大量信息的难题,所以在当今的社会,无论是发展迅猛的计算机行业,还是作为后起之秀的信息产业界,都把Web搜索引擎的技术作为了争相探讨与专研的方向。 搜索引擎的...

    SOPI垂直搜索引擎系统 V2.2

    SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个多功能垂直搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。 SOPI垂直搜索引擎系统的应用特点 外网搜索...

    搜索引擎优化高级编程(PHP版)----中文版

    这本独特的手册专门为PHP开发人员或涉足技术的营销人员编写,为创建和维护针对搜索引擎进行优化的Web站点提供了各种技术,包括如何通过简化站点的索引及如何通过协调专业技术和服务来提升自己的站点。本书将指导您...

    横瓜垂直搜索引擎V3.2-横瓜Windows平台的垂直搜索引擎

    横瓜垂直搜索引擎,是Windows平台的垂直搜索引擎(不提供网络爬虫),最大可容量6000万条记录。 对于100万条记录规模的数据库,可在2分钟内完成所有架构工作。横瓜垂直搜索引擎分词速度约为 2500万字/分钟,约占99.984...

    应用Web挖掘的主题元搜索引擎的设计与实现

    本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题...

    搜索引擎代码

    3.对搜索列表页面进行SEO处理,避免百度、Google等搜索引擎陷入链接陷阱。 2010.12.17升级(0.95版本) 0.95版升级的主要内容如下: 1.提高系统稳定性:优化蜘蛛抓取网页时索引建立的方式,避免因服务器异常,...

    智能化WEB信息搜索引擎的研究与实现

    比较分析了已经存在的各种搜索引擎系统,并在此基础上实现了两种类型的搜索引擎系统:基于目录的搜索引擎系统和基于机器人的综合式搜索引擎系统,这两种类型的系统相互联系、相互补充形成了一套智能化Web信息搜索...

    基于Lucene.Net 的桌面搜索源代码

    打造自己的桌面搜索引擎 ...注意:本DEMO意在让搜索引擎初学者快速学习相关知识,机器要装.NET 2.0 ,本身技术含量不过, 读者可在此基础上加入,中文分词,高级语法解析,自己用足以。你真诚的朋友--左手也疯狂

    ES的搜索引擎的设计与实现源码.zip

    本系统以SpringBoot基础框架整合其他技术设计和搭建而成,选用webmagic框架实现单节点的网络爬虫系统,爬虫的生命周期为链接提取、页面下载、内容抽取、持久化...最后实现一个简单的web搜索页面,来模拟搜索引擎客户端

    自己动手写搜索引擎(罗刚著).doc

    第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15...

Global site tag (gtag.js) - Google Analytics