`
longgangbai
  • 浏览: 7253046 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

搜索引擎蜘蛛工作原理

阅读更多

网站能在搜索引擎被搜到,归功于搜索引擎蜘蛛抓取的功劳,权重高,更新快的网站,搜索引擎蜘蛛会经常爬行,抓取网站最新数据,经过搜索引擎数据整理后,在搜索引擎上就能搜索到网站的网页,为了更好的SEO优化网站,了解搜索引擎蜘蛛爬行规则也是相当重要的,怎么才能知道搜索引擎蜘蛛在爬行网站时间、爬行网页、爬行反映呢,就要查看网站iis日志文件, iis默认的日志文件在C:\WINDOWS\system32\LogFiles中

,从查看日志中,就可以了解搜索引擎蜘蛛爬行经过,如:

2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+

(+http://www.baidu.com/search/spider.htm) 200 0 64

1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,
2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39,
3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页
4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间
5、代码中的200就代表搜索引擎蜘蛛爬行后返回代码代表,代码中可以了解蜘蛛爬行后的反映,代码如下:
6、W3SVC962713505代表网站日志所在的文件夹

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在(永久);

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

分享到:
评论

相关推荐

    搜索引擎蜘蛛机器人工作原理.pdf

    搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人工作原理.pdf搜索引擎蜘蛛机器人...

    搜索引擎工作原理

    搜索引擎工作原理 搜索引擎蜘蛛通过跟踪链接访问网站页面,获得网站页面的HTML代码存入数据库。

    JAVA搜索引擎之模仿百度蜘蛛

    模仿百度蜘蛛工作原理

    网络蜘蛛及搜索引擎原理

    高性能网络机器人是新一代Web智能搜索引擎的核心,网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后,给出了程序的关键类,有助于工程的实际...

    搜索引擎蜘蛛机器人工作原理.docx

    搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛机器人工作原理.docx搜索引擎蜘蛛...

    基于搜索引擎的网络蜘蛛实现原理的研究.pdf

    基于搜索引擎的网络蜘蛛实现原理的研究,是您学习网络蜘蛛或写毕业论文的很好的参考资料。

    Delphi模拟搜索引擎蜘蛛抓取网页内容.rar

    Delphi模拟搜索引擎蜘蛛抓取网页内容,可获取指定网址下,网页中的指定部分,由此可衔生出搜索引擎的原理,比较简单一点,部分代码来源于网络,仅供学习参考。

    ASP搜索引擎蜘蛛爬行日志生成程序.rar

    9.ASP搜索引擎蜘蛛爬行日志生成程序.rar 10.搜易网站登录器.rar 11.检查网站死链工具(xenu).rar 12.51snap(SEO快捕手).rar 13.维度统计.rar .......... 推荐seo教程: 1.Ethan对搜索引擎优化(SEO)的看法.pdf...

    C# 实现蜘蛛 类似于搜索引擎原理

    C# 实现类似于搜索引擎的一个小工具 交流QQ:459853353

    网络爬虫搜索系统.net(带蜘蛛)

    网络爬虫搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索...WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。

    seo蜘蛛爬行原理

    搜索引擎优化,蜘蛛爬行原理,让搜索引擎更好收录

    基于_网络蜘蛛原理_的搜索引擎技术剖析

    中文搜索引擎的查全率需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器(称为″网络蜘蛛″),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。...

    军长蜘蛛搜索系统完整版

    军长搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,...WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。

    搜索引擎中网络蜘蛛的设计与实现

    :文章从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。 在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了线程调度、页面爬取、解析等策略和算法,并使用...

    搜索引擎的分析与程序设计,网络爬虫抓URL的原理,基于C#

    搜索引擎的分析与程序设计,网络爬虫抓URL的原理,基于C#.

    搜索引擎系统学习与开发实践总结(相生昌).doc

    目 录 一、搜索引擎概述 3 搜索引擎的发展历史 3 搜索引擎分类 4 搜索引擎组成及工作原理 5 二、网络蜘蛛 6 概述 6 主要组成 6 关键技术 8 经验总结 8 三、切词...

    EO 蜘蛛精的原理:2000多个网站目录一起抓取您的网站的内容,或建立带有你网站关键字和

    创建网站后,让搜索引擎蜘蛛经常光临我们的网站,抓取网站的最新内容是站长们的必修课! 如果能有效吸引蜘蛛的注意力,那您的站就会很快被收录且获得较好的排名。 做网站的人都知道,只要网站被收录了就表示搜索...

    搜索引擎系统中网页抓取模块研究

    如今互联网资源迅速膨胀,搜索引擎能够...的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix 的几个关 键组件,在充分了解Heritrix 构架的基础上扩展Extractor 组件,成功实现个性化的抓 取逻辑。

    网站推广蜘蛛精

    创建网站后,让搜索引擎蜘蛛经常光临我们的网站,抓取网站的最新内容是站长们的必修课! 如果能有效吸引蜘蛛的注意力,那您的站就会很快被收录且获得较好的排名。 做网站的人都知道,只要网站被收录了就表示搜索...

    搜索引擎的原理及内部的算法.doc

    全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文...

Global site tag (gtag.js) - Google Analytics