本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737
欢迎加入Heritrix群(QQ):109148319
以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功、失败、重定向等。Heritrix自己也根据自己的需求增加了一些,同时由于Heritrix通过HttpClient去获取网络资源,其中一部分HttpStatus Code也来源于HttpClient,接下来我会逐个介绍。
有兴趣的朋友可以看下源代码中各个HttpStatus Code的不同应用场合和作用,可以说贯穿了真个抓取,设计得相当灵活。如只想大致了解下,可以参考org.archive.crawler.datamodel.FetchStatusCodes,里面有不同的HttpStatus Code以及英文注释。
序号 | Heritrix属性 | Heritrix属性值 | 说明 |
1 | S_UNATTEMPTED | 0 | 初始状态 |
2 | S_DNS_SUCCESS | 1 | DNS获取成功 |
3 | S_DOMAIN_UNRESOLVABLE | -1 | DNS获取失败,该状态的URL会继续被抓取 |
4 | S_CONNECT_FAILED | -2 | 连接HTTP失败,该状态的URL会继续被抓取 |
5 | S_CONNECT_LOST | -3 | 连接HTTP掉线,该状态的URL会继续被抓取 |
6 | S_TIMEOUT | -4 | 连接HTTP超时,该状态的URL会继续被抓取 |
6 | S_RUNTIME_EXCEPTION | -5 | 运行意外,该状态的URL会记录在runtime-errors.log日志中 |
7 | S_DOMAIN_PREREQUISITE_FAILURE | -6 | 运行先决条件(也就是DNS)失败 |
8 | S_UNFETCHABLE_URI | -7 | 非法的URL,URL不符合规则。Heritrix也自定义了规则去限制URL |
9 | S_TOO_MANY_RETRIES | -8 | 多次尝试都是失败,Heritrix可以让未成功的URL尝试多次 |
10 | S_DEFERRED | -50 | 该URL准备先获取先决条件URL(也就是DNS) |
11 | S_UNQUEUEABLE | -60 | 没有通过调度器(Frontier) |
12 | S_ROBOTS_PREREQUISITE_FAILURE | -61 | 获取DNS失败,被爬虫协议(robots.txt)拒绝 |
13 | S_OTHER_PREREQUISITE_FAILURE | -62 | 获取DNS失败的其他原因 |
14 | S_PREREQUISITE_UNSCHEDULABLE_FAILURE | -63 | 获取DNS失败,该Host不在范围中(也就是用户定义的Url抓取范围) |
15 | S_GETBYNAME_SUCCESS | 1001 | 通过URL获取IP成功 |
16 | S_SERIOUS_ERROR | -3000 | 严重错误,比如内存溢出 |
17 | S_DEEMED_CHAFF | -4000 | 完全无用,可忽视的URL |
18 | S_TOO_MANY_EMBED_HOPS | -4001 | 超出层数限制,也就是抓取深度,这里是抽取出来的连接 |
19 | S_TOO_MANY_EMBED_HOPS | -4002 | 超出层数限制,也就是抓取深度,这里是嵌套的连接 |
20 | S_OUT_OF_SCOPE | -5000 | URL超出范围 |
21 | S_BLOCKED_BY_USER | -5001 | 被用户拒绝,heritrix可以配置很多规则(Rule)去过滤一部分Url |
22 | S_BLOCKED_BY_CUSTOM_PROCESSOR | -5002 | 在预处理模块被阻止 |
23 | S_BLOCKED_BY_QUOTA | -5003 | 超过抓取成本,Heritrix可以配置抓取一个URL的成本 |
24 | S_BLOCKED_BY_RUNTIME_LIMIT | -5004 | 超过抓取时间,Heritrix可以配置抓取一个URL的用时 |
25 | S_DELETED_BY_USER | -6000 | 被用户删除 |
26 | S_PROCESSING_THREAD_KILLED | 7000 | heritrix可以多线程抓取,用户可以删除线程,当前状态就表示运行该URL的线程被删除 |
27 | S_ROBOTS_PRECLUDED | -9998 | 被爬虫协议(robots.txt)拒绝 |
28 | |||
29 |
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
heritrix学习源码和资料
Heritrix的文件结构分析 各个类说明 配置文件order_xml介绍....
Lucene 2.0+Heritrix 源码 csdn 开发自己的搜索引擎——Lucene 2.0+Heritrix
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425
heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件
heritrix1.14.4源码+项目
Heritrix+Lucene+Dwr 搜索引擎框架包 多次开发中使用的 据对可用
从网上找得应该是中文Heritrix源码最详细的说明了。折腾了好久,没有把网页打成chm,只能打个exe用用。
Lucene Heritrix 搜索 Lucene Heritrix csdn
开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
heritrix-1.14.4爬虫框架及源码
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
heritrix 中文API (自己整理),网络爬虫,只包含关键的类的介绍
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
heritrix-3.2.0的源码,有意学习爬虫的童鞋,可以研究下源代码!
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页