本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618
欢迎加入Heritrix群(QQ):109148319
每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图:
以上就是Heritrix完成的文件结构,现在一一说明
序号 | 文件名 | 说明 |
1 | order.xml | Heritrix运行的所有配置,一个order.xml就代表一个抓取任务 |
2 | seeds.txt | 种子文件,Heritrix从里面的URL开始抓取 |
3 | state | Heritrix采用BDB去保存URL,这个目录就是bdb目录 |
4 | scratch | 保存网页内容,每一个URL网页内容都对应一对ris和ros文件 |
5 | logs | 保存了Heritrix抓取时的日志,会这种介绍。可以从这些日志文件挖掘抓取情况 |
6 | checkpoints | 等同于数据库的checkpoint,Heritrix可以设置定时,然后定时备份其所有文件,也就是这里介绍的所有文件。同时在做这个操作的时候Heritrix暂停所有抓取. |
7 | seeds-report.txt | 种子抓取汇报,主要针对seeds.txt里的种子URL做个说明。等下会详细说明... |
8 | responsecode-report.txt | 抓取URL的服务器响应代码以及该代码的URL个数。等下会详细说明... |
9 | processors-report.txt | 每个处理器的抓取报告,等下会详细说明 |
10 | mimetype-report.txt | 网页类型抓取汇报,等下会详细说明 |
11 | frontier-report.txt | 调度器处理报告,等下会详细说明 |
12 | crawl-report.txt | 抓取汇报,等下会详细说明 |
13 | crawl-manifest.txt | 里面包含了Heritrix涉及到的文件 |
14 | hosts-report.txt | 域抓取汇报,等下会详细说明 |
现在重点说明一下Heritrix的所有日志文件:
1.抓取汇报文件:crawl-report.txt
抓取名字:Crawl Name
抓取状态:Crawl Status
抓取用时:Duration Time
成功抓取的种子数:Total Seeds Crawled
没有抓取的种子数:Total Seeds not Crawled
共抓取的host个数:Total Hosts Crawled
共抓取的文档数(URL数):Total Documents Crawled
处理速度(文档/秒):Processed docs/sec
宽带速率(KB/秒):Bandwidth in Kbytes/sec
抓取的字节数:Total Raw Data Size in Bytes
共抓取的字节数:Novel Bytes: 11644599984 (11 GB)
2.调度器汇报:frontier-report.txt
1)队列描述:
处理中队列:IN-PROCESS QUEUES
准备队列:READY QUEUES
延迟队列:SNOOZED QUEUES
不在活动状态队列:INACTIVE QUEUES
退休队列:RETIRED QUEUES
2)属性描述:
queue:队列ID,为class key
currentSize:当前队列包含URL个数
totalEnqueues:进入该队列的URL个数
sessionBalance:预算值
lastCost:上一个URL所花费成本
(averageCost):平均成本
lastDequeueTime:上一个URL出队列的时间
wakeTime:醒来的时间
totalSpend/totalBudget:总花费
errorCount:出现错误的URL个数
lastPeekUri:上一个获取的URL
lastQueuedUri:上一个进入队列的URL
3.抓取host汇报(按urls个数从大到小排序):hosts-report.txt
[#urls]:该host下URL个数
[#bytes]:该host下所抓取的字节数
[host]:host
[#robots]:被爬虫协议拒绝的url个数
[#remaining]:剩下还未处理的URL个数
4.网页类型(一般为text/dns和text/html)抓取汇报:mimetype-report.txt
[#urls]:该网页类型的url个数
[#bytes]:该网页类型一共处理的字节数
[mime-types]:网页类型(text/dns和text/html)
5.处理器汇报:processors-report.txt
1)总体汇报:Processors report
Job being crawled:该JOB来源的JOB
Number of Processors:处理器个数,包括无效的处理器
NOTE:处理器说明
2)单个Processor汇报:
Processor:处理器名
Function:处理器功能
CrawlURIs handled:该处理器下处理的URL个数
Recovery retries:
Links extracted:抽取出来的URL个数
6.Http response汇报:responsecode-report.txt
[rescode]:Http response code
1:请求http
200:http成功相应
302:暂时性重定向
500:http服务器内部错误
[#urls]:是该code的URL个数
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
heritrix学习源码和资料
Heritrix的文件结构分析 各个类说明 配置文件order_xml介绍....
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
Lucene 2.0+Heritrix 源码 csdn 开发自己的搜索引擎——Lucene 2.0+Heritrix
heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件
Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
heritrix1.14.4源码+项目
Heritrix+Lucene+Dwr 搜索引擎框架包 多次开发中使用的 据对可用
从网上找得应该是中文Heritrix源码最详细的说明了。折腾了好久,没有把网页打成chm,只能打个exe用用。
Lucene Heritrix 搜索 Lucene Heritrix csdn
开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)
heritrix-1.14.4爬虫框架及源码
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
heritrix-3.2.0的源码,有意学习爬虫的童鞋,可以研究下源代码!
Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能...