上午说的那个方法经过试验是不起作用的。
按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在setting中没有提供配置,所以就继承了那个existing job上的配置)看来文明的是不行了,我觉定用粗鲁的方法,没错就是该HostNamesQueueAssignmentPolicy这个类的getClassKey这个方法,结果运行确实快极了,基本上达到了我这的带宽上限。
后来发现大概抓了300多网页后就开始不抓了,我一开始觉得是不是网站把我的IP给封了,重新开始一个新的JOB后发现还是下到300多时就停了,郁闷死了,网上有人说是some of your queues have, as their topmost
items, unfetchable URIs. Certain kinds of failed-fetches go into a
slow-timeout retry-cycle, and while a URI is in this cycle, nothing else
from the same queue will be tried. This is a reasonable approach when
all URIs in a queue are subject to the same network failures, but can
cause problems if the queues are mixed, and the deeper URIs would
succeed quickly, but are stuck behind topmost URIs.
过了大概不到半小时,我又惊喜的发现又继续开始抓网页了,速度也相当快,我想应该是重试一段时间还是不能下载就放弃此uri,所以过了一段时间又恢复正常。
经过了一个多小时的下载,下了2千多的网页,理论上应该是至少5千才对,经过观察发现 seed report 抛出了 Domain prerequisite failure 这个异常,有5百多个种子没有下载成功,我在想是不是种子有点多还是怎么回事....
分享到:
相关推荐
heritrix相关文档(定时任务,增量,多线程)[收集].pdf
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。 Heritrix的局限: 1。单实例的爬虫,之间不能进行...
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix是按多线程方式抓取的爬虫,主线程把任务分配给Teo线程(处理线程),每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。整个流程都在图2.1中。 (1)预取链...
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
heritrix学习源码和资料
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。
heritrix-1.14.2.zip是一个开源项目
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
heritrix heritrix heritrix heritrix heritrix heritrix
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录
Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·
heritrix3.1的默认配置,类之间的关系。