1、下载Heritrix 3.1
Heritrix 3.1的下载地址是:http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/ 我把heritrix-3.1.0-dist.zip和heritrix-3.1.0-src.zip两个包都下载下来,二者都会用到。将这两个压缩包分别解压。
2、建立Eclipse项目
1)新建项目
2)添加库文件
在项目中建立一个lib目录,并将heritrix-3.1.0-dist.zip解压后的lib目录下的所有jar文件(heritrix- commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar随着 代码的加入可以逐步删除)拷贝到项目的lib目录下。然后再项目属性--java Build path中将这些jar引用到项目中。
3)添加代码
将heritrix-3.1.0\engine\src\main\java(对应heritrix-engine-3.1.0.jar)添加到 Eclipse的src目录,此时Heritrix 3.1就可以运行了。为了看代码方便,还是将其他部分的代码都加入到项目,分别是:heritrix-3.1.0\commons\src\main \java目录(对应heritrix-commons-3.1.0.jar)和heritrix-3.1.0\modules\src\main \java目录(对应heritrix-modules-3.1.0.jar)。这样你就可以删除heritrix-commons- 3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使 用源代码运行。
3、运行Heritrix 3.1
Heritrix 3.1运行以后可以通过一个web服务器来管理他。但首先要将他运行起来。在org.archive.crawler有个带main函数的 Heritrix,启动它就可以将Heritrix3.1运行起来。但要设置启动参数-a admin:admin(输入启动账号),在Eclipse的 Run configuration中设置如下图:
然后运行Heritrix.java,如果一切正常你可以通过:https://localhost:8443访问Heritrix 3.1的管理网站。
不过这时系统里还一片空白,你需要建立一个网页抓取的任务(job).
4、建立和配置抓取任务
登录管理控制台(用户名admin密码admin),在管理界面首页找到如下图这个位置:
输入一个名称(如myjob),然后点击“Create”按钮。
这时候根据默认模版生成了一个抓取任务,但还不能抓取任何东西,我们需要通过配置文件的修改告诉服务器,我们要抓取什么。
在管理控制台的Job Directories中选择要配置的job(下图中myjob)
进入myjob的管理界面,如下图:
点击edit按钮,开始编辑配置文件,配置需要修改的地方如下图所示,先从简单的做起:
配置1和3的配置内容是一样的,operatorContactUrl写成http://localhost, jobName和description随便写点东西即可。
配置2则是配置搜索种子网站的列表,我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。
点击最上面的“Save changes"保存所有的配置文件。
这三个地方配置好就可以运行这个抓取任务试试了。
这时候需要执行如下操作(回到myjob的配置界面),让任务运行起来:
1)点击“build”编译当前的配置。
2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“checkpoint”按钮;
3)这时任务处于挂起状态,点击“unpause”即立即启动任务。
如果系统正常运行,会有如下类似提示信息:
在项目的jobs\myjob\20120623061610\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。
如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为 org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般 存放在项目根目录下的mirror目录下。
相关推荐
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1补丁版包括小的修改和增强将在2010年上半年,3.2.0将包含以使用简单、持续爬行和大规模爬行...
详细介绍Heritrix的配置手册,具体的操作和使用示例。
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
将hertrix配置到myeclipse中
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix...
在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。
Heritrix1.4.4安装配置使用手册,有研究索引技术的可以下载看看.
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix
Eclipse下配置Heritrix,具体配置步骤详细介绍。
Heritrix1.14.3配置流程[参考].pdf
Heritrix的安装与配置方法:文档中详细介绍了Heritrix的安装与配置,可以按照里面的方法自己安装配置。
heritrix3 灵活载入种子的方式进行了详细的介绍,通过学习可以方便的想heritrix3 载入种子!
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录
heritrix heritrix heritrix heritrix heritrix heritrix
本文通过一个淘宝信息提取的实例来说明怎么扩展heritrix3
Heritrix 配置,部署详解 在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名...