`
m635674608
  • 浏览: 4954895 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

开源爬虫: Heritrix 3.1 Windows 上安装/使用

    博客分类:
  • java
 
阅读更多
目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布)
讲了 1.14.4 版本的安装和使用
 
讲了如何扩展 1.14.4 版本其中的模块
 
本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载:
 
在 Eclipse 中的配置
首先在 Eclipse 中新建 Java 工程 MyHeritrix3。然后利用下载的源代码包根据以下步骤来配置这个工程。
 
1. 导入类库
Heritrix 所用到的工具类库都在 heritrix-3.1.0-dist.zip 的 \lib 目录下,需要将其导入 MyHeritrix3 工程。
1)将 heritrix-3.1.0-dist 下的 lib 文件夹拷贝到 MyHeritrix3 项目根目录;
2)在 MyHeritrix3 工程上右键单击选择“Build Path -> Configure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”。
3)在弹出的“JAR Selection”对话框中选择 MyHeritrix3 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。
 
2. 拷贝源代码
将 heritrix-3.1.0\engine\src\main\java 添加到Eclipse的src目录,以及:heritrix-3.1.0\commons\src\main\java 目录 和 heritrix-3.1.0\modules\src\main\java 目录。
这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。
 
3、运行Heritrix 3.1
在 MyHeritrix 工程上右键单击选择“Run As -> Run Configurations”,选择 Java Application, 确保 Main 选项卡中的 Project 和 Main class 选项内容正确,其中的 Name 参数可以设置为任何方便识别的名字。
在 argument 项中设置启动参数-a admin:admin(输入启动账号),如下图:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

然后运行Heritrix.java,如果一切正常, eclipse 运行结果如图:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

可以看到程序已经在 8443 端口运行.
你可以通过:https://localhost:8443 访问Heritrix 3.1的管理端。要注意是 https , 不是 http
打开页面后会提示输入用户名和密码,输入 admin, admin
 
4、建立和配置抓取任务
登录管理控制台(用户名admin密码admin),在管理界面首页找到如下图这个位置:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用
输入一个名称(如 test),然后点击“Create”按钮。
 
这时候根据默认模版生成了一个抓取任务,但还不能抓取任何东西,我们需要通过配置文件的修改告诉服务器,我们要抓取什么。
 
在管理控制台的Job Directories中选择要配置的job(下图中myjob)
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

点击 myjob, 进入myjob的管理界面,如下图:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用
点击 edit 按钮,开始编辑配置文件,配置需要修改的地方如下图所示,先从简单的做起:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

 
配置1和3的配置内容是一样的,operatorContactUrl写成 http://localhost, jobName和description随便写点东西即可。
配置2则是配置搜索种子网站的列表,我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。
点击最上面的“Save changes"保存所有的配置文件。
这三个地方配置好就可以运行这个抓取任务试试了。
这时候需要执行如下操作(回到myjob的配置界面),让任务运行起来:
 
1)点击“build”编译当前的配置。
2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮;
3)这时任务处于挂起状态,点击“unpause”即立即启动任务。
如果系统正常运行,会有如下类似提示信息:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

在项目的jobs\test\20131226062239\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。
 
如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下。
 
这种方式是较刻板的.因为它是直接将warcWriter bean 的 class 改了,但里面的属性还是之前类的。如果把属性的注释打开,会报错,因为 MirrorWriterProcessor 没有那些 property, 所以最好是自己再定义一个 bean. 然后在配置中引用它:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用

定义上面三个 bean. 然后再在 dispositionProcessors 中将 processors 的引用改成 mirrorWriter:
开源爬虫: <wbr>Heritrix <wbr>3.1 <wbr>Windows <wbr>上安装/使用
 
分享到:
评论

相关推荐

    heritrix3.1 官方指导手册

    heritrix3.0/3.1官方手册 原版为英文 在此基础做了部分翻译

    开源的爬虫软件Heritrix3.1.0

    开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。

    搜索引擎开源网络爬虫Heritrix无敌配置

    搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix 3.1

    heritrix3.1的默认配置,类之间的关系。

    Heritrix 3.x 用户手册

    Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 简介 它的执行是递归进行的,主要有以下 Heritrix 有Web 控制管理界面 Heritrix 有Web 控制管理...

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    web爬虫Heritrix.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    heritrix3.1

    heritrix3.1.0网络爬虫源码包,包含src和dist

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    Heritrix3手册翻译

    后续的发行H3将是3.0.1补丁版包括小的修改和增强将在2010年上半年,3.2.0将包含以使用简单、持续爬行和大规模爬行为主题的新功能。 H3的文档包括  Heritrix 3.0 and 3.1 User Guide  Heritrix 3.x API Guide ...

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    网络爬虫(heritrix)代码

    在做搜索引擎上经常使用的网络蜘蛛。 关于heritrix安装和代码都有

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix...heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:http://blog.csdn.net/kath_y/article/details/9385015

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    Heritrix网络爬虫

    简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制

    heritrix3:Heritrix是Internet Archive的开源,可扩展,网络规模,档案质量的网络爬虫项目

    Heritrix介绍Heritrix是Internet档案馆的开源,可扩展,网络规模,档案质量的网络爬虫项目。 Heritrix(有时拼写为heretrix,或者拼写错误或拼写错误,如heratrix / heritix / heretix / heratix)是女继承人(继承...

    heritrix3.2源码

    heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件

    Heritrix在Windows下的运行

    NULL 博文链接:https://wb17534806.iteye.com/blog/548865

    无比强大的网络爬虫Heritrix

    无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。

Global site tag (gtag.js) - Google Analytics