驯服爬虫 Heritrix
坛主前些日子罗列一下所有的开源爬虫! 此帖 : http://www.opensourceforce.org/thread-349-1-1.html
我就来具体介绍一下怎么使用吧! Heritrix 它不单单是一个爬虫,他还它的 Web 控制端,是通过启动 Web 来控制爬虫的行为的
怎么使用 Web 启动来控制就看这里吧 ! 我不多介绍了 http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=72
现在传统类型的 Heritrix 的最新版本是 heritrix-1.14.0 ,而 heritrix-2.0.0 则是开辟了新的路径,老版本(2.0.0之前的版本)主要是通过 Web
控制,而 2.0.0则在支持 Web 控制的前提下,使用了 jmx 远程控制,同时更新了 heritrix 的配置文件的配置方式。
上面介绍了 heritrix 新版本的信特性,但我想大多数跟我一样,使用 heritrix 之希望使用 Heritrix 的爬虫部分,下面我就来介绍怎么使用通
过程序启动 heritrix , 通过自己的程序来控制 Heritrix 。
有于最近时间比较紧,下学期就大四了,要为自己的工作忙碌了,所以没有太多的时间来研究开源项目了。所以最新的 Heritrix 2.0.0
也只是简单的看了一下,但 Heritrix 的爬虫核心代码并没有改变,只是添加了 jmx 远程控制的功能。
不过我这边还是以 Heritrix 1.14.0 版本为例来使用,这个我更加熟悉一点,呵呵!
首先是去官网下载 Heritrix 1.14.0 的 二进制 版本,解压后取出 heritrix 1.14.0.jar 这个是主要的包,还会以来一些其它的包,根据我
多次的测试,如果单单是解析 html 网页,只需要依赖另外的这 10 个包。
heritrix 1.14.0.jar
httpclient.jar
commons-collections.jar
je.jar // oracle 的 java 版 嵌入式数据库
dnsjava.jar
mg4j.jar
fastutil.jar
commons-codec.jar
libidn.jar
commons-logging.jar
commons-lang.jar
需要的注意的是在的导入包的时候一定要按照我上面给出的顺序一个一个导入
,熟悉 Heritrix 的朋友清楚
heritrix 有一个非常重要的配置文件, 那就是 order.xml 文件。 对于这个文件我给一个模板给大家吧! 这个模板文件是具备的最简单
运行要求,也就是当你用这份配置文件的话会将整个目标网站的镜像搬到本地的 Heririx 工作目录。
这份模板看这个联接看把: http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=73
再上面的一切准备好了就可以开始编程了。
XMLSettingsHandler handler = new XMLSettingsHandler(new File(orderFilePath));
handler.initialize();
CrawlController controller = new CrawlController();
controller.initialize(handler);
CrawlContrller 就之爬虫的控制器了,在这个控制器中定义了控制爬虫的所有行为,因此通过上面的代码片段就完成了 Herireix 的初始化
并获得爬虫的控制对象,现在我们就可以同过这个 controller 对象来驯服 heritrix 了。
注意上面的 orderFilePath 就是 order.xml 的文件路径了。
通过调用 controller.requestCrawlStart(); 启动爬虫
调用 controller.requestCrawlPause(); 暂停
调用 controller.requestCrawlResume(); 恢复
调用 controller.requestCrawlStop(); 停止爬虫
具体的使用看 API 吧!
先介绍到这里吧! 如果有说得不明白的地方大家回帖提吧! 我尽量把 Heritrix 的使用说明白!
下面这些图是 heritrix 爬虫部分的核心设计图 ,如果不明白 heritrix 流程的可以看一下下面的图。
分享到:
相关推荐
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
爬虫heritrix资料 完整的爬虫heritrix资料,希望对你有帮助
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
Heritrix is the Internet Archive′s open-source, extensible, web-scale, archival-quality web crawler project. ...Heritrix是互联网档案馆的开放源码的,可扩展,网络规模,档案质量的网络爬虫项目。
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑
简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制
在做搜索引擎上经常使用的网络蜘蛛。 关于heritrix安装和代码都有
Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta ...
基于Heritrix的主题网络爬虫设计与实现,论文
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...
基于_Heritrix_网络爬虫算法的研究与应用
Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取
heritrix-1.14.4爬虫框架及源码
安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...
一个java的网络爬虫程序。heritrix-1.14.0-src