`
zhaohaolin
  • 浏览: 984676 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

驯服爬虫 Heritrix

阅读更多

驯服爬虫 Heritrix

坛主前些日子罗列一下所有的开源爬虫!    此帖  :   http://www.opensourceforce.org/thread-349-1-1.html

我就来具体介绍一下怎么使用吧!   Heritrix 它不单单是一个爬虫,他还它的 Web 控制端,是通过启动 Web 来控制爬虫的行为的

怎么使用 Web 启动来控制就看这里吧 ! 我不多介绍了    http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=72

现在传统类型的 Heritrix 的最新版本是 heritrix-1.14.0 ,而 heritrix-2.0.0 则是开辟了新的路径,老版本(2.0.0之前的版本)主要是通过 Web

控制,而 2.0.0则在支持 Web 控制的前提下,使用了 jmx 远程控制,同时更新了 heritrix 的配置文件的配置方式。

上面介绍了 heritrix 新版本的信特性,但我想大多数跟我一样,使用 heritrix 之希望使用 Heritrix 的爬虫部分,下面我就来介绍怎么使用通

过程序启动 heritrix , 通过自己的程序来控制 Heritrix 。

有于最近时间比较紧,下学期就大四了,要为自己的工作忙碌了,所以没有太多的时间来研究开源项目了。所以最新的 Heritrix 2.0.0

也只是简单的看了一下,但 Heritrix 的爬虫核心代码并没有改变,只是添加了 jmx 远程控制的功能。

不过我这边还是以  Heritrix 1.14.0 版本为例来使用,这个我更加熟悉一点,呵呵!

首先是去官网下载 Heritrix 1.14.0 的 二进制 版本,解压后取出 heritrix 1.14.0.jar 这个是主要的包,还会以来一些其它的包,根据我

多次的测试,如果单单是解析 html 网页,只需要依赖另外的这 10 个包。

heritrix 1.14.0.jar

httpclient.jar

commons-collections.jar

je.jar                             //   oracle 的  java 版 嵌入式数据库

dnsjava.jar           

mg4j.jar

fastutil.jar

commons-codec.jar

libidn.jar

commons-logging.jar

commons-lang.jar

需要的注意的是在的导入包的时候一定要按照我上面给出的顺序一个一个导入 ,熟悉 Heritrix 的朋友清楚

heritrix 有一个非常重要的配置文件, 那就是 order.xml 文件。 对于这个文件我给一个模板给大家吧! 这个模板文件是具备的最简单

运行要求,也就是当你用这份配置文件的话会将整个目标网站的镜像搬到本地的 Heririx 工作目录。

这份模板看这个联接看把:        http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=73

再上面的一切准备好了就可以开始编程了。

XMLSettingsHandler handler = new XMLSettingsHandler(new File(orderFilePath));

                                       handler.initialize();

CrawlController controller  = new CrawlController();

                             controller.initialize(handler);

CrawlContrller 就之爬虫的控制器了,在这个控制器中定义了控制爬虫的所有行为,因此通过上面的代码片段就完成了 Herireix 的初始化

并获得爬虫的控制对象,现在我们就可以同过这个 controller 对象来驯服  heritrix 了。

注意上面的 orderFilePath 就是 order.xml 的文件路径了。

通过调用  controller.requestCrawlStart();  启动爬虫

        调用   controller.requestCrawlPause();  暂停

        调用   controller.requestCrawlResume();  恢复

       调用   controller.requestCrawlStop();       停止爬虫

具体的使用看 API 吧!

先介绍到这里吧!  如果有说得不明白的地方大家回帖提吧!  我尽量把 Heritrix 的使用说明白!


下面这些图是 heritrix 爬虫部分的核心设计图 ,如果不明白 heritrix 流程的可以看一下下面的图。

分享到:
评论
1 楼 wangxiaolongbob 2011-09-04  
我大三了,在做通用搜索引擎的时候不知道该怎样用heritrix爬网页才能方便后续处理,于是去网上搜了很多,可是关于heritrix的文章千千万,却没有一篇文章是讲到点子上的,好吧!或许说没有一篇文章是能解决我的疑问的,比如说,我在seeds里面设置了很多的种子url(这些url都是主题不同的网站,比如http://www.nbofcw.com/还有http://www.nbhsrs.gov.cn/等等),那我该怎样设置heritrix,是爬的到的数据都是上述站点的子网页,不会给我爬到别的地方去,而且,我希望爬到的网页是以文字为主的文章,楼主能不能给点建议!!

相关推荐

    搜索引擎开源网络爬虫Heritrix无敌配置

    搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置

    无比强大的网络爬虫Heritrix

    无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    爬虫heritrix资料

    爬虫heritrix资料 完整的爬虫heritrix资料,希望对你有帮助

    web爬虫Heritrix.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    开源的爬虫软件Heritrix3.1.0

    开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    网络爬虫heritrix

    Heritrix is the Internet Archive′s open-source, extensible, web-scale, archival-quality web crawler project. ...Heritrix是互联网档案馆的开放源码的,可扩展,网络规模,档案质量的网络爬虫项目。

    Heritrix爬虫框架 完整版

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑

    Heritrix网络爬虫

    简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制

    网络爬虫(heritrix)代码

    在做搜索引擎上经常使用的网络蜘蛛。 关于heritrix安装和代码都有

    基于Lucene_Heritrix的垂直搜索引擎的研究与应用

    Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta ...

    基于Heritrix的主题网络爬虫设计与实现

    基于Heritrix的主题网络爬虫设计与实现,论文

    Heritrix 网络爬虫

    Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

    基于_Heritrix_网络爬虫算法的研究与应用

    基于_Heritrix_网络爬虫算法的研究与应用

    Heritrix爬虫源码

    Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取

    heritrix-1.14.4爬虫框架及源码

    heritrix-1.14.4爬虫框架及源码

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...

    heritrix-1.14.0-src 网络爬虫

    一个java的网络爬虫程序。heritrix-1.14.0-src

Global site tag (gtag.js) - Google Analytics