zhaohaolin

浏览: 984676 次
性别:
来自: 杭州

最近访客更多访客>>

bfs198

ymitxiavj

xuming_1980

bianrongxin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

驯服爬虫 Heritrix

博客分类：

Heritrix

Web PHP Oracle 嵌入式编程

驯服爬虫 Heritrix

坛主前些日子罗列一下所有的开源爬虫！此帖  ： http://www.opensourceforce.org/thread-349-1-1.html

我就来具体介绍一下怎么使用吧！ Heritrix 它不单单是一个爬虫，他还它的 Web 控制端，是通过启动 Web 来控制爬虫的行为的

怎么使用 Web 启动来控制就看这里吧！我不多介绍了 http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=72

现在传统类型的 Heritrix 的最新版本是 heritrix-1.14.0 ，而 heritrix-2.0.0 则是开辟了新的路径，老版本（2.0.0之前的版本）主要是通过 Web

控制，而 2.0.0则在支持 Web 控制的前提下，使用了 jmx 远程控制，同时更新了 heritrix 的配置文件的配置方式。

上面介绍了 heritrix 新版本的信特性，但我想大多数跟我一样，使用 heritrix 之希望使用 Heritrix 的爬虫部分，下面我就来介绍怎么使用通

过程序启动 heritrix ，通过自己的程序来控制 Heritrix 。

有于最近时间比较紧，下学期就大四了，要为自己的工作忙碌了，所以没有太多的时间来研究开源项目了。所以最新的 Heritrix 2.0.0

也只是简单的看了一下，但 Heritrix 的爬虫核心代码并没有改变，只是添加了 jmx 远程控制的功能。

不过我这边还是以  Heritrix 1.14.0 版本为例来使用，这个我更加熟悉一点，呵呵！

首先是去官网下载 Heritrix 1.14.0 的二进制版本，解压后取出 heritrix 1.14.0.jar 这个是主要的包，还会以来一些其它的包，根据我

多次的测试，如果单单是解析 html 网页，只需要依赖另外的这 10 个包。

heritrix 1.14.0.jar

httpclient.jar

commons-collections.jar

je.jar                            ／／ oracle 的  java 版嵌入式数据库

dnsjava.jar

mg4j.jar

fastutil.jar

commons-codec.jar

libidn.jar

commons-logging.jar

commons-lang.jar

需要的注意的是在的导入包的时候一定要按照我上面给出的顺序一个一个导入，熟悉 Heritrix 的朋友清楚

heritrix 有一个非常重要的配置文件，那就是 order.xml 文件。对于这个文件我给一个模板给大家吧！这个模板文件是具备的最简单

运行要求，也就是当你用这份配置文件的话会将整个目标网站的镜像搬到本地的 Heririx 工作目录。

这份模板看这个联接看把：       http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=73

再上面的一切准备好了就可以开始编程了。

XMLSettingsHandler handler = new XMLSettingsHandler(new File(orderFilePath));

                                    handler.initialize();

CrawlController controller  = new CrawlController();

                           controller.initialize(handler);

CrawlContrller 就之爬虫的控制器了，在这个控制器中定义了控制爬虫的所有行为，因此通过上面的代码片段就完成了 Herireix 的初始化

并获得爬虫的控制对象，现在我们就可以同过这个 controller 对象来驯服  heritrix 了。

注意上面的 orderFilePath 就是 order.xml 的文件路径了。

通过调用  controller.requestCrawlStart();  启动爬虫

      调用 controller.requestCrawlPause();  暂停

      调用 controller.requestCrawlResume();  恢复

   调用 controller.requestCrawlStop();    停止爬虫

具体的使用看 API 吧！

先介绍到这里吧！  如果有说得不明白的地方大家回帖提吧！  我尽量把 Heritrix 的使用说明白！

下面这些图是 heritrix 爬虫部分的核心设计图，如果不明白 heritrix 流程的可以看一下下面的图。

分享到：

heritrix配置篇 | 优化JVM参数提高eclipse运行速度及Java垃 ...

2011-05-09 23:02
浏览 2171
评论(1)
分类:编程语言
查看更多

1 楼 wangxiaolongbob 2011-09-04

我大三了，在做通用搜索引擎的时候不知道该怎样用heritrix爬网页才能方便后续处理，于是去网上搜了很多，可是关于heritrix的文章千千万，却没有一篇文章是讲到点子上的，好吧！或许说没有一篇文章是能解决我的疑问的，比如说，我在seeds里面设置了很多的种子url（这些url都是主题不同的网站，比如http://www.nbofcw.com/还有http://www.nbhsrs.gov.cn/等等），那我该怎样设置heritrix，是爬的到的数据都是上述站点的子网页，不会给我爬到别的地方去，而且，我希望爬到的网页是以文字为主的文章，楼主能不能给点建议！！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

驯服爬虫 Heritrix

驯服爬虫 Heritrix

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

驯服爬虫 Heritrix

驯服爬虫 Heritrix

评论

发表评论

相关推荐

heritrix3 伪装成GOOGLE进行爬取

Heritrix3.0教程 源码分析(一) Heritrix 3.0新特性新功能介绍

Heritrix3.0教程 使用入门(四) 载入种子的四种方式

Heritrix3.0教程 使用教程(三) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程 使用入门(二) 开始抓取

Heritrix3.0教程 使用入门(一) 下载安装与运行

heritrix配置篇

最近访客更多访客>>

Heritrix3.0教程源码分析(一) Heritrix 3.0新特性新功能介绍

Heritrix3.0教程使用入门(四) 载入种子的四种方式

Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程使用入门(二) 开始抓取

Heritrix3.0教程使用入门(一) 下载安装与运行