文章转至 http://blog.csdn.net/fengbolaisearch/archive/2010/01/12/5178492.aspx
1. Heritrix 简介
Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。
Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。
Heritrix的操作模型:
从模型中可以看到,利用Heritrix我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。
Heritrix的整体结构简图如下:
它的工作流程是一个循环,具体流程是:
1 在预定的URI中选择一个。
2 从选择的URI的网址下载远程文件
3 分析,归档下载到的内容
4 从分析到的内容里面选择感兴趣的URI。加入预定队列。
5 标记已经处理过的URI
在大概的了解了Heritrix及它的工作机制之后,我们就可以开始Heritrix的使用了。
2. Heritrix 的配置与使用
1) 安装与配置
从官方网站http://crawler.archive.org/下载最新版本的Heritrix运行包,解压到一个文件夹内。其中,Heritrix所用到的工具类库都存于lib下,另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:heritrix.properties
在 heritrix.properties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。在"heritrix.cmdline.admin="后面增加账户和密码,比如heritrix.cmdline.admin=admin:admin 。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码。
新建一个文件Heritrix.cmd 作为启动Heritrix的命令文件,在文件内写入:
(假设文件夹路径为D:\heritrix)
运行上述脚本,在浏览器输入http://localhost:8080/,输入之前设置的用户名密码,即可进入Heritrix管理页面。
2) 新建抓取任务
(1) 单击菜单栏上的“Jobs”标签,就可以进入任务创建页面。如下图所示:
(2) 在任务创建页面中,有4种创建任务的方式,具体含义如下:
l Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表
l Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。
l Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。
l With defaults:这个最简单,表示按默认的配置来生成一个任务。
(3) 单击With defaults链接,创建一个新的抓取任务。
(4) 在新建任务的名称上,填入任务名称。在Description中随意填入字符,然后再在seeds框中,填入待抓取的起始网址。如下图所示:
面中,有4种创建任务的方式,具体含义如下:
l Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表
l Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。
l Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。
l With defaults:这个最简单,表示按默认的配置来生成一个任务。
(3) 单击With defaults链接,创建一个新的抓取任务。
(4) 在新建任务的名称上,填入任务名称。在Description中随意填入字符,然后再在seeds框中,填入待抓取的起始网址。如下图所示:
(5) 单击“Modules”按钮,就进入了配置抓取时的处理链的页面。
在倒数第三项 "Select Writers "内删除默认的"org.archive.crawler.writer.ARCWriterProcess”,加 "org.archive.crawler.writer.MirrorWriterProcessor",这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。如下图:
(6) 单击“Settings” 按钮,进入了属性设置的页面。
在属性设置页面上有非常多的输入域,Heritrix在抓取网页时,这些域是用来对的各个组件的值进行预设。由于页面上的内容非常多,使用者可能无法全部了解它们的作用。所以Heritrix提供了一个辅助功能,来在最大程度上让使用者了解每个参数的含义。在每个属性的右侧都有一个小问号,当单击问号时,就会弹出一个Javascript的Alert提示框,上面介绍了当前属性的作用。
当在第一次使用Heritrix时,所需要设置的参数并不多,以默认设置为主。但有一些参数是必须在第一次使用时就设置好的,就是HTTP-Header这个属性域。
如下图所示,红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。
(7) 设置完成后,点击“Submit job”,即完成全部任务的建立工作。 这时就可以在Console页面中点击start启动任务。
抓取到的所有文件在” %Heritrix_HOME%/jobs/任务名-任务时间/mirror”这个路径下,按照域名分开存放。
3. Heritrix 的扩展开发
1) Heritrix 结构分析
从上图可以看出,Heritrix总体上是一个平台结构,内部的组件都具有松耦合的特点。任何一个部分都可以进行拆卸并替换,这就给我们进行基于Heritrix的自定义开发提供了条件。
下面简单介绍一下每个组件的作用:
1. CrawlController
CrawlController(中央控制器)是抓取任务的核心组件,它控制着整个抓取的流程。
2. CrawlOrder
CrawlOrder (抓取任务)是整个抓取工作的起点,它记录了任务的所有属性,即在创建任务时的一系列设置。
3. Frontier
Frontier (链接制造工厂)负责所有链接的处理。将已经爬过的URI做标记,并将未处理的链接放入待处理队列。
4. ToeThread
ToeThread(处理线程)Heritrix是多线程的,每个 URL 被一个线程处理,这个线程就叫做 ToeThread,每个线程都会包括一条处理链,如下图所示。
5. Processor
Processor(处理器)代表着单个的处理器,所有的处理器都是它的子类。它包括以下几种:PreProcessor(预处理器)、Fetcher(获取器)、Extractor(抽取器)、Writer(存储器)、PostProcessor(后处理器)。
2) Heritrix 的组件开发
在使用Heritrix的过程中,可能会需要一些特定功能,比如说只想抓取一个域名下的网页等。这时就需要扩展原有的Heritrix,自己写一些组件来满足这些要求。
(1) 扩展FrontierScheduler
首先在Heritrix工程中创建类包my. processor. ,之后新建类MyFrontierScheduler。代码如下:
之后打开Heritrix目录下的module文件夹,里面是所有模块的配置文件。打开Processor.options,在里面加入一行my. processor.MyFrontierScheduler|MyFrontierScheduler。然后保存退出,之后你就可以在新建任务的时候选择使用自己扩展的FrontierScheduler了。
(2) 扩展MirrorWriterProcessor
有的时候我们需要在网页下载之前将网页进行分析并提取有效内容存储起来,这时我们可以扩展MirrorWriterProcessor这个模块。利用一个开源的包htmlparser分析网页结构,并将结果存储起来。htmlparser可以在http://htmlparser.sourceforge.net 获得。将下载的包添加到项目的引用列表中。
新建MyMirrorWriterProcessor,将之前MirrorWriterProcessor的代码复制过来,改掉类名及构造函数的名称。添加新的引用:
新建一个方法AnalysisFile(),在writeToPath这个函数中调用它:
之后就可以在AnalysisFile()中处理dest这个文件,将其进行分析并保存为想要的格式。以下例子将其去掉Html标签之后封装进一个XML文件:
4. Heritrix 的常用技巧
1) 只保存html类型的文件
对于大多数的搜索引擎,我们所要做的只是对于纯文本的搜索。因此只需要保存html类型的内容。Heritrix的官方文档”Heritrix User Manual”中给出了一个解决方案
在新建任务时点击”submodules”,如下图:
添加一个新的规则,类型为NotMatchesFilePatternDecideRule,并将其放置在PrerequisiteAccept-
DecideRule之前,不然dns将不会被正确解析。之后在设置面板中如下设置:
这样设置之后,爬虫就会只抓取html类型的文件,而将其它类型的文件都忽略掉。
2) Queue-assignment-policy的设置。
当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为在默认的情况下,Heritrix使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。
为解决这个问题,我们新建一个策略:
这样用ELF hash算法把url尽量平均分部到各个队列中去,采集的速度大大的加快了。
参考资料:
1. Gordon Mohretal : An introduction to Heritrix. Accessed Apr 2009.
http://crawler.archive.org/An%20Introduction%20to%20Heritrix.pdf
2. Wikipedia Heritrix Homepage. Accessed Apr 2009. http://en.wikipedia.org/wiki/Heritrix
3. John Erik Halse : Heritrix developer documentation. Accessed Apr 2009.
http://crawler.archive.org/articles/developer_manual.html
4. Kristinn Sigurđsso: Heritrix User Manual. Accessed Apr 2009.
http://crawler.archive.org/articles/user_manual/index.html
5. 邱哲 符滔滔:《开发自己的搜索引擎-Lucene 2.0+Heritrix》人民邮电出版社 ISBN:711516000
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/fengbolaisearch/archive/2010/01/12/5178492.aspx
分享到:
相关推荐
对heritrix抓取的操作和扩展 里面有MirrorWriterProcessor扩展的类文件修改
在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。
该文档详细介绍了如何利用heritrix3进行网页内容提取,其中内容提取模块可以自己修改,接口已经留好,具有很强的扩展性!
Heritrix扩展散列算法
Heritrix3 - 可扩展、web级别的Java爬虫项目
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
heritrix学习源码和资料
简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
(2)提取链:主要是下载网页,进行DNS转换,填写请求和响应表单。 (3)抽取链:当提取完成时,抽取感兴趣的HTML和JavaScript,通常那里有新的要抓取的URL。 (4)写链:存储抓取结果,可以在这一步直接做全文索引。...
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以...其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。