本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744461
本人新浪微博:http://weibo.com/guoyunwb
可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态制 上,Heritrix3.0都改进不少.下面就介绍crawler-beans.cxml中各个bean.
1. bean id=simpleOverrides
class=org.springframework.beans.factory.config.PropertyOverrideConfigurer
字面上的意思为简单的覆盖,的确这里只是简单的覆盖.设置最基本的信息.如抓取任务名字(metadata.jobName),操作URL(metadata.operatorContactUrl),描述信息(metadata.description)
2. bean id=metadata
class=org.archive.modules.CrawlMetadata
如同simpleOverrides
3. bean id=seeds
class=org.archive.modules.seeds.TextSeedModule
种子配置,可以从文件中读取种子,也可以直接设置种子
4. bean id=scope
class=org.archive.modules.deciderules.DecideRuleSequence
URL规则控制,可以决定哪些URL要抓取,哪些URL拒绝,URL抓取深度等
5. bean id=candidateScoper
class=org.archive.crawler.prefetch.CandidateScoper
URL范围控制,通过该范围的URL Heritrix方可接受,成为CrawlURI
6. bean id=preparer
class=org.archive.crawler.prefetch.FrontierPreparer
url预处理,如设置URL的抓取深度,队列,成本控制等
7. bean id=candidateProcessors
class=org.archive.modules.CandidateChain
处理器,引用candidateScoper去控制URL是否可以成为CrawlURI,preparer去设置深度,队列,成本控制等
8. bean id=preselector
class=org.archive.crawler.prefetch.Preselector
预先选择器,这里会过滤掉一部分URL.如blockByRegex为拒绝正则,allowByRegex为允许正则
9. bean id=preconditions
class=org.archive.crawler.prefetch.PreconditionEnforcer
先决条件设置,如设置IP有效期,爬虫协议文件robots.txt有效期
10. bean id=fetchDns
class=org.archive.modules.fetcher.FetchDNS
解析DNS,获得IP
11. bean id=fetchHttp
class=org.archive.modules.fetcher.FetchHTTP
核心模块,获取URL内容,设置状态
12. bean id=extractorHttp
class=org.archive.modules.extractor.ExtractorHTTP
核心模块,抽取URL,抽取出新的URL再次运行,如此爬虫才可以一直爬下去
13. bean id=extractorHtml
class=org.archive.modules.extractor.ExtractorHTML
抽取HTML,包含JSP,ASP等,这里也会抽取JS,CSS等
14. bean id=extractorCss
class=org.archive.modules.extractor.ExtractorCSS
抽取CSS,无需单独配置,ExtractorHTML会调用
15. bean id=extractorJs
class=org.archive.modules.extractor.ExtractorJS
抽取JS,无需单独配置,ExtractorHTML会调用
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx
此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用
Heritrix,Mohr-et-al-2004.pdf,其作者谈其优劣 Heritrix Gordon Mohr-et-al-2004.pdf heritrix学习必读,谢谢
heritrix-1.12.1-src.zip与heritrix 配置文档
heritrix-1.14.2.zip是一个开源项目
这是我在官方网站下载的,里面还有在myeclipse安装方法及常见问题解决
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本
免费资源,赶紧下载学习。heritrix-1.12.1.zip
snappy-start 是从 snapshot 启动 Linux 进程的工具。它允许程序的多个实例从 snapshot 快速启动。特性:更快的启动,当程序在启动时正在做大量的计算。节省内存,因为程序启动过程写入的内存页将在实例之间共享。...
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程:...
最新的Heritrix用户文档,包括基本的Heritrix介绍、安装、创建任务、任务分析等,并给出了一个具体的实例
目前罪行的heritrix网络爬虫工具,是学习lucene的提高选择,可以大批量的抓取网上资源!
Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源
因为文件大了点 把docs取了出来单独上传 需要的下载一下
heritrix3项目爬虫中所使用到的一个依赖包,javaswf-CVS-SNAPSHOT-1.jar包,有需要的朋友们,赶紧下载吧, 本人亲测过. 有积分的猿友们,赏个积分,没积分的,关注博主,私信发.
heritrix3项目爬虫中所使用到的一个依赖包,je-7.5.11.jar包,有需要的朋友们,赶紧下载吧, 本人亲测过. 有积分的猿友们,赏个积分,没积分的,关注博主,私信发.
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的...Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。
包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址