本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367
欢迎加入Heritrix群(QQ):109148319
Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析......
8个处理器都继承org.archive.crawler.framework.Processor类,然后每个处理器都有自己的子类实现。同时相近处理器用org.archive.crawler.framework.ProcessorChain去管理,比如FetchDNS和FetchHTPP都用于获取网页内容,所以属于同一个ProcessorChain。这里8个处理器其实就是8个ProcessorChain,每个处理器用户都可以自己实现。而管理ProcessorChain同时又用ProcessorChainList去管理,不过这个相对简单。Heritrix通过配置文件order.xml中获取各个子类,然后通过反射将他们加入到每个要处理的URL中,然后在线程中迭代ProcessorChainList获得每个ProcessorChain,然后又迭代每个ProcessorChain获得每个Processor,最后运行Processor的子类,完成一整个处理流程。整个处理流程都以URL贯穿(Heritrix封装URL为CrawlURI和CandidateURI),对于每个处理器运行的结果都会更新到URL上,当然不一样的结果会有不一样的属性,以后会重点介绍CrawlURI和CandidateURI这两个类。下面就大概介绍下每个处理的作用以及大概的处理流程:
1.Preselector 预选处理器,预先处理URL看其是否要继续处理,通过这个可以过滤一部分或者全部URL
1)<boolean name="block-all">false</boolean>,如果为true则表示阻止一切URL,接下来Heritrix不会运行任何抓取
2)<string name="allow-by-regexp"></string>,查看是否通过里面的正则表达式,通过则继续运行,如果不通过,该URL将不再会被处理
3)<string name="block-by-regexp"></string>,查看是否不通过里面的正则表达式,通过则URL不再会被处理,如果不通过则该URL会继续被处理
2.PreconditionEnforcer 抓取先决条件处理器,先处理一些先要处理的URL,这里主要是该URL的DNS解析
1)先查看该URL是否有先决条件URL要处理,如果有的话先将该URL的先决条件URL放入调度器,而该URL将跳过PreconditionEnforcer处理器
2)如果以上该URL没有先决条件URL要处理,则运行以下环节:
i)先验证该URL的schema,如果不是http或者https则退出该处理器
ii)如果以上验证该shema是http或者https,则先验证该URL是否可以通过爬虫协议,如果没有通过爬虫协议则退出本处理器,反之则验证该URL自身是否是先决条件以及是否通过登录凭证,如果该URL自身不是先决条件URL并且没有通过登录凭证则也退出本处理器
3.Fetch 获取处理链,主要用于获取网页内容,对于不同的shcema有不同的处理器,如针对DNS有FetchDNS,对于HTTP则是FetchHttp,这里依次介绍(如果该URL是种子URL这个处理链不会处理):
3.1 FetchDNS:获取DNS数据,这里采用第三方JAR包(dnsjava.jar)
1)首先获取该URL的DNS名字,然后通过DNS名字从缓存中获取CrawlHost
2)验证该URL的DNS名字是否通过第四代IP命名,如果不通过则退出本处理器
3)如果以上通过,则开始获取DNS数据,同时记录开始获取以及成功获取时间,最后将DNS数据保存在本地文件(scratch文件)以及更新该URL状态以及该URL的CrawlHost的IP、时间等数据
3.2 FetchHTTP: 获取HTTP数据,这里采用HttpClient包去获取,通过Heritrix也封装了该包
1)获取HTTP数据的前提是,该URL的schema为http或者https以及该URL所属的DNS数据已经获取,如果两者不具备则跳出本处理器
2)如果以上通过,则统计这个处理器处理的URL个数,以及开始获取HTTP内容,然后将内容保存在本地文件(scratch文件)
4.ExtractorHTTP 抽取链,主要用于从URL内容中抽取出新的URL,这里只处理shcema为http或者https的url,针对不同的URL有不同的抽取器,如JS:ExtractorJS,CSS:ExtractorCSS,Html:ExtractorHTML,(如果该URL是种子URL这个处理链不会处理
这里主要是通过正则表达式从网页文本内容中抽取出URL,主要是ExtractorHTML类
5.WriterProcessor:写处理器,主要将从FetchHttp里获取的网页内容写入本机
6.CrawlStateUpdater 抓取状态更新处理器,只针对http或者https
1)计算该Server(一个DNS为一个Server)下连接错误的URL个数
2)如果该URL为爬虫协议(http://xxx/robots.txt),则更新爬虫协议robots.txt
7.LinksScoper 链接接范围验证处理器,主要验证该URL抽取出来的链接是否在范围
1) 先验证该URL是否有先决条件URL要先处理,有的话先验证该先决条件URL是否在范围同时退出该处理器
2) 如果以上没有先决条件URL要先处理,则获取该URL抽取到的链接,然后循环验证每个链接是否在范围,不在范围则过滤掉
8.FrontierScheduler 调度处理器,将URL放入调度中心,以便接下来可以抓取
1) 先验证该URL是否有先决条件URL要先处理,有的话则将该先决条件URL放入调度中心,同时退出该处理器
2) 如果以上该URL没有先决条件URL要处理,则获取该URL抽取到的所有链接,循环将他们放入调度中心,以便下次可以抓取
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
heritrix学习源码和资料
Heritrix的文件结构分析 各个类说明 配置文件order_xml介绍....
Lucene 2.0+Heritrix 源码 csdn 开发自己的搜索引擎——Lucene 2.0+Heritrix
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425
heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件
heritrix1.14.4源码+项目
Heritrix+Lucene+Dwr 搜索引擎框架包 多次开发中使用的 据对可用
从网上找得应该是中文Heritrix源码最详细的说明了。折腾了好久,没有把网页打成chm,只能打个exe用用。
Lucene Heritrix 搜索 Lucene Heritrix csdn
开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...
heritrix-1.14.4爬虫框架及源码
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的...
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页