Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。
不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL、需要抓取的网址路径格式、多长时间抓取一次(就是多长时间重新对种子URL进行抓取)、抓取网页存放路径、抓取网页抽取类等配置实现一个垂直搜索引擎爬虫。
目前代码完成了大约80%,省去了Heritrix的UI启动方式。不过也在思考着是否将HERITRIX的UI方式进行扩展,可以通过UI远程监控控制爬虫的运行。
想法有很多,待完成的还有很多很多。正好也验证下我对HERITRIX源代码是否已经掌握?
加油!
接下来将上传我heritrix的各种学习资料,不过网络上也可以获取,不过这里相对应该更齐全!
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
Heritrix网络爬虫开发包,爬取资源必备开发包。
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...
基于_Heritrix_网络爬虫算法的研究与应用
heritrix-1.14.4爬虫框架及源码
基于Heritrix的主题网络爬虫设计与实现,论文
开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)第10章
安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...
Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取
Heritrix框架下网络爬虫应用答辩PPT,这个和我的毕业设计是配套的,毕业设计在这http://download.csdn.net/detail/memmrf1314/5711913,都是自己手写,可以参考。
无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
一种著名的开源使用java编写的免费网络爬虫.
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
heritrix 中文API (自己整理),网络爬虫,只包含关键的类的介绍