`
guoyunsky
  • 浏览: 840286 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:203427
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

准备跟大家分享下我Heritrix(机器爬虫)的经验

阅读更多

   Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。
    不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL、需要抓取的网址路径格式、多长时间抓取一次(就是多长时间重新对种子URL进行抓取)、抓取网页存放路径、抓取网页抽取类等配置实现一个垂直搜索引擎爬虫。
    目前代码完成了大约80%,省去了Heritrix的UI启动方式。不过也在思考着是否将HERITRIX的UI方式进行扩展,可以通过UI远程监控控制爬虫的运行。
    想法有很多,待完成的还有很多很多。正好也验证下我对HERITRIX源代码是否已经掌握?
    加油!
    接下来将上传我heritrix的各种学习资料,不过网络上也可以获取,不过这里相对应该更齐全!

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

分享到:
评论
7 楼 tianyuxxx 2016-05-25  
endy219 写道
起步学习,资料的确比较少,谢谢分享!

6 楼 endy219 2014-05-06  
起步学习,资料的确比较少,谢谢分享!
5 楼 cyongxue 2013-03-20  
发现这个,我表示很开心,嘻嘻,希望能向博主多多学习
4 楼 AC_MI 2013-03-01  
我也在做垂直搜索,以前用的是httpclient的,现在想用heritrix ,刚安装后,可是不知道怎么用的,是自己使用它提供的api 写程序还是配置文件,然后让它执行?
3 楼 gaoyue_xuejishu 2012-07-17  
楼主,关于heritrix 更新的问题,您现在是怎么考虑的呢?具体扩展哪些类呢
2 楼 weiweisky 2011-08-01  
学习~感谢分享经验
1 楼 crabboy 2010-05-12  
学习中,,,,关注

相关推荐

Global site tag (gtag.js) - Google Analytics