`
zhangzhenjj
  • 浏览: 27236 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

二、基于storm的爬虫设计方案构想

阅读更多

基于storm的爬虫设计方案构想

 

这是一个令人振奋的构想

  最近在弄storm,之前又弄过爬虫,所以把两者结合起来我觉得还挺有意思的。我们知道爬虫是从网络上获取数据经过一些处理保存到本地,作为自己的业务数据等。所以其从输入到输出其实就是一个数据流不断的流经系统。storm作为实时流处理的利器,其使我们非常方便的对系统各部件的并发进行rebalance,所以如果将其用在自己的爬虫中我们的爬虫就可以分布式了,例如:下载比较慢,那么我们就给下载部件添加运行资源、若解析慢就为解析添加资源,而且sotrmUI中提供的很多参数可以作为系统调优的依据,也可以方便我们找到系统瓶颈。

上图

  具体的爬虫设计这里不便介绍,大致都一样,storm的资料网络上也很多,而且学习成本比hadoop要小很多,这里直接上图了,大家有好的想法好的思路一块儿拿出来讨论!!!!



 

图1、StormWeiboCrawler

这是一张简单的构想图,没有那么细



 图2、StormTopo

这是一张来源于网络的,在storm内部topo图案例

  • 大小: 36.6 KB
  • 大小: 17 KB
2
2
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics