`
loveczp
  • 浏览: 4104 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表
1.Werner Vogels      Amazon CTO               All Things Distributed亚马逊的CTO,此博客从名字 All Things Distributed就可以看出来主要是关于分布式计算方面的文字。亚马逊不仅是最大的在线零售商,而且也是最大的云计算服务提供商(云计算方面貌似比google起步早,比google用户多)。此博客记录的主要就是amazon系统以及amazon云计算平台背后的技术、软件、设计等等。  
hadoop获得的巨大的成功令人不得不关注和研究它。本文将从它如何提高计算性能,减少计算时间入手分析hadoop。 1.性能可以线性提高 hadoop的计算模型就是map/reduce,每一个计算任务会被分割成很多互不依赖的map/reduce计算单元,将所有的计算单元执行完毕后整个计算任务就完成了。因为计算单元之间互不依赖所以计算单元可以分配到不同的计算机上执行,这样就可以将计算压力平摊到多个机器上面。如果一个计算任务可以分成n个计算单元,每个计算单元执行时间为t,如果有m太机器那么最终的计算时间就是t*(n/m),m越多时总体计算时间越少。因此hadoop可以让系统性能随机器增加而线性提 ...
一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoop是首选。hadoop提供了自动的集群管理,任务分配,负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码,这将极大的减少代码量。二。主要思路1.遍历整个网络的算法:网页之间是通过link连接起来的, ...
Global site tag (gtag.js) - Google Analytics