很多人是通过wordcount入门分布式并行计算, 该demo演示了Hadoop的经典实例wordcount的实现
输入数据:n个数据文件,每个1g大小,为了方面统计,每个文件的数据由“aaa bbb ... ccc”(由空格分割的1k单词组)不断复制组成。
输出数据:输出这n*1g个数据文件中的每个单词总数
fourinone简单实现思路,假设有n台计算机,将这n个1g数据文件放置在每台计算机上,每台计算机各自统计1g数据,然后合并得到结果
WordcountCT:为一个工头实现,它把需要处理的数据文件名称发给各个工人,然后用一个HashMap<string> wordcount的map用来装结果
WordcountWK:为一个工人实现,它按照每次读取8m的方式处理文件数据,将文件大小除以8m得到总次数,每次处理过程将字符串进行空格拆分,然后放入本地一个map里,完成后将此map发给工头
ParkServerDemo: 分布式计算过程的协同服务park
运行步骤:
1、启动ParkServerDemo(它的IP端口已经在配置文件的PARK部分的SERVERS指定)
2、运行WordcountWK, 通过传入不同的端口指定多个Worker,这里假设在同机演示,ip设置为localhost
3、运行WordcountCT,传入文件路径(假设多个工人处理相同数据文件)
思维发散:如果将以上实现部署到分布式环境里,它是1*n的并行计算模式,也就是每台机器一个计算实例,fourinone可以支持充分利用一台机器的并行计算能力,可以进行n*n的并行计算模式,比如,每台机器4个实例,每个只需要计算256m,总共1g,这样整体的速度会大幅上升,以下是就wordcount和hadoop的运行对比结果:
</string>
分享到:
相关推荐
淘宝 FourInOne并行计算框架 轻量级
淘宝分布式框架fourinone介绍.pptx
大数据与云计算培训学习资料 Fourinone实现分布式计算 共3页.pdf
fourinone号称了集成了hadoop,zk,memcache,mq于一身的四不像超级神器,...自己用socket或者NIO实现,要知道用NIO实现一个网络通讯框架是很考验技术功底。在运行的时候需要配置文件,此配置为fourinone-4.17.10配置文件
Fourinone框架是将分布式协同的技术性和故障处理的可行性,把Hadoop、Zookeeper、MQ和分布式缓存的功能合并成一个框架。Fourinone采用的是domain/node两层结构,不仅保持了Zookeeper最本质的稳定性,而且还简化Watch...
淘宝Fourinone(中文名字“四不像”)是一个四合一分布式计算框架,在写这个框架之前,我对分布式计算进行了长时间的思考,也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时,似乎忘记了我们想...
基于Fourinone可以轻松实现分布式配置信息,集群管理,故障节点检测,分布式锁,以及淘宝configserver等等协同功能。 其次, Fourinone可以提供完整的分布式缓存功能。如果对一个中小型的互联网或者企业应用,仅仅...
基于FourInOne可以轻松实现分布式配置信息,集群管理,故障节点检测,分布式锁,以及淘宝configserver等等协同功能。 其次, FourInOne可以提供完整的分布式缓存功能。如果对一个中小型的互联网或者企业应用,仅仅...
通过示例,对fourinone源代码进行分析。对此有兴趣的可以看看。
淘宝分布式框架fourinone介绍.pdf
学习资料:淘宝分布式并行计算四合一框架Fourinone 内容:淘宝分布式并行计算四合一框架Fourinone详细介绍;源码分析及使用说明;Fourinone分布式计算框架性能、压力、容灾测试报告;框架压缩包 本示例把分配任务的...
淘宝分布式并行计算四合一框架Fourinone.pdf
淘宝Fourinone2.0提供了一个4合1分布式框架和简单易用的编程API,实现对多台计算机CPU,内存,硬盘的统一利用,从而获取到强大计算能力去解决复杂问题。Fourinone框架提供了一系列并行计算模式(农民工/包工头/职...
也就是说,fourinone在一个简单的jar中集成了Hadoop、Zookeeper、Memcache、MQ四大功能! 它只有150k大小,没有任何依赖性,非常方便嵌入您的系统使用。 Fourinone 项目 Fourinone 1.0 版本:淘宝Fourinone(中文...
Fourinone在去年11月在淘宝内部通过了压测,上亿排序和wordcount等经典指标均优于hadoop,这是一份长达10多页的详细测试报告
淘宝Fourinone(中文名字“四不像”)是一个四合一分布式计算框架,在写这个框架之前,我对分布式计算进行了长时间的思考,也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时,似乎忘记了我们想...
淘宝Fourinone(中文名字“四不像”)是一个四合一分布式计算框架,在写这个框架之前,我对分布式计算进行了长时间的思考,也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时,似乎忘记了我们想...
本源码包含分布式技术的主要应用,分别介绍分布式并行计算的基本概念、分布式协调、分布式缓存、消息队列、分布式文件系统、分布式作业调度平台等,是构建大型分布式网站架构与设计的重要参照和选择。...