hadoop与storm的一点区别
本文由larrylgq编写,转载请注明出处:http://blog.csdn.net/larrylgq/article/details/7326058
作者:吕桂强
邮箱:larry.lv.word@gmail.com
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率
而storm不同,storm是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个topology逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均分配到机器资源来获得高效率。
总的来说
hadoop的优点是处理数据量大(瓶颈是硬盘和namenode,网络等),分析灵活,可以通过实现dsl,mdx等拼接hadoop命令或者直接使用hive(超烂。。),pig等来灵活分析数据。适应对大量维度进行组合分析
ps:相较与hive,pig建议自己实现mdx,即灵活又高效
缺点就是慢:每次执行前要分发jar包,hadoop每次map数据超出阙值后会将数据写入本地文件系统,然后在reduce的时候再读进来
storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快(瓶颈是内存,cpu)
缺点就是不够灵活:必须要先写好topology结构来等数据进来分析,如果我们需要对几百个维度进行组合分析,那么。。。
另外推荐storm的DRPC实在太有用了,以至于这个本来要分理出来的项目,被并入storm^^
分享到:
相关推荐
概括性、总结性的对比Mapreduce、spark、storm,三者的特点,区别对比。
Hadoop Hive HBase Spark Storm概念解释
大数据Hadoop权威指南,pdf,中英文版。第4版 The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework...
about 云资源汇总指引 V1.6:包括 hadoop,openstack,storm,spark 等视频文档书籍汇总
基于Hadoop+Storm的网络日志实时分析系统+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,...
大数据完整版视频。视频未加密,绝对可以看。
Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。...
本论文适合计算机科学与技术、软件工程等相关专业的本科专科毕业生,以及对大数据处理和分析感兴趣的学习者。 使用场景及目标: 本论文旨在帮助读者深入了解Hadoop架构的原理和应用,以及在大数据处理和分析方面的...
该文档来自Spark ...Andy Feng重点介绍了雅虎的现状,通过图文并茂的方式介绍了雅虎的主页和个性化属性,以及试点的电子商务和广告业务,重点阐述Hadoop和Spark的统一协作才是Yahoo现在面临诸多挑战的的唯一出路。
大数据全套视频教程。linux,hadoop,spark,storm,hive,flume,oozie,,hbase,zookeeper,mysql,mongodb,redis,多个项目实践等等,应有尽有。
请管理员删除 有敏感信息。请管理员删除 有敏感信息。
1、查看nimbus的日志信息 2、查看ui运行日志信息 3、查看supervisor运行日志信息 4、查看supervisor上worker运行日志信息 5、
手把手教你配置高效的Hadoop集群,充分利用Hadoop平台的优势。2. 为Hadoop生态系统实现强健的端到端的安全保障。
[大数据]Hadoop+Storm+Spark全套入门及实战视频教程-附件资源
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了...
NULL 博文链接:https://ljz0898.iteye.com/blog/1976945
1.课程研发环境 Kafka的版本:kafka_2.9.2-0.8.1.1.tgz和kafka_2.11-0.10.0.0.tgz 开发工具: Linux;Eclipse;Scala IDE 2.内容简介 Kafka是分布式的消息队列,作为云计算服务的基石,它广泛的应用在实时数据流方面...
Storm官方网站有段简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....