http://www.zhihu.com/question/20098507
最主要的方面:Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转的。
两者面向的领域也不完全相同,一个是批量处理,基于任务调度的;另外一个是实时处理,基于流。
以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断地流出来了。
Storm之于实时处理,就好比Hadoop之于批处理。
Storm的主要特点如下:
简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。
快速。系统的设计保证了消息能得到快速的处理,使用MQ作为其底层消息队列。
Storm关键字 Nimbus, Supervisor, Topology, Spout/Bolt
Hadoop M/R基于HDFS,需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等,效率较低。
Storm 基于ZeroMQ这个高性能的消息通讯库,不持久化数据。
Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。
这里的快主要是指的时延。 storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。 说一个典型的场景,几千个日志生产方产生日志文件,需要进行一些ETL操作存入一个数据库。 假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。 而流式计算则是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。 当然,跑一个大文件的wordcount,本来就是一个批处理计算的模型,你非要把它放到storm上进行流式的处理,然后又非要让等所有已有数据处理完才让storm输出结果,这时候,你再把它和hadoop比较快慢,这时,其实比较的不是时延,而是比较的吞吐了。
先要明白Storm和Hadoop的应用领域,注意加粗、标红的关键字。 Hadoop是基于Map/Reduce模型的,处理海量数据的离线分析工具。 Storm是分布式的、实时数据流分析工具,数据是源源不断产生的,例如Twitter的Timeline。 再回到你说的速度问题,只能说Storm更适用于实时数据流,Map/Reduce模型在实时领域很难有所发挥,不能简单粗暴的说谁快谁慢。
相关推荐
大数据完整版视频。视频未加密,绝对可以看。
about 云资源汇总指引 V1.6:包括 hadoop,openstack,storm,spark 等视频文档书籍汇总
Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。...
Storm官方网站有段简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。
Hadoop Hive HBase Spark Storm概念解释
从某宝购买的一份视频教程,有需要的朋友,可以下载看看。
概括性、总结性的对比Mapreduce、spark、storm,三者的特点,区别对比。
请管理员删除 有敏感信息。请管理员删除 有敏感信息。
从其他人那里下的大数据视频,他要20积分,我只要3分,有需要的朋友,可以下载看看。 资源不错可以看看失效留言
大数据全套视频教程。linux,hadoop,spark,storm,hive,flume,oozie,,hbase,zookeeper,mysql,mongodb,redis,多个项目实践等等,应有尽有。
大数据Hadoop权威指南,pdf,中英文版。第4版 The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework...
storm-yarn结合pig实现广告点击量分析源码,学习 storm-yarn和pig的必备研究项目
基于Hadoop+Storm的网络日志实时分析系统+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
大数据学习视频资料Linux基础教程 hadoop2.x spark storm flume
该文档来自Spark ...Andy Feng重点介绍了雅虎的现状,通过图文并茂的方式介绍了雅虎的主页和个性化属性,以及试点的电子商务和广告业务,重点阐述Hadoop和Spark的统一协作才是Yahoo现在面临诸多挑战的的唯一出路。
【原创学士学位毕业论文,未入库可过查重】万字原创,基于Hadoop架构类的学位毕业论文,适合本科专科毕业生使用。 内容概要: 本论文以Hadoop架构为基础,深入研究了其在大数据处理和分析方面的应用。通过对Hadoop...
You will also get acquainted with many Hadoop ecosystem components tools such as Hive, HBase, Pig, Sqoop, Flume, Storm, and Spark. By the end of the book, you will be confident to begin working with...
1、查看nimbus的日志信息 2、查看ui运行日志信息 3、查看supervisor运行日志信息 4、查看supervisor上worker运行日志信息 5、