Spark
Spark streaming和storm的区别是(两者都是分布式流处理框架)http://www.jdon.com/46591 :
1.Spark支持保持状态
2.Spark有数据平滑窗口(sliding window),而后者需要自己去维护这个窗口
3.Spark是需要到一个duration才开始处理数据,storm是实时处理数据,有数据就处理。Storm只有秒内的延迟
4. 在Storm中,每个单独的记录当它通过系统时必须被跟踪,所以Storm能够至少保证每个记录将被处理一次,但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。另一方面,Spark Streaming只需要在批级别进行跟踪处理,因此可以有效地保证每个mini-batch将完全被处理一次,即便一个节点发生故障。简而言之,如果你需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果你需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)时
5. Spark Streaming一个好的特性是其运行在Spark上. 这样你能够你编写批处理的同样代码,这就不需要编写单独的代码来处理实时流数据和历史数据
Storm
storm框架 http://storm.incubator.apache.org/documentation/Concepts.html
storm保证消息不丢
Storm分布式实时流计算框架相关技术总结
http://www.cr173.com/html/18637_1.html
Storm的
http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html
HBase
Hadoop是一个能够对大量数据进行分布式处理的软件框架 http://baike.baidu.com/view/908354.htm?fr=aladdin
Hadoop的优缺点介绍:
(一) 优点:
(一)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;
(二)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(三)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(四)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
(二) 缺点:
(一)不适合低延迟数据访问。
(二)无法高效存储大量小文件。
(三)不支持多用户写入及任意修改文件(支持删除文件)
·Scribe
http://www.cnblogs.com/brucewoo/archive/2011/12/13/2285482.html
实时分布式日志收集系统的比较 http://www.kankanews.com/ICkengine/archives/89351.shtml
Scribe示例 http://blog.csdn.net/amuseme_lu/article/details/6328013
·Hive
·Pig
·Zookeeper
·Flume
相关推荐
大数据面试复习---Java基础---集合类、多线程、JVM 大数据面试复习----常问问题分析 大数据面试复习----画重点----思维导图 大数据面试复习----简历编写 大数据面试复习----练习的面试题+笔试题 大数据面试复习----...
01大数据面试复习----Java基础---集合类、多线程、JVM.zip
01大数据面试复习----Java基础---集合类、多线程、JVM 02大数据面试复习----画重点----常问问题分析 03大数据面试复习----画重点----精心制作热门技术思维导图 04大数据面试复习----画重点----56家+真实互联网大公司...
java期末复习资料(大数据)
RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛...
高级java笔试题 Readme 提要 除了个别笔记是网络下载外(已注明),其它都是我自己学习过程中做的笔记,仍在更新,大部分都是手打,键盘都打掉色了呢! 当然,有笔记是不够的,需要项目实践 + 系统复习。 复习时间按...
Java知识点复习 Java基础面试题 Hive知识体系保姆级总结 HBase 知识体系最强总结 Hadoop知识体系最强宝典 Hadoop企业级调优手册 Flink知识体系保姆级总结 Flink面试八股文 最强最全面数仓建设规范指南(强烈推荐) ...
本资源为大数据基础到中高级教学资源,适合稍微有点大数据或者java基础的人群学习,资源过大,上传乃是下载链接,不多说,上目录: 1_java基础2 l3 a2 a$ t7 J2 b+ `- p 2_java引入ide-eclipse 3_java基础知识-循环...
为了跳槽对java 全盘复习,覆盖,jvm 数据结构,集合框架,一些算法,spring全家桶,mybatis,sql ,mq,索引框架es,协调框架zookeeper ,缓存框架redis等
作者:大数据技术与架构 By 大数据技术与架构 场景描述:大数据开发岗位技能树,学习和复习总纲。 关键词:面试 大数据 大纲 正所谓,无招胜有招。 愿读到这篇文章的技术人早日...Java基础篇整个大数据开发技术栈我
同时,为了方便读者查阅和复习,我们将所有知识点按照主题进行了分类,包括Java基础知识、Java高级特性、Java常用框架、Java和Java EE安全性和可靠性、分布式系统、大数据和数据科学、人工智能和机器学习以及区块链...
Java比较全的知识点整理,可以用来当做复习资料,面试资料,可以在工作中当做工具书籍来使用
复习大数据面试题,看这一套就够了! 持续更新中... 文章更新首发于公众号:五分钟学大数据 获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送 面试宝典 此套面试题来自于各大厂的真实面试题及...
包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python...
(Django)、数据分析、机器学习、大数据几个组件以及一点基本的前端内容,日常是Linux下开发的所以会一些linux命令和shell脚本,不会java web那些 目前还在看一些前人的经验贴,了解校招可能会考写啥,主要是逛逛牛客...
期末数据库考试的复习题及详细的答案解释。只要是SQL语言版的。
计算机类书籍:操作系统、计算机网络、计算机组成原理、汇编语言、C语言、C++、Java、Python、Go、前端、算法与数据结构、大数据、人工智能、面试题 实验报告:通过实际操作与数据记录,让您深入理解计算机内部的...
一线互联网大厂大数据面试题库,大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWorks,Hadoop,Spark,Flink,面试,笔记文档,实战练习、采集、存储...
题目:企业SQL面试复习与测试 1.常见的数据库对象有哪些? 表(table) 视图(view) 序列(sequence) 索引(index) 同义词(synonym) 存储过程(procedure) 存储函数(function) 触发器(trigger)
包含前端、后端、移动开发、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源等各种技术项目的源码。包括C++、Java、python、web、C#、EDA等项目的源码。 【适用人群】:适用于希望学习不同技术...