Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

0顶
0踩

2015-09-15 13:16 by 见习编辑 tuhaihe 评论(0) 有4726人浏览

hadoop

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Apache Spark内存计算框架更接近于Apache Hadoop，Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。

“虽然IT公司将会继续添加其他数据处理框架叠加在Hadoop集群顶部，One Platinum Initiativ是一个以Spark取代MapReduce作为默认数据处理引擎的基本案。”Cloudera的产品营销总监Matt Brandwein。

大多数IT组织认为MapReduce是一个相当晦涩难懂的编程工具。出于这个原因,许多人愿意采用任意数量的SQL引擎作为查询Hadoop数据的工具。

谷歌因为没有达到预期的目标，公开宣布停止使用MapReducebecause，取而代之的是自己公司Dataflow框架。公司launchedDataflow今年早些时候一个测试版的云服务。该公司今年早些时候推出了Dataflow作为测试云服务。

当涉及到建筑分析应用程序驻留在Hadoop上, Spark框架已经受到大量的拥护。

Brandwein指出, Spark的项目比Hadoop项目更活跃50%。One Platinum倡议会实际上形式化已经用标准方法迅速构建Hadoop上分析的应用程序。

“我们希望将Apache Spark和Hadoop统一起来。”他说。“我们已经有200多个客户运行Apache Hadoop的Spark。”

Cloudera声称Brandwein有比其他Hadoop供应商多五倍多的工程资源致力于Spark，并且贡献了超过370个补丁和43000行代码给开源流分析项目。Cloudera也促使Spark集成Hadoop上的资源整合，此外集成工作涉及的SQL框架如Impala；信息传递系统如Kafka；还有数据摄入工具，如Flume。

Brandwein说他们的长期的目标是，使Spark工作规模同时在多租户集群拥有超过10000个节点成为可能，这需要Spark的可靠性、稳定性和效率显著改善。

Cloudera补充说，它也致力于使Spark更容易在企业生产环境中管理，确保Spark流至少支持80%常见流处理的工作量。最后，要使.使这些实时工作量达到.更高水平的语言层次之外，Cloudera将提高Spark流的效率。

这一倡议到底得到多少支持Cloudera也有待观察。例如，该公司与Inte和Oracle有着长期的合作关系。在这个关头，其余的IT产业似乎更致力于Cloudera的竞争对手Hortonworks提出的Hadoop分配。

原文链接：Cloudera Aims to Replace MapReduce With Spark as Default Hadoop Framework（编译/李子健、白雪审校/朱正贵责编/魏伟）

来自: CSDN

分享到：

0
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop从业者为什么需要Spark？

6，Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark； Spark是继Hadoop之后，成为替代Hadoop的下一代云计算大数据核心技术，目前SPARK已经构建了自己的整个大数据处理生态系统，如流处理...

Cloudera CTO：取代MapReduce 未来会加大Spark等框架投入

MapReduce的高延迟已经成为Hadoop发展的瓶颈，为...有关MapReduce框架，最早要追溯到Google，Google将这个框架与灵活、可扩展性存储结合到一起，用以解决各类数据处理和分析任务。后来Doug Cutting和Mike Cafarel...

最全的大数据技术大合集：Hadoop家族、Cloudera系列、spark

大数据我们都知道Hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解...

Spark 和 MapReduce的区别

1MapReduce 2Spark 3 对比 3.1 性能 3.2 使用难度 3.3 成本 3.4 兼容性 3.5 数据处理 3.6 容错 3.7 安全性 3.8 处理速度 3.9 总结 4 相关概念 4.1 HDFS 4.2 MapReduce 4.3 YARN 4.4 SparkStreaming ...

Hadoop框架概论

其中重点的包括：Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署，会使用N台主机组成一个Hadoop集群，这种部署模式下，主节点和从节点会分开部署在不同的机器...

hadoop+hive+spark安装

hadoop,hive,spark安装部署

大数据框架Hadoop和Spark对比优势

在这些系统中，Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 　如果想批处理流量数据，并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地...

Spark和Hadoop优劣

Spark已经取代Hadoop成为最活跃的开源大数据项目。但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家Bernard Marr在一篇文章...

Spark精华问答 | Spark 会替代Hadoop 吗?

戳蓝字“CSDN云计算”关注我们哦！Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右，是hadoop的升级版本，Hadoo...

Hadoop/Spark生态圈

1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。...Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于spark共存，ha...

Spark SQL 高级编程之 Hadoop、Hive、Spark 环境搭建

Spark SQL 高级编程之开发环境设置1. 如何学好大数据2. 开发环境 1. 如何学好大数据官网（五颗星），多看官网项目实战对知识点进行巩固和融会贯通社区活动，交个朋友，认识一些人，对跳槽就业有好处切记：多...

Hadoop、Storm和Spark主流分布式系统特点和应用场景

1、概述　大数据现在是业内炙手可热的话题，随着技术的发展，如HDFS，大数据存储技术已经不在是难点，但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点，目前比较受欢迎的Storm, Spark, Hadoop三个大数据...

大数据HADOOP框架

Hadoop一、入门1、大数据定义2、Hadoop 入门概念①Hadoop是什么？②Hadoop发展历史③Hadoop的三大发行版本④Hadoop的优势⑤Hadoop的组成（重点）⑥大数据技术生态体系⑦推荐系统案例模拟虚拟机准备安装`epel-...

Hadoop MapReduce概念学习系列之不同的瑞士军刀：对比 Spark 和 MapReduce（十五）

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度...　作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 M...

Hadoop和Spark的区别

hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop ...

Hadoop与Spark常用配置参数总结

MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1)...

大数据平台测试-了解框架和技术CDH、Hadoop、Hive、Spark、Flink、HBase、Kafka

大数据平台CDH，Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称“CDH”），基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了...

Cloudera CTO: Hadoop与Spark是合作不是取代

在开源领域，Hadoop算得上是最成功的项目之一。这个诞生于2006年的开源项目，如今几乎成了大数据的代名词，越来越多的企业正在将Hadoop应用到他们的业务中...尽管如此，作为一个开源项目，Hadoop也面临着架构复杂、...

0顶0踩