阅读更多

1顶
0踩

互联网

原创新闻 运用Spark加速实时数据分析

2015-10-30 14:04 by 副主编 mengyidan1988 评论(1) 有5618人浏览
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。

在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天,能够满足上文提到的需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术,就是Apache Spark。从能源产业到金融行业,Spark凭借其高效性与多功能性已经成为当今大数据处理栈中的关键部分。

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算,在函数式编程中与Hadoop相比更具生产力。例如,如图1所示,在逻辑回归算法性能测试中,Spark内存计算下的运行比Hadoop MapReduce快了几个数量级的速度。



图1:逻辑回归算法性能测试。图片来源:Apache Spark,使用已经过授权。

其中Spark的一些特性包括:
  • 它利用分布式内存进行计算。
  • 它支持完整的用有向无环图(DAG)来展示数据的并行计算。
  • 它可以提高开发人员的经验。
  • 它提供了线性可伸缩性与数据本地化。
  • 它具有容错机制。

Spark为各种不同的用户提供着便利:信息技术开发人员可以受益于Spark支持各种流行的开发语言,例如Java、Python、R语言;而数据科学家可以在Spark支持的机器学习(ML)库中获得研究便利。

在Spark中还有一个庞大且不断增长的第三方包列表,将各式各样的工具、环境、框架、语言整合到一起,从而扩展Spark的复杂性以及能力。

Spark用例可以部署在不同的生产场景中,其中包括在一个大型技术公司中运用Spark通过使用机器学习来进行个性化搜索;在一个金融系统中仅需数小时便可以处理数以百万计的股票分析,要知道相同的工作量下此前使用Hadoop MapReduce起码得耗费一周的时间;在学术环境中进行基因科学研究;在视频系统中,Spark与Spark Streaming被用于处理流媒体及其分析;以及卫生保健领域中Spark被用于进行疾病的预测建模。

如此看来似乎各式各样不同的问题都能通过Spark成功地被解决,但是最重要的是我们仍需要不断去优化Spark的架构,以处理任何所提及到的用例。正如Spark拥有强大的特性,简而言之,这也意味着它的复杂性。因此,为了获得最佳性能的Spark,它需要成为一个更广泛的Hadoop基础数据管理平台的重要组成部分。此外,为了能在实时或者预测分析中得到更大收益,那么优化整个数据供应链也是至关重要的。

原文链接:Accelerating real-time analytics with Spark(翻译/丘志鹏 审校/林炀 责编/仲浩 )
  • 大小: 12.3 KB
1
0
评论 共 1 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 基于spark及用户行为标签的日志大数据分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • Spark 高级数据分析(第2版)

    作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过...

  • Spark成为大数据分析领域新核心的五个理由

    YARN是大数据环境下理想的资源分配与管理框架选项。第三也是最重要的一点,没有哪套单一处理框架能够...企业客户需要数据准备、描述性分析、搜索、预测性分析以及机器学习与图形处理等更为先进的功能。与此同时,企...

  • 基于Spark框架的新闻网大数据实时分析可视化系统项目.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark2.2的新闻网大数据实时分析系统设计与实现.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Flume&spark&Flask的分布式实时日志分析与入侵检测系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark+flume+kafka+hbase的实时日志处理分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark的地铁大数据客流分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark的外卖大数据平台分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark的行为日志分析系统设计与实现.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • Spark:实时数据微批处理(2.Spark Core:核心)

    文章目录1.RDD 概述1.1 什么是 RDD?1.2 RDD 的 5 个主要属性(property)1.3 理解 RDD1.3.1 RDD 特点2.RDD 编程2.1 RDD 编程模型...RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数...

  • 基于Spark MLlib 的 ALS 算法实现的电影推荐系统,采用MovieLens数据集进行分析建模.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 机器学习_深度学习毕设题目汇总——数据分析_数据挖掘

    基于可调Q因子小波变换和迁移学习的脑电数据分析方法研究 基于深度学习的烟草近红外光谱数据分析 基于自回归模型和机器学习的大气电场数据分析和应用研究 基于可视化技术的音乐数据分析平台的研究 面向数据...

  • 运用这招,让 Spark 提速 45 倍!

    通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们在单一平台上所能执行的数据分析类型方面,还是在执行这些任务的速度方面,Spark和Hadoop这一代框架都轻松胜过传统框架。Spark利用内存来处理数据,...

  • 基于spark streaming和kafka,hbase的日志统计分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark、NoSQL实时数据处理实践

    本文基于TalkingData 张学敏 在公司内部KOL的分享主题《基于Spark、NoSQL实时数据处理实践》的整理,同时也在DTCC大会上做了同主题的分享。主要介绍了项目的技术选型、技术架构,重点介绍下项目面临的挑战和解决办法...

  • 基于Spark和聚类分析的辨识电力系统不良数据新方法

    以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效...

  • Java-GUI介绍和使用

    GUI API包含的类分为三个部分:组件类(component class) 容器类(container class),和辅助类(helper class) 1. 组件类是用来创建用户图形界面的,例如JButton,JLabel,JTextField. 2. 容器类是用来包含其他组件的,例如JFrame,JPanel 3. 辅助类是用来支持GUI组件的,例如Color,Font

  • 汉诺塔c语言递归.zip

    汉诺塔c语言递归

  • mybatis-plus-core-3.0.6.jar

    mybatis-plus-core.jar 各个版本,免费下载, mybatis-plus-core.jar 是 MyBatis 的增强工具核心包。免费下载 。 MyBatis-Plus(简称 MP),是一个 MyBatis 的增强工具包,只做增强不做改变,为简化开发工作、提高生产率而生。

Global site tag (gtag.js) - Google Analytics