`
男人50
  • 浏览: 244759 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

跟我学spark1

阅读更多
科普Spark,Spark是什么,如何使用Spark




1.Spark基于什么算法的分布式计算(很简单)

2.Spark与MapReduce不同在什么地方

3.Spark为什么比Hadoop灵活

4.Spark局限是什么

5.什么情况下适合使用Spark




什么是Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:




Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

容错性

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。

可用性

Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

End.
分享到:
评论

相关推荐

    跟我StepByStep学FLEX教程

    《跟我StepByStep学FLEX教程》是由知名IT专家王一松编著的一部全面、深入的FLEX学习指南。FLEX,全称Flex Builder,是Adobe公司推出的一款用于构建富互联网应用程序(Rich Internet Applications,RIA)的开发工具,...

    跟我一步一步学flex

    "跟我一步一步学flex"的教程显然是一个逐步指导初学者掌握Flex开发的资源。下面,我们将深入探讨Flex的基本概念、主要组件、开发环境以及如何通过实例学习。 1. **Flex基本概念** - **ActionScript**:Flex的主要...

    The fools.apk编程小子, 幼儿趣味编程软件安卓版

    顺便说一下,我是教中小学生编程的讲师,目前主教Python,你的小孩如果会打字,那就可以跟我学习Python编程。我开发了很多的Python学习案例,都存在我的电脑中,大部分没有发出去,也没放在CSDN,有一些放在我的博客...

    Mastering-Machine-Learning-with-Spark-2.x:Packt发行的Spark 2.x精通机器学习

    使用Spark 2.x掌握机器学习这是出版的的代码库。 它包含从头到尾完成本书所必需的所有支持项目文件。关于这本书这本书使您可以将数据转换为可操作的知识。 本书首先通过MLlib和H2O库定义机器学习原语开始。 您将学习...

    java的一些学习心得

    1. 类与对象:Java的核心是面向对象编程(OOP),它通过类来定义对象,并通过对象来实现具体功能。理解类的构造函数、继承、封装和多态等概念是掌握Java的基础。 2. 异常处理:Java的异常处理机制使得程序更加健壮...

    如何面试3.docx

    对比:云服务器的运维由阿里云完成,物理机需要托管服务器,需要专门的运维人员以及电力成本,总和对比下,物理机的费用跟云服务器的成本差不多。所以选择云服务更加的方便。 2.2 集群规模确定 在确定集群规模时,...

    新东方刘畅词汇精美笔记(彩色标注,可打印)

    1. **形象化记忆**:利用想象力将单词转化为生动的画面,如将"chill"想象为天空中的月光洒在小山上,"image"联系到妈妈和年龄,"spark"则与公园中的火花相联。 2. **谐音记忆**:根据单词的读音创造易于记忆的关联,...

    化彦君个人自我诊断SWOT分析表.pdf

    - **终身学习的理念**:在快速变化的技术领域中,持续学习是跟上行业发展步伐的重要手段。通过不断学习新技术、新工具,IT从业者能够保持竞争力并适应市场需求的变化。 #### 乐于课堂实践 - **理论与实践相结合**:...

    FLEX教程码源集合

    2. **跟我StepByStep学FLEX教程------王一松.pdf**:这是一本面向初学者的教程,由王一松编著。通过逐步的教学方式,讲解了Flex的基础知识,包括环境搭建、界面设计、事件处理、数据绑定等内容。适合没有FLEX背景的...

Global site tag (gtag.js) - Google Analytics