RDD概念:
RDD是只读的,分区记录的集合
RDD支持基于工作集的应用,同时具有数据流模型的特点:
自动容错
位置感知性调度
可伸缩性
速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集
RDD的5个主要属性
1.一组分片(Partition),数据集的基本组成单位.
每个Partition都会被逻辑映射成BlockManager的一个Block,
而这个Block会被一个Task负责计算。
2.一个计算每个分区的函数compute
3.RDD之间的依赖关系。
在部分数据丢失时,Spark可以通过依赖关系重新计算丢失的分区数据
4.RDD的分片函数-Partitioner
目前两种类型分片函数:HashPartitioner和RangePartitioner
5.存储每个Partition位置的列表
RDD的创建
1.由一个已经存在的Scala集合创建
2.外部存储系统的数据集创建
RDD支持两种操作:
1.转换(transformation):从现有的数据集创建一个新的数据集
常见的如:map filter flatmap mapPartitions
2.动作(action):在数据集上进行计算后,返回一个值给Driver程序
常见的如:reduce collect count saveAsTextFile
分享到:
相关推荐
spark-RDD的特性介绍及源码阅读必备基础
本文是spark RDD的基础论文,有非常好的指导意义。
学习PYTHON数据分析资料。数据科学速查表之Spark RDD 基础
>>> from pyspark import SparkContext加载数据对每个 RDD 元素执行函数对每个 RDD 元素执行函数,并拉平结果不改变键,对
关于spark最基础的RDD的介绍,上课用的讲义,英文版。
主要介绍Spark RDD的相关入门知识以及编程模型,附带介绍了Spark作业调度等一些底层工作机制的实现原理
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
Scala语言基础:由于Spark最初是使用Scala开发的,本书将详细介绍Scala的基础知识,包括语法、数据类型、控制结构、函数式编程等。 Spark与Scala的集成:展示如何在Scala环境下搭建Spark开发环境,包括安装、配置...
(一)Spark基础知识 (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 1:local模式启动 2:登录master服务器,在...
RDD特点: 1、 自动的进行内存和磁盘的切换 2、 基于Lineage的高效容错(第n个节点出错,会从第n-1个节点回复,血统容错) 3、 Task如果失败会自动进行特定次数的重试(默认4次) 4、
spark基础知识,包含了RDD介绍,本地调试,spark-shell 交互式,spark-submit 提交
Spark中的(弹性分布式数据集)简称RDD: Spark中的Transformation操作之Value数据类型的算子: Spark中的Transformation操作之Key-Value数据类型的算子: Spark中的Action操作: Transformation->map算子: ...
大主题:概述、Spark RDD定义与特性、Spark Streaming概念及特性、Spark DataSet定义及内部机制、Spark作业执行过程、Spark运行模式、Spark环境搭建、Scala 基础语法。适合初学者。
因此,Spark已被开发为另一种集群计算基础架构,由于其内存中计算功能,其运行速度比Hadoop快得多。 它非常适合迭代算法,并支持数据的批处理,交互,迭代和流处理。 许多频繁的项集挖掘算法已在Spark上进行了重新...
因此,在建立 Spark执行模型、检查点模型 和 RDD 关键度模型的 基础上,提出一种基于关 键度的检查点管理 (criticalitycheckpointmanagement,CCM)策略,其中包括检查点设置算法、失效恢复算法和清理算法.其中检查点设置...
spark介绍,包括spark简要介绍,以及rdd dataframe sparksql介绍
第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念...
Python数据科学速查表 - Bokeh Python数据科学速查表 - Jupyter Notebook Python数据科学速查表 - ...Python数据科学速查表 - Spark RDD 基础 Python数据科学速查表 - Spark SQL 基础 Python数据科学速查表 - 导入数据
Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...