Spark相关术语 - - ITeye博客

`

fushengxu

浏览: 16653 次
性别:
来自: 杭州

最近访客更多访客>>

eye_n

JThink

guodong666

joyol

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

0372：对新人标示鼓励
新人报道
fushengxu：大牛多多提意见
scala之trait详解一

Spark相关术语

博客分类：

spark

spark RDD MR Task scala

阅读更多

RDD

全称为Resilient Distributed Dataset，弹性分布式数据集。
就是分布在集群节点上的数据集，这些集合可以用来进行各种操作，能实现MapReduce不擅长的计算工作（比如迭代式、交互式和流式）。最重要的一点是，某个操作计算后的数据集可以缓存在内存中，然后给其他计算使用，这种在迭代计算中很常见。
原始的RDD经过一系列转化后，会在最后的RDD上触发一个动作，这个动作会生成一个Job。Job被划分为不同的阶段，每个阶段有一批计算任务（Task）组成，这批Task会被集群提交到集群上的计算节点去计算。

Iterator

迭代器，即是提供一级接口给其他人来访问RDD 中的数据集。
如下代码中的t所示：

RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}

Job

一道作业，即指应用完成某项需求所需要一系列工作，统一称为作业。

DAG

有向无环图，将作业分解成若干个阶段，每个阶段都是由若干个task 组成，而这些阶段都是有先后顺序的，故将这些阶段组织成DAG，来表示其先后顺序。

Stage

阶段，是指job 中的一个结点。

Taskset

每个阶段将由若干个task 组成，这些task 统一称为taskset。

Task

    Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示：
    与MR的区别
    MR 的缺点：
    1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
    2. 当有多个MR 时，每轮的MR 之间需要将结果写到hdfs 上。
    3. 只有map,reduce 二种计算模型，无法建立一组DAG 操作，来减少中间的一些操作开销。
以上的缺点都是spark 的优点。

分享到：

转：scala override的学习总结 | 第一阶段进阶总结

2016-05-25 19:18
浏览 486
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark总体架构和运行流程: 本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster Manager）、多个运行...

机器学习教程，本教程包含基于numpy、sklearn与tensorflow机器学习，也会包含利用spark、flink加快模型: 相关基本术语介绍介绍关于各类NMS相关的概念以及对应的实现方式关于Yolo模型中输入图片尺寸的影响分析针对Yolo训练结果的评估验证数据增强技术的分析边缘检测图像增强技术 yolo网络层剖析 2.2 其他图像检测算法...

Spark for GlassFrog-crx插件: 将Spark术语添加到GlassFrog Web应用程序作者：bol.com：Harm Jans＆Marc van Dongen更新历史记录：v1.0：向GlassFrog Web应用v1.0.1添加Spark术语：向styles.css v1.0.2添加bol.com配色方案：更多bol.com样式v1 ....

大数据资料（Hadoop、spark，hbase、hive、hue等）: 大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink: 在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的数据...

Scala 基础.pdf: Spark 和 Scala 能够紧密集成，例如使用Scala语言操作大数据集合的时候，用户可以像是在操作本地数据集那样简单操作Spark上的分布式数据集-RDD（这个概念是Spark 批处理的核心术语），继而简化大数据集的处理难度...

edx-Introduction-to-Big-Data-with-Apache-Spark: 作为文本相似性的ER-使用术语频率/文档反向频率的加权词袋第3部分：作为文本相似性的ER-余弦相似性第4部分：可扩展的ER 第5部分：分析（这是您单击并查看第4部分中的工作图的部分）实验4：使用Apache Spark的电影

Apache atlas使用说明文档.pdf（转载分享请注明出处）: 元数据管理apache atlas 自己总结的使用说明文档。主要包括Apache atlas 第一章： Apache atlas简介 1.1 apache atlas 架构介绍 2 1.1.1核心组件Core 2 1.1.2 Integration 4 ...第六章：Atlas 整合spark 22

各大数据组件介绍.pdf: 术语介绍： Broker Kafka集群包含⼀个或多个服务器，这种服务器被称为broker[5] Topic 每条发布到Kafka集群的消息都有⼀个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上⼀个Topic的消息虽然...

atr4s:具有Scala中最先进的自动术语识别方法的工具包: ATR4S：Scala中具有最先进的自动术语识别方法的工具包。 arXiv预印本。实施算法 AvgTermFreq 残差IDF 总TF-IDF 价值基本的组合基本 PostRankDC 关联怪异的领域相关性 NovelTopicModel 链接概率关键概念...

Scala的概念和安装: Spark 和 Scala 能够紧密集成，例如使用Scala语言操作大数据集合的时候，用户可以像是在操作本地数据集那样简单操作Spark上的分布式数据集-RDD（这个概念是Spark 批处理的核心术语），继而简化大数据集的处

Big_Data_Project_3:Spark、MapReduce、Scala: 大数据_项目_3 Tony Zheng 和我的大数据项目 3 的源代码 • 问题给定多个文档，使用 MapReduce 计算单词语义相似度输入：一个文本文件，每一行代表一个文档输出：按相似度降序排序的词项对...对术语相似度进行排序

华为HCIE-Big Data培训视频教程【共35集】.rar: 024 数据挖掘基本知识术语+数据预处理简单算法-李申浩 025 数据预处理简单算法+分类-李申浩 026 分类+离群点检测-李申浩 027 关联规则和分类-李申浩 028 分类-李申浩 029 聚类-李申浩 030 聚类和数据仓库介绍-...

大数据框架对比.docx: 在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的...

history-of-hadoop:可以在此处找到本文的更好版本: Hadoop 以一种已灭绝的大象物种命名，即所谓的黄色 Hadoop。... 索引是一种将每个术语映射到其位置的数据结构（想想一本书末尾的索引，带有术语和一个或多个相应的页码），因此当您搜索一个术语时，它会立即知道该

某大数据平台针对车联网场景的各个组件参数调优POC说明: 1.2术语与缩写解释 3 1.3 读者对象 4 1.4 参考资料 5 2、系统软硬件环境 5 2.1 硬件环境 5 2.2 软件环境 5 3、软件设定及调优 6 3.1 系统资源分配 6 3.2 Hadoop设定 6 3.3 HIVE设定 7 3.4 NIFI设定 7 3.5 SPARK设定 ...

大数据调查报告2017.pdf: 报告目录前言观点摘要一、调查背景（一）调查方法及样本（二）报告术语界定二、大数据市场规模（一）市场总体规模（二）细分领域规模三、大数据应用（一）大数据应用现状（二）大数据应用场景（三）...

大数据技术知识点概要: 对林子雨老师的大数据原理与应用课程的总结，基本是个人的理解，包括了对各个术语的解释。帮助读者入门大数据。

Global site tag (gtag.js) - Google Analytics