`
fushengxu
  • 浏览: 16653 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Spark相关术语

阅读更多
RDD

全称为Resilient Distributed Dataset,弹性分布式数据集。
    就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的计算工作(比如迭代式、交互式和流式)。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。
    原始的RDD经过一系列转化后,会在最后的RDD上触发一个动作,这个动作会生成一个Job。Job被划分为不同的阶段,每个阶段有一批计算任务(Task)组成,这批Task会被集群提交到集群上的计算节点去计算。

Iterator

    迭代器,即是提供一级接口给其他人来访问RDD 中的数据集。
    如下代码中的t所示:
RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}

Job

一道作业,即指应用完成某项需求所需要一系列工作,统一称为作业。
DAG

    有向无环图,将作业分解成若干个阶段,每个阶段都是由若干个task 组成,而这些阶段都是有先后顺序的,故将这些阶段组织成DAG,来表示其先后顺序。
Stage

    阶段,是指job 中的一个结点。
Taskset

    每个阶段将由若干个task 组成,这些task 统一称为taskset。
Task

    Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示:
    与MR的区别
    MR 的缺点:
    1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
    2. 当有多个MR 时,每轮的MR 之间需要将结果写到hdfs 上。
    3. 只有map,reduce 二种计算模型,无法建立一组DAG 操作,来减少中间的一些操作开销。
以上的缺点都是spark 的优点。
分享到:
评论

相关推荐

    Spark总体架构和运行流程

    本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行...

    机器学习教程,本教程包含基于numpy、sklearn与tensorflow机器学习,也会包含利用spark、flink加快模型

    相关基本术语介绍 介绍关于各类NMS相关的概念以及对应的实现方式 关于Yolo模型中输入图片尺寸的影响分析 针对Yolo训练结果的评估验证 数据增强技术的分析 边缘检测图像增强技术 yolo网络层剖析 2.2 其他图像检测算法...

    Spark for GlassFrog-crx插件

    将Spark术语添加到GlassFrog Web应用程序 作者:bol.com:Harm Jans&Marc van Dongen更新历史记录:v1.0:向GlassFrog Web应用v1.0.1添加Spark术语:向styles.css v1.0.2添加bol.com配色方案:更多bol.com样式v1 ....

    大数据资料(Hadoop、spark,hbase、hive、hue等)

    大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

    在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据...

    Scala 基础.pdf

    Spark 和 Scala 能够紧密集成, 例如 使用Scala语言操作大数据集合的时候,用户可以像是在操作本地数据集那样简单操作Spark上的分布式数据 集-RDD(这个概念是Spark 批处理的核心术语),继而简化大数据集的处理难度...

    edx-Introduction-to-Big-Data-with-Apache-Spark

    作为文本相似性的ER-使用术语频率/文档反向频率的加权词袋第3部分:作为文本相似性的ER-余弦相似性第4部分:可扩展的ER 第5部分:分析(这是您单击并查看第4部分中的工作图的部分)实验4:使用Apache Spark的电影

    Apache atlas使用说明文档.pdf(转载分享请注明出处)

    元数据管理apache atlas 自己总结的使用说明文档。主要包括Apache atlas 第一章: Apache atlas简介 1.1 apache atlas 架构介绍 2 1.1.1核心组件Core 2 1.1.2 Integration 4 ...第六章:Atlas 整合spark 22

    各大数据组件介绍.pdf

    术语介绍: Broker Kafka集群包含⼀个或多个服务器,这种服务器被称为broker[5] Topic 每条发布到Kafka集群的消息都有⼀个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上⼀个Topic的消息虽然...

    atr4s:具有Scala中最先进的自动术语识别方法的工具包

    ATR4S:Scala中具有最先进的自动术语识别方法的工具包。 arXiv预印本 。 实施算法 AvgTermFreq 残差IDF 总TF-IDF 价值 基本的 组合基本 PostRankDC 关联 怪异的 领域相关性 NovelTopicModel 链接概率 关键概念...

    Scala的概念和安装

    Spark 和 Scala 能够紧密集成,例如 使用Scala语言操作大数据集合的时候,用户可以像是在操作本地数据集那样简单操作Spark上的分布式数据集-RDD(这个概念是Spark 批处理的核心术语),继而简化大数据集的处

    Big_Data_Project_3:Spark、MapReduce、Scala

    大数据_项目_3 Tony Zheng 和我的大数据项目 3 的源代码 • 问题 给定多个文档,使用 MapReduce 计算单词语义相似度 输入:一个文本文件,每一行代表一个文档 输出:按相似度降序排序的词项对...对术语相似度进行排序

    华为HCIE-Big Data培训视频教程【共35集】.rar

    024 数据挖掘基本知识术语+数据预处理简单算法-李申浩 025 数据预处理简单算法+分类-李申浩 026 分类+离群点检测-李申浩 027 关联规则和分类-李申浩 028 分类-李申浩 029 聚类-李申浩 030 聚类和数据仓库介绍-...

    大数据框架对比.docx

    在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的...

    history-of-hadoop:可以在此处找到本文的更好版本

    Hadoop 以一种已灭绝的大象物种命名,即所谓的黄色 Hadoop。... 索引是一种将每个术语映射到其位置的数据结构(想想一本书末尾的索引,带有术语和一个或多个相应的页码),因此当您搜索一个术语时,它会立即知道该

    某大数据平台针对车联网场景的各个组件参数调优POC说明

    1.2术语与缩写解释 3 1.3 读者对象 4 1.4 参考资料 5 2、系统软硬件环境 5 2.1 硬件环境 5 2.2 软件环境 5 3、软件设定及调优 6 3.1 系统资源分配 6 3.2 Hadoop设定 6 3.3 HIVE设定 7 3.4 NIFI设定 7 3.5 SPARK设定 ...

    大数据调查报告2017.pdf

    报告目录 前言 观点摘要 一、调查背景 (一)调查方法及样本 (二)报告术语界定 二、大数据市场规模 (一)市场总体规模 (二)细分领域规模 三、大数据应用 (一)大数据应用现状 (二)大数据应用场景 (三)...

    大数据技术知识点概要

    对林子雨老师的大数据原理与应用课程的总结,基本是个人的理解,包括了对各个术语的解释。帮助读者入门大数据。

Global site tag (gtag.js) - Google Analytics