`

Spark-编程和执行原理

 
阅读更多

 

 

用一个例子来说明

val rdd = sc.parallelize(List(('a',1),('a',2)))
val rdd2 = sc.parallelize(List(('b',1),('b',2)))

val x1 = rdd union rdd2
val x2 = rdd union rdd2
val x3 = rdd union rdd2
val x4 = rdd union rdd2
var a1 = x1 join x2
var a2 = x3 join x4
var a3 = a1 union a2
a3.collect

#结果
res14: Array[(Char, (Int, Int))] = Array((a,(1,1)), (a,(1,2)), (a,(2,1)), (a,(2,2)), (a,(1,1)), (a,(1,2)), (a,(2,1)), (a,(2,2)), (b,(1,1)), (b,(1,2)), (b,(2,1)), (b,(2,2)), (b,(1,1)), (b,(1,2)), (b,(2,1)), (b,(2,2)))

DAG图如下

 

 

参考

Spark 简单实例

 

 

 

 

 

 

 

 

  • 大小: 38.1 KB
分享到:
评论

相关推荐

    大数据技术实践——Spark词频统计

    利用Spark组件完成文本词频统计的任务,目标是学习Scala语言,理解Spark编程思想,基于Spark 思想,使用IDEA编写SparkWordCount程序,并能够在spark-shell中执行代码和分析执行过程。

    SparkStreaming编程讲解

    Sparkstreaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟...

    spark 高级数据分析 高清 书签

    如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...

    深入理解Spark 核心思想与源码分析

    如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...

    Spark分布式内存计算框架视频教程

    5.SparkStreaming工作原理 6.DStream及函数 7.集成Kafka 8.案例:百度搜索风云榜(实时ELT、窗口Window和状态State) 9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第六章、StructuredStreaming模块 1....

    Spark学习笔记(三):Spark DataFrame

    系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾 系列博客: Spark学习笔记(一):Spark概述与运行原理  Spark学习笔记(二):RDD编程基础  Spark SQL增加了DataFrame(即带有Schema信息的...

    服务器工程师岗位主要职责.doc

    _、20__服务器操作系统 4、了解防火墙、路由器、交换机的基础支持,有相关的调试经验 5、具有优秀的沟通能力与逻辑分析能力,工作认真仔细,吃苦耐劳 6、有较强的责任心和事业心,能严格落实执行公司明确的作业规范 ...

    大数据架构师的岗位职责.docx

    4、掌握hadoop、spark生态体系相关产品的使用,掌握MapReduce编程或Spark编程; 5、了解传统数据仓库理论及相关ETL工具,例如kettle/datastage; 6、熟悉Oracle、Mongodb、Mysql数据库的使用; 7、扎实的Java语言基础...

Global site tag (gtag.js) - Google Analytics