【Spark九十】Spark定义计算逻辑函数最佳实践

bit1129

浏览: 1051484 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

这里所谓的Spark定义的计算逻辑函数指的是在Spark中，任务执行的计算逻辑都是定义在Driver Program的函数中的，由于Scala定义函数的多样性，因此有必要总结下各种情况下的函数定义，对Spark将函数序列化到计算节点(Worker)的影响

Spark建议的三种做法+一种不推荐的做法

1.定义内部函数常量

package spark.examples.rddapi

import org.apache.spark.{SparkContext, SparkConf}

object ReduceTest_20 {

  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("CoGroupTest_05")
    val sc = new SparkContext(conf);
    val z1 = sc.parallelize(List((3, "A"), (6, "B1"), (7, "Z1"), (9, "E"), (7, "F"), (9, "Y"), (77, "Z"), (31, "X")), 3)

    /**
     * Reduces the elements of this RDD using the specified commutative and
     * associative binary operator.
     */
    //r是结果不是集合，直接不是RDD
    def func(k1: (Int, String), k2: (Int, String)) = {
      (k1._1 + k2._1, k1._2 + k2._2)
    }

    //对RDD的元素类型不要求，不需要是KV类型
    val r = z1.reduce(func)
    println(r) //结果：(149,AB1Z1EFYZX)，对二元组的第一个元素和第二个元素分别做累加操作
  }

}

在上面这个例子定义了一个函数func，并且将它放到了main函数中作为一个局部变量，其实也可以把func定义为和main平级(此时func是个全局函数)，这种全局函数的定义跟下面第三种定义函数的方式道理一样。

2. 定义函数字面量直接传递到RDD定义的高阶函数中、

package spark.examples.rddapi

import org.apache.spark.{SparkContext, SparkConf}

object ReduceTest_21 {

  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("CoGroupTest_05")
    val sc = new SparkContext(conf);
    val z1 = sc.parallelize(List((3, "A"), (6, "B1"), (7, "Z1"), (9, "E"), (7, "F"), (9, "Y"), (77, "Z"), (31, "X")), 3)

    /**
     * Reduces the elements of this RDD using the specified commutative and
     * associative binary operator.
     */
    //r是结果不是集合，直接不是RDD
    //对RDD的元素类型不要求，不需要是KV类型
    val r = z1.reduce((k1: (Int, String), k2: (Int, String)) =>(k1._1 + k2._1, k1._2 + k2._2))
    println(r) //结果：(149,AB1Z1EFYZX)
  }

}

3. 将函数计算逻辑作为全局函数定义到Scala object中

Scala object函数定义：

package spark.examples.rddapi

object ReduceTestFunctions {
  def compute(k1: (Int, String), k2: (Int, String)) = {
    (k1._1 + k2._1, k1._2 + k2._2)
  }
}

Spark程序中引用Scala object函数定义

package spark.examples.rddapi

import org.apache.spark.{SparkContext, SparkConf}

object ReduceTestFunctions_20 {

  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("CoGroupTest_05")
    val sc = new SparkContext(conf);
    val z1 = sc.parallelize(List((3, "A"), (6, "B1"), (7, "Z1"), (9, "E"), (7, "F"), (9, "Y"), (77, "Z"), (31, "X")), 3)

    /**
     * Reduces the elements of this RDD using the specified commutative and
     * associative binary operator.
     */
    //r是结果不是集合，直接不是RDD
    //对RDD的元素类型不要求，不需要是KV类型
    val r = z1.reduce(ReduceTestFunctions.compute(_, _))
    println(r) //结果：(149,AB1Z1EFYZX)
  }

}

说明：

通过在Scala object中定义函数，因为Scala object是单例的，那么在序列化时就不需要序列化这个object，仅仅把function序列化到Worker节点即可

4.在普通Scala类中定义函数(不推荐）

查看图片附件

分享到：

【Spark九十一】Spark Streaming整合Kafk ... | 【Spark八十九】Spark Streaming处理速度 ...

2015-04-03 18:06
浏览 1558
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark九十】Spark定义计算逻辑函数最佳实践

1.定义内部函数常量

2. 定义函数字面量直接传递到RDD定义的高阶函数中、

3. 将函数计算逻辑作为全局函数定义到Scala object中

4.在普通Scala类中定义函数(不推荐）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark九十】Spark定义计算逻辑函数最佳实践

1.定义内部函数常量

2. 定义函数字面量直接传递到RDD定义的高阶函数中、

3. 将函数计算逻辑作为全局函数定义到Scala object中

4.在普通Scala类中定义函数(不推荐）

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

最近访客更多访客>>