15、Spark Streaming源码解读之No Receivers彻底思考 -

zhou_yuefei

浏览: 40621 次

最近访客更多访客>>

luojianbing

zj619

fmq2008

JThink

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

15、Spark Streaming源码解读之No Receivers彻底思考

博客分类：

spark streaming 高级

Spark Streaming Spark Receiver Kafka DStream

在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读，但是现在开发Spark Streaming的应用越来越多的采用No Receivers（Direct Approach）的方式，No Receiver的方式的优势：
1. 更强的控制自由度
2. 语义一致性

其实No Receivers的方式更符合我们读取数据，操作数据的思路的。因为Spark 本身是一个计算框架，他底层会有数据来源，如果没有Receivers，我们直接操作数据来源，这其实是一种更自然的方式。如果要操作数据来源，肯定要有一个封装器，这个封装器一定是RDD类型。以直接访问Kafka中的数据为例，看一下源码中直接读写Kafka中数据的例子代码：

object DirectKafkaWordCount{
  def main(args:Array[String]){
if(args.length <2){
System.err.println(s"""
|Usage:DirectKafkaWordCount<brokers><topics>
|<brokers> is a list of one or more Kafka brokers
|<topics> is a list of one or more kafka topics to consume from
|
""".stripMargin)
System.exit(1)
}
 
StreamingExamples.setStreamingLogLevels()
 
    val Array(brokers, topics)= args
 
// Create context with 2 second batch interval
    val sparkConf =newSparkConf().setAppName("DirectKafkaWordCount")
    val ssc =newStreamingContext(sparkConf,Seconds(2))
 
// Create direct kafka stream with brokers and topics
    val topicsSet = topics.split(",").toSet
    val kafkaParams =Map[String,String]("metadata.broker.list"-> brokers)
    val messages =KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](
      ssc, kafkaParams, topicsSet)
 
// Get the lines, split them into words, count the words and print
    val lines = messages.map(_._2)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x =>(x,1L)).reduceByKey(_ + _)
    wordCounts.print()
 
// Start the computation
    ssc.start()
    ssc.awaitTermination()
}
}

Spark streaming 会将数据源封装成一个RDD，也就是KafkaRDD：

/**
 * A batch-oriented interface for consuming from Kafka.
 * Starting and ending offsets are specified in advance,
 * so that you can control exactly-once semantics.
 * @param kafkaParams Kafka <a href="http://kafka.apache.org/documentation.html#configuration">
 * configuration parameters</a>. Requires "metadata.broker.list" or "bootstrap.servers" to be set
 * with Kafka broker(s) specified in host1:port1,host2:port2 form.
 * @param offsetRanges offset ranges that define the Kafka data belonging to this RDD
 * @param messageHandler function for translating each message into the desired type
 */
private[kafka]
classKafkaRDD[
  K:ClassTag,
  V:ClassTag,
  U <:Decoder[_]:ClassTag,
  T <:Decoder[_]:ClassTag,
  R:ClassTag]private[spark](
    sc:SparkContext,
    kafkaParams:Map[String,String],
    val offsetRanges:Array[OffsetRange], //该RDD的数据偏移量
    leaders:Map[TopicAndPartition,(String,Int)],
    messageHandler:MessageAndMetadata[K, V]=> R
)extends RDD[R](sc,Nil) with Logging with HasOffsetRanges

可以看到KafkaRDD 混入了HasOffsetRanges，它是一个trait：

trait HasOffsetRanges{
  def offsetRanges:Array[OffsetRange]
}

其中OffsetRange,标识了RDD的数据的主题、分区、开始偏移量和结束偏移量：

inal classOffsetRangeprivate(
    val topic:String,
    val partition:Int,
    val fromOffset:Long,
    val untilOffset:Long)extendsSerializable

回到KafkaRDD，看一下KafkaRDD的getPartitions方法：

  override def getPartitions:Array[Partition]={
    offsetRanges.zipWithIndex.map {case(o, i)=>
        val (host, port)= leaders(TopicAndPartition(o.topic, o.partition))
newKafkaRDDPartition(i, o.topic, o.partition, o.fromOffset, o.untilOffset, host, port)
}.toArray
}

返回KafkaRDDPartition：

private[kafka]
classKafkaRDDPartition(
  val index:Int,
  val topic:String,
  val partition:Int,
  val fromOffset:Long,
  val untilOffset:Long,
  val host:String,
  val port:Int
)extendsPartition{
/** Number of messages this partition refers to */
  def count():Long= untilOffset - fromOffset
}

KafkaRDDPartition清晰的描述了数据的具体位置，每个KafkaRDDPartition分区的数据交给KafkaRDD的compute方法计算：

  override def compute(thePart:Partition, context:TaskContext):Iterator[R]={
    val part = thePart.asInstanceOf[KafkaRDDPartition]
assert(part.fromOffset <= part.untilOffset, errBeginAfterEnd(part))
if(part.fromOffset == part.untilOffset){
      log.info(s"Beginning offset ${part.fromOffset} is the same as ending offset "+
        s"skipping ${part.topic} ${part.partition}")
Iterator.empty
}else{
newKafkaRDDIterator(part, context)
}
}

KafkaRDD的compute方法返回了KafkaIterator对象：

privateclassKafkaRDDIterator(
      part:KafkaRDDPartition,
      context:TaskContext)extendsNextIterator[R]{
 
    context.addTaskCompletionListener{ context => closeIfNeeded()}
 
    log.info(s"Computing topic ${part.topic}, partition ${part.partition} "+
      s"offsets ${part.fromOffset} -> ${part.untilOffset}")
 
    val kc =newKafkaCluster(kafkaParams)
    val keyDecoder = classTag[U].runtimeClass.getConstructor(classOf[VerifiableProperties])
.newInstance(kc.config.props)
.asInstanceOf[Decoder[K]]
    val valueDecoder = classTag[T].runtimeClass.getConstructor(classOf[VerifiableProperties])
.newInstance(kc.config.props)
.asInstanceOf[Decoder[V]]
    val consumer = connectLeader
    var requestOffset = part.fromOffset
    var iter:Iterator[MessageAndOffset]=null
    //..................
}

KafkaIterator中创建了一个KakfkaCluster对象用于与Kafka集群进行交互，获取数据。

回到开头的例子，我们使用 KafkaUtils.createDirectStream 创建了InputDStream：

    val messages =KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](
      ssc, kafkaParams, topicsSet)

看一下createDirectStream源码：

  def createDirectStream[
    K:ClassTag,
    V:ClassTag,
    KD <:Decoder[K]:ClassTag,
    VD <:Decoder[V]:ClassTag](
      ssc:StreamingContext,
      kafkaParams:Map[String,String],
      topics:Set[String]
):InputDStream[(K, V)]={
    val messageHandler =(mmd:MessageAndMetadata[K, V])=>(mmd.key, mmd.message)
//创建KakfaCluster对象
    val kc =newKafkaCluster(kafkaParams)
//更具kc的信息获取数据偏移量
    val fromOffsets = getFromOffsets(kc, kafkaParams, topics)
newDirectKafkaInputDStream[K, V, KD, VD,(K, V)](
      ssc, kafkaParams, fromOffsets, messageHandler)
}

首先通过KafkaCluster从Kafka集群获取信息，创建DirectKafkaInputDStream对象返回

DirectKafkaInputDStream的compute方法源码：

 override def compute(validTime:Time):Option[KafkaRDD[K, V, U, T, R]]={
    //计算最近的数据终止偏移量
    val untilOffsets = clamp(latestLeaderOffsets(maxRetries))
    //利用数据的偏移量创建KafkaRDD
    val rdd =KafkaRDD[K, V, U, T, R](
      context.sparkContext, kafkaParams, currentOffsets, untilOffsets, messageHandler)
 
// Report the record number and metadata of this batch interval to InputInfoTracker.
    val offsetRanges = currentOffsets.map {case(tp, fo)=>
      val uo = untilOffsets(tp)
OffsetRange(tp.topic, tp.partition, fo, uo.offset)
}
    val description = offsetRanges.filter { offsetRange =>
// Don't display empty ranges.
      offsetRange.fromOffset != offsetRange.untilOffset
}.map { offsetRange =>
      s"topic: ${offsetRange.topic}\tpartition: ${offsetRange.partition}\t"+
        s"offsets: ${offsetRange.fromOffset} to ${offsetRange.untilOffset}"
}.mkString("\n")
// Copy offsetRanges to immutable.List to prevent from being modified by the user
    val metadata =Map(
"offsets"-> offsetRanges.toList,
StreamInputInfo.METADATA_KEY_DESCRIPTION -> description)
    val inputInfo =StreamInputInfo(id, rdd.count, metadata)
    ssc.scheduler.inputInfoTracker.reportInfo(validTime, inputInfo)
 
    currentOffsets = untilOffsets.map(kv => kv._1 -> kv._2.offset)
Some(rdd)
}

可以看到DirectKafkaInputDStream的compute方法中，首先从Kafka集群获取数据的偏移量，然后利用获取偏移量创建RDD，这个Receiver的RDD创建方式不同。

总结：

而且KafkaRDDPartition只能属于一个topic，不能让partition跨多个topic，直接消费一个kafkatopic，topic不断进来、数据不断偏移，Offset代表kafka数据偏移量指针。

数据不断流进kafka，batchDuration假如每十秒都会从配置的topic中消费数据，每次会消费一部分直到消费完，下一个batchDuration会再流进来的数据，又可以从头开始读或上一个数据的基础上读取数据。

思考直接抓取kafka数据和receiver读取数据：

好处一：

直接抓取fakfa数据的好处，没有缓存，不会出现内存溢出等之类的问题。但是如果kafka Receiver的方式读取会存在缓存的问题，需要设置读取的频率和block interval等信息。

好处二：

采用receiver方式的话receiver默认情况需要和worker的executor绑定，不方便做分布式，当然可以配置成分布式，采用direct方式默认情况下数据会存在多个worker上的executor。Kafkardd数据默认都是分布在多个executor上的，天然数据是分布式的存在多个executor，而receiver就不方便计算。

好处三：

数据消费的问题，在实际操作的时候采用receiver的方式有个弊端，消费数据来不及处理即操作数据有deLay多才时，Spark Streaming程序有可能奔溃。但如果是direct方式访问kafka数据不会存在此类情况。因为diect方式直接读取kafka数据，如果delay就不进行下一个batchDuration读取。

好处四：

完全的语义一致性，不会重复消费数据，而且保证数据一定被消费，跟kafka进行交互，只有数据真正执行成功之后才会记录下来。

生产环境下强烈建议采用direct方式读取kafka数据。

分享到：

14.Spark Streaming源码解读:State管理之up ... | 第12课：Spark Streaming源码解读之Execut ...

2016-06-03 09:07
浏览 1271
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

15、Spark Streaming源码解读之No Receivers彻底思考

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

15、Spark Streaming源码解读之No Receivers彻底思考

评论

发表评论

相关推荐

14.Spark Streaming源码解读:State管理之updateStateByKey和mapWithState解密

11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究

10.Spark Streaming源码分析:Receiver数据接收全过程详解

9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考

5.Spark Streaming流计算框架的运行流程源码分析

3.spark streaming Job 架构和容错解析

最近访客更多访客>>