Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

m635674608

浏览: 4929764 次
性别:
来自: 南京

最近访客更多访客>>

millerchu

xdung

yunnick

lijun4010

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

DirectKafkaInputDStream 只在 driver 端接收数据，所以继承了 InputDStream，是没有 receivers 的

在结合 Spark Streaming 及 Kafka 的实时应用中，我们通常使用以下两个 API 来获取最初的 DStream（这里不关心这两个 API 的重载）:

KafkaUtils#createDirectStream

及

KafkaUtils#createStream

这两个 API 除了要传入的参数不同外，接收 kafka 数据的节点、拉取数据的时机也完全不同。本文将分别就两者进行详细分析。

KafkaUtils#createStream

先来分析 createStream ，在该函数中，会新建一个 KafkaInputDStream 对象， KafkaInputDStream 继承于 ReceiverInputDStream 。

继承ReceiverInputDStream的类需要重载 getReceiver 函数以提供用于接收数据的 receiver
recever 会调度到某个 executor 上并启动，不间断的接收数据并将收到的数据交由 ReceiverSupervisor 存成 block 作为 RDD 输入数据

KafkaInputDStream当然也实现了getReceiver方法，如下：

def getReceiver(): Receiver[(K, V)] = {
    if (!useReliableReceiver) {
      //< 不启用 WAL
      new KafkaReceiver[K, V, U, T](kafkaParams, topics, storageLevel)
    } else {
      //< 启用 WAL
      new ReliableKafkaReceiver[K, V, U, T](kafkaParams, topics, storageLevel)
    }
  }

根据是否启用 WAL，receiver 分为 KafkaReceiver 和 ReliableKafkaReceiver。

receiver 是如何被分发启动的
receiver 接受数据后数据的流转过程
并在揭开Spark Streaming神秘面纱③ - 动态生成 job 一文中详细介绍了
receiver 接受的数据存储为 block 后，如何将 blocks 作为 RDD 的输入数据
动态生成 job

以上两篇文章并没有具体介绍 receiver 是如何接收数据的，当然每个重载了 ReceiverInputDStream 的类的 receiver 接收数据方式都不相同。下图描述了 KafkaReceiver 接收数据的具体流程：

KafkaUtils#createDirectStream

在揭开Spark Streaming神秘面纱③ - 动态生成 job 中，介绍了在生成每个 batch 的过程中，会去取这个 batch 对应的 RDD，若未生成该 RDD，则会取该 RDD 对应的 blocks 数据来生成 RDD，最终会调用到 DStream#compute(validTime: Time) 函数，在 KafkaUtils#createDirectStream 调用中，会新建 DirectKafkaInputDStream ， DirectKafkaInputDStream#compute(validTime: Time) 会从 kafka 拉取数据并生成 RDD，流程如下：

如上图所示，该函数主要做了以下三个事情：

确定要接收的 partitions 的 offsetRange，以作为第2步创建的 RDD 的数据来源
创建 RDD 并执行 count 操作，使 RDD 真实具有数据
以 streamId、数据条数，offsetRanges 信息初始化 inputInfo 并添加到 JobScheduler 中

进一步看 KafkaRDD 的 getPartitions 实现：

override def getPartitions: Array[Partition] = {
    offsetRanges.zipWithIndex.map { case (o, i) =>
        val (host, port) = leaders(TopicAndPartition(o.topic, o.partition))
        new KafkaRDDPartition(i, o.topic, o.partition, o.fromOffset, o.untilOffset, host, port)
    }.toArray
  }

从上面的代码可以很明显看到，KafkaRDD 的 partition 数据与 Kafka topic 的某个 partition 的 o.fromOffset 至 o.untilOffset 数据是相对应的，也就是说 KafkaRDD 的 partition 与 Kafka partition 是一一对应的

通过以上分析，我们可以对这两种方式的区别做一个总结：

createStream会使用 Receiver；而createDirectStream不会
createStream使用的 Receiver 会分发到某个 executor 上去启动并接受数据；而createDirectStream直接在 driver 上接收数据
createStream使用 Receiver 源源不断的接收数据并把数据交给 ReceiverSupervisor 处理最终存储为 blocks 作为 RDD 的输入，从 kafka 拉取数据与计算消费数据相互独立；而createDirectStream会在每个 batch 拉取数据并就地消费，到下个 batch 再次拉取消费，周而复始，从 kafka 拉取数据与计算消费数据是连续的，没有独立开
createStream中创建的KafkaInputDStream 每个 batch 所对应的 RDD 的 partition 不与 Kafka partition 一一对应；而createDirectStream中创建的 DirectKafkaInputDStream 每个 batch 所对应的 RDD 的 partition 与 Kafka partition 一一对应

来自：http://www.jianshu.com/p/60344796f8a5

http://www.open-open.com/lib/view/open1482308535541.html

分享到：

Android安装Fiddler证书抓取App的HTTPS ... | Spark Streaming中KafkaReceiver内幕实现 ...

2017-06-12 18:40
浏览 915
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

3796 i-FRAME 安装、操作和维护手册: 3796 i-FRAME 安装、操作和维护手册

我的visio画图资源备用: 我的visio画图

NPOI是指构建在POI 3.x版本之上的一个程序: NPOI可以在没有安装Office的情况下对Word或Excel进行读写，NPOI是一个开源的C#读写Excel、WORD等微软OLE2组件文档的项目

基于STM32F103C8单片机设计-旋转编码器数码管显示程序KEIL工程源码.zip: STM32学习软件编程资料，STM32F103C8单片机经典外设应用设计实例软件源代码，KEIL工程文件，可供学习参考。

VoLTE高丢包优化指导书.xlsx: VoLTE高丢包优化指导书

LTE容量优化高负荷小区优化指导书.docx: 5G通信行业、网络优化、通信工程建设资料

中国移动无线、传输专业项目全生命周期、建设期、施工期控制标准.docx: 5G通信行业、网络优化、通信工程建设资料

基于Springboot+Vue校园周边美食探索及分享平台毕业源码案例设计.zip: 网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。系统化是必要的，设计网上系统不仅会节约人力和管理成本，还会安全保存庞大的数据量，对于信息的维护和检索也不需要花费很多时间，非常的便利。网上系统是在MySQL中建立数据表保存信息，运用SpringBoot框架和Java语言编写。并按照软件设计开发流程进行设计实现。系统具备友好性且功能完善。网上系统在让售信息规范化的同时，也能及时通过数据输入的有效性规则检测出错误数据，让数据的录入达到准确性的目的，进而提升数据的可靠性，让系统数据的错误率降至最低。关键词：vue；MySQL；SpringBoot框架【引流】 Java、Python、Node.js、Spring Boot、Django、Express、MySQL、PostgreSQL、MongoDB、React、Angular、Vue、Bootstrap、Material-UI、Redis、Docker、Kubernetes

基于Springboot+Vue善筹网（众筹）前后台实现设计-毕业源码案例设计.zip: 网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。系统化是必要的，设计网上系统不仅会节约人力和管理成本，还会安全保存庞大的数据量，对于信息的维护和检索也不需要花费很多时间，非常的便利。网上系统是在MySQL中建立数据表保存信息，运用SpringBoot框架和Java语言编写。并按照软件设计开发流程进行设计实现。系统具备友好性且功能完善。网上系统在让售信息规范化的同时，也能及时通过数据输入的有效性规则检测出错误数据，让数据的录入达到准确性的目的，进而提升数据的可靠性，让系统数据的错误率降至最低。关键词：vue；MySQL；SpringBoot框架【引流】 Java、Python、Node.js、Spring Boot、Django、Express、MySQL、PostgreSQL、MongoDB、React、Angular、Vue、Bootstrap、Material-UI、Redis、Docker、Kubernetes

203ssm-mysql-jsp 包头市交通管理局路况查询系统.zip（可运行源码+数据库文件+）: 该课题主要是以SpringMVC模式运行的，采用了mysql数据库进行数据的管理，掌握并且熟练使用百度API相关技术。系统分为了管理员用户和一般用户，主要有以下模块：管理员用户： 1.实时路况管理：实时路况的信息采用了百度地图进行直观的管理，利用了GIS相关技术进行管理，能够让用户方便的第一时间查看到相应的地图信息，以及实时路况信息。 2.投诉留言管理：实现了对投诉留言信息的查看和回复。 3.系统信息设置：实现了系统的访问数据的统计，以及针对系统的管理员用户和管理员密码进行管理。 4.用户信息管理：管理了一般用户的基本信息情况，针对用户的资料进行修改管理。一般用户： 1.用户资料管理：实现了用户个人的资料信息管理。 2.路况信息查看：实现了对路径的实时信息的查看，某个路段在某时间的交通情况的查看，以三种情况代表路况情况（拥挤、缓行和畅通） 3.路况分析：采用了折线图，分析每天或者某个月的路况信息，以折线图形式直观展示。该功能采用jFreeChart库实现。 4.留言发布：针对一些路况信息，进行留言反馈，并能查看管理员反馈信息。

施工现场安全技术交底模板.doc: 5G通信行业、网络优化、通信工程建设资料。

GSM室分优化掉话专题总结报告.docx: 5G通信、网络优化与通信建设

通信线缆基本理论.docx: 5G通信行业、网络优化、通信工程建设资料。

node-v12.20.1-sunos-x64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

199-数据安全治理的思考与规划-论剑.pdf: 199-数据安全治理的思考与规划-论剑.pdf

SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Local: SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments

基于Springboot+Vue校园资料分享平台毕业源码案例设计.zip: 网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。系统化是必要的，设计网上系统不仅会节约人力和管理成本，还会安全保存庞大的数据量，对于信息的维护和检索也不需要花费很多时间，非常的便利。网上系统是在MySQL中建立数据表保存信息，运用SpringBoot框架和Java语言编写。并按照软件设计开发流程进行设计实现。系统具备友好性且功能完善。网上系统在让售信息规范化的同时，也能及时通过数据输入的有效性规则检测出错误数据，让数据的录入达到准确性的目的，进而提升数据的可靠性，让系统数据的错误率降至最低。关键词：vue；MySQL；SpringBoot框架【引流】 Java、Python、Node.js、Spring Boot、Django、Express、MySQL、PostgreSQL、MongoDB、React、Angular、Vue、Bootstrap、Material-UI、Redis、Docker、Kubernetes

基于Springboot+Vue大学生科创项目在线管理系统的设计-毕业源码案例设计.zip: 网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。系统化是必要的，设计网上系统不仅会节约人力和管理成本，还会安全保存庞大的数据量，对于信息的维护和检索也不需要花费很多时间，非常的便利。网上系统是在MySQL中建立数据表保存信息，运用SpringBoot框架和Java语言编写。并按照软件设计开发流程进行设计实现。系统具备友好性且功能完善。网上系统在让售信息规范化的同时，也能及时通过数据输入的有效性规则检测出错误数据，让数据的录入达到准确性的目的，进而提升数据的可靠性，让系统数据的错误率降至最低。关键词：vue；MySQL；SpringBoot框架【引流】 Java、Python、Node.js、Spring Boot、Django、Express、MySQL、PostgreSQL、MongoDB、React、Angular、Vue、Bootstrap、Material-UI、Redis、Docker、Kubernetes

基于微信平台的报刊订阅小程序的设计与实现ssm后端毕业源码案例设计.zip: 网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。系统化是必要的，设计网上系统不仅会节约人力和管理成本，还会安全保存庞大的数据量，对于信息的维护和检索也不需要花费很多时间，非常的便利。网上系统是在MySQL中建立数据表保存信息，运用SpringBoot框架和Java语言编写。并按照软件设计开发流程进行设计实现。系统具备友好性且功能完善。网上系统在让售信息规范化的同时，也能及时通过数据输入的有效性规则检测出错误数据，让数据的录入达到准确性的目的，进而提升数据的可靠性，让系统数据的错误率降至最低。关键词：vue；MySQL；SpringBoot框架【引流】 Java、Python、Node.js、Spring Boot、Django、Express、MySQL、PostgreSQL、MongoDB、React、Angular、Vue、Bootstrap、Material-UI、Redis、Docker、Kubernetes

计算机网络实验报告-实验七：RIP、OSPF动态路由协议: 实验内容七：RIP、OSPF动态路由协议实验目的：配置RIP、OSFP动态路由实验任务1：RIP路由配置实验（1）添加三台2811型号路由器，为每台路由器添加网络接口模块先关闭路由器电源，电源开关如下图。 ( 实际操作中，为确保电路安全，只有关机后,才可以在路由器中插入新的网络模块卡，类似往计算机中插入网卡。）在三台路由器上均添加模块NM-2FE2W，拖拽右下角模块到左上方路由器插槽中，如下图所示。（NM-2FE2W有2个快速以太网接口）。插入新模块后，再重新开启路由器。（2）添加三台PC机，所有设备之间用交叉线连接，配置网络接口IP地址。按照拓扑图中地址设置，配置路由器各网络接口IP地址、子网掩码。配置PC机各网络接口IP地址、子网掩码、默认网关。（3）分别查看三台路由器的路由表 Router# show ip route 三个路由表中，只显示了每台路由器直接连接的网络地址和接口。（4）在三台路由器上，分别配置动态RIP路由协议，自动更新路由表。 R1路由器示例： Router>enable Router#config

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论