转载:http://xumingming.sinaapp.com/727/twitter-storm-code-analysis-tuple-send-proc/
这篇文章里面我们来看一下Storm里面的tuple到底是如何从一个tuple是怎么从一个bolt到另一个bolt上去的。
首先Bolt在发射一个tuple的时候是调用OutputCollector的emit或者emitDirect方法,
而这两个方法最终调用的是clojure代码里面的mk-transfer-fn方法:
帮助123456 ; worker.clj (defn mk-transfer-fn [transfer-queue] (fn [task ^Tuple tuple] (.put ^LinkedBlockingQueue transfer-queue [task tuple]) ))
这个方法其实只是往一个LinkedBlockingQueue里面放入一条新记录(task-id, tuple)
然后这个queue里面的内容会被下面这段代码处理
帮助010203040506070809101112131415161718192021222324252627 ; worker.clj ; 这里面的这个socket到底是什么东西? (async-loop (fn [^ArrayList drainer ^KryoTupleSerializer serializer] ; 从transfer-queue里面取出一个任务来 ; 这个任务其实就是(task, tuple) (let [felem (.take transfer-queue)] (.add drainer felem) (.drainTo transfer-queue drainer)) (read-locked endpoint-socket-lock ; 获取从node+port到socket的映射 (let [node+port->socket @node+port->socket ; 获取从task-id到node+port的映射 task->node+port @task->node+port] (doseq [[task ^Tuple tuple] drainer] ; 获取task对应的socket (let [socket (node+port->socket (task->node+port task)) ; 序列化这个tuple ser-tuple (.serialize serializer tuple)] ; 发送这个tuple (msg/send socket task ser-tuple) )) )) )
从上面代码可见,tuple最终是被序列化之后由msg/send方法通过socket发送给指定的task的。注意上面代码里面的async-loop表示会创建一个单独的线程来执行这些代码。可以storm会起一个独立线程来专门发送待发送的消息的。
我们来看下这个socket到底是个怎么样的东西。这个socket是在worker.clj里面被初始化的,看下面的代码:
帮助01020304050607080910111213 ; socket(worker.clj) (swap! node+port->socket merge (into {} (dofor [[node port :as endpoint] new-connections] [endpoint (msg/connect mq-context ((:node->;host assignment) node) port) ] )))
从上面代码可以看出socket其实是msg/connect创建出来的。那 msg/connect到底在做什么呢? 这个方法是定义在protocol.clj里面的:
帮助123456 (defprotocol Context (bind [context virtual-port]) (connect [context host port]) (send-local-task-empty [context virtual-port]) (term [context]) )
这里定义的只是一个接口而已,具体的实现是在zmq.clj里面。zmq是ZeroMQ的缩写, 可见storm的supervisor之间就是利用zeromq来传递tuple的。
zmq.clj里面的ZMQCOntext实现了Context接口:
帮助01020304050607080910111213141516171819202122232425262728293031323334 (deftype ZMQContext [context linger-ms ipc?] ; 实现Context接口 Context ; 从给定的virtual-port拉消息 (bind [this virtual-port] (->; context (mq/socket mq/pull) (mqvp/virtual-bind virtual-port) (ZMQConnection.) )) ; 给给定的host,port推送消息(push) (connect [this host port] (let [url (if ipc? (str "ipc://" port "ipc") (str "tcp://" host ":" port))] (->; context (mq/socket mq/push) (mq/set-linger linger-ms) (mq/connect url) (ZMQConnection.)))) ; 给本地的virtual-port发送一条空消息 (send-local-task-empty [this virtual-port] (let [pusher (->; context (mq/socket mq/push) (mqvp/virtual-connect virtual-port))] (mq/send pusher (mq/barr)) (.close pusher))) (term [this] (.term context)) ; 实现ZMQContextQuery接口 ZMQContextQuery (zmq-context [this] context))
总结一些Twitter Storm对于tuple的处理/创建过程:
Bolt创建一个tuple。
Worker把tuple, 以及这个tuple要发送的地址(task-id)组成一个对象(task-id, tuple)放进待发送队列(LinkedBlockingQueue).
一个单独的线程(async-loop所创建的线程)会取出发送队列里面的每个tuple来处理
Worker创建从当前task到目的task的zeromq连接。
序列化这个tuple并且通过这个zeromq的连接来发送这个tuple。
分享到:
相关推荐
storm之Tuple元组分词操作Java代码
Python 源码阅读:tuple元组,摘抄的资料。
简单的storm入门示例,从0到1让你清楚的理解storm.下面是代码示例: import backtype.storm.topology.BasicOutputCollector; import backtype.storm.topology.OutputFieldsDeclarer; import backtype.storm.topology...
运用C++11,模板编程技术,来反向解析任意tuple元素
tuple_utility, 缺少的C++ tuple 功能 tuple_utilityC++ 元组的实用工具。tuple_map:#include"tuple_utility.hpp"int main(){ auto t = std::make_tuple(0, 1
Spout已经成功读取文件并把每一行作为一个tuple(在Storm数据以tuple的形式传递)发射过来,我们这里需要创建两个bolt分别来负责解析每一行和对单词计数。 Bolt中最重要的是execute方法,每当一个tuple传过来时它便...
storm允许用户在spout中发射一个新的源tuple时为其指定一个message id, 这个message id可以是任意的object对象。多个源tuple可以共用一个message id,表示这多个源 tuple对用户来说是同一个消息单元。storm中记录级...
06.hive中的json解析函数--json-tuple.mp4
tuple中元素值排序,取top3 ("测试", (("张三", 5), ("李四", 1), ("王五", 9), ("马六", 6), ("田七", 13), ("赵八", 12))) 结果 ('测试', [('田七', 13), ('赵八', 12), ('王五', 9)])
vs2019 cpp20规范 tuple源码注释
类似Boost中Tuple的实现 自己编写的 请支持原创
项目地点Storm-cassandra的主要开发将在以下位置进行: : Point / stable(non-SNAPSHOT)发布源代码将被推送到: : 用于发布的Maven工件将在Maven Central上可用。从源头建造$ mvn install用法基本用法...
SAP MDM Tuple表内的lookup字段无法显示名称
本文实例讲述了Python数据类型之Tuple元组。分享给大家供大家参考,具体如下: tuple元组 1.概述 本质上是一种有序的集合,和列表非常的相似,列表使用[]表示,元组使用()表示. 特点:一旦初始化,就不能发生改变 2....
Tuple是Storm的数据模型,如['jdon',12346]多个Tuple组成事件流:Spout是读取需要分析处理的数据源,然后转为Tuples,这些数据源可以是Web日志、 API调用、数据库等等。Spout相当于事件流的生产者。
一个专门用于通过DVB接口发送卫星电机定位Diseqc命令的内部tuple-s2程序。_C_源码_下载.zip
Storm集群提供了强大的实时处理能力,Storm上下游处理节点由于任务差异而导致数据流元组Tuple处理超时从而影响系统吞吐量及其性能。针对该问题,提出了一种能够灵活调节Topology中各环节数据负载的反压机制,该机制...
python入门基础语法,python的List和Tuple类型知识点及代码举例
Tuple(元组) - 装包与拆包 装包与拆包 Python中,元组装包拆包是自动的,不需要任何函数,导致很多人对于函数返回值一会有括号一会没括号非常迷惑 a,b,c=1,2,3 #等价于 a,b,c=(1,2,3) print(a,type(a)) #因为等号...
Python Tuple(元组) tuple()方法描述Python 元组 tuple() 函数将列表转换为元组。语法参数seq -- 要转换为元组的序列。