流星实时数据开发平台
一个实时地干离线的活的流式计算平台!
基于hive sql,能进行任何复杂业务的sql运算。
UV,PV,新UV,跟踪类指标,在线时长、在线人数等等,都可以算。并且是0误差。
本平台已用每天几十亿行的数据验证通过。
源码地址:https://github.com/meteorchenwu/meteor
一、特点
1、支持任何量级的0误差去重。
2、支持任何量级的大表join。
3、基于hive sql,支持创建中间表。
4、分钟级时延,一般为2分钟。(依赖于spark stream去kafka取数据的间隔频次)
二、使用技术
1、框架:kafka,spark-stream,spark-sql,redis集群,cassandra(可选),mysql
2、开发语言:java,scala
三、示意图
1、系统按固定间隔(如1min)去kafka拉数据,叫时间片数据。
2、系统将各时间片数据转换成表,基于hive sql进行运算。
3、系统对各时间片数据独立无干扰进行运算。每个表系统都会自动加上当前时间片的uuid。
4、通过函数:c_sum,c_distinct,c_join,c_max和c_min。利用redis或cassandra,对所有时间片进行全局运算。
四、SQL帮助文档
五、demo安装示例
demo安装
demo示例
六、问题
查看详情
相关推荐
为此我们为Spark开发者提供一套可以完成任务提交、数据接入、任务监控、任务报警、错误日志查看的一体化实时计算的开发平台real-time computing service。通过我们的平台可以: 自助本地提交任务;jar包版本维护在...
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
流式计算.pdf流式计算.pdf流式计算.pdf流式计算.pdf流式计算.pdf
Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图计算。 Spark主要用于大数据的...
介绍spark streaming,RDD,kafka安装及使用,架构等,消息队列的使用,及其他应用场景。
详细介绍了其中的核心功能规则订阅应用以及实现算法,讨论了其中的核心技术Spark Streaming流处理技术,并通过相关对比实验,得出算法在不同运行参数配置下的数据处理能力,为之后的平台部署,根据数据流量预估资源...
近年来,随着以Spark-streaming、Storm为代表的流式计算系统的出现,让DDoS攻击检测不仅可以保持较高的精度,也更加具有实时性。选取三种比较具有代表性的DDoS攻击进行危险建模,构建以Spark-streaming为处理内核、...
15丨流式计算的代表:Storm、Flink、SparkStreaming.html
解决实时数据的传输问题:流式计算数据处理系统需要进行对实时信息进行及时、不间断地处理。Flume从节点上实时采集数据并将数据以日志的形式存储。Kafka负责低时延的收发日志数据。Storm系统读取Kafka中的数据,并及时...
spark streaming spark流式计算 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据
SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍SparkStreaming实时计算框架的原理与特点、适用场景。...
其次,利用 Spark Streaming 流式计算的特点,系统能够对网络 数据进行实时监控,对异常数据及时作出判断和响应。且通过对有效参数的调整控 制实现对 Spark Streaming 实时计算的性能分析与预测。最后,对于 Spark ...
基于spark的电商商品智能分析系统,采用流式计算电商商品关注度,实现商品智能推荐及关联分析.zip
摘要目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云
3.SparkStreaming计算思路 4.入门案例 5.SparkStreaming工作原理 6.DStream及函数 7.集成Kafka 8.案例:百度搜索风云榜(实时ELT、窗口Window和状态State) 9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第...
实时指标计算引擎-Spark-Part_1_杨鑫
最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近...