什么是实时流式计算:
实时流式计算是实时计算和流式计算的叠加。
实时计算:响应时间受到实时约束的计算,时间约束很短,以秒,毫秒为单位
流式计算:在不断产生的数据流上进行的计算
数据流由基本数据单元组成
数据流不断产生,没有尽头,计算结果也不断产生/更新
实时流式计算:在不断产生的数据流上的实时计算,输入数据流式不断产生的没有尽头的,计算结果的产生时间相对于数据流入的时间是实时的。
实时流式计算特点:
1.流式处理,数据不断流入,流出,与批处理相对,例如:动态刷新的PV线,每日PV统计报表
2.时效性高,很快得到结果,这里的快是相对的,相对于业务需求足够快,相对于其他技术如批处理足够快
适合场景:
1.实时流式数据分析,例如实时统计,实时预警
2.实时ETL,例如实时日志过滤以及标准化
3.持续计算,例如新闻自动发现分析
关键技术点:
系统架构(单机架构,分布式架构,master-slave)、延迟吞吐、编程模型(为开发者提供简单的编程方式和接口,将重点放在业务上,提高开发速度)、数据传输、高可用性(保证系统稳定的运行)、可维护性(当大量的工作自动来做,说明系统的可维护性高)
常见的实时流系统:
MQ加Worker进程,S4,SparkStreaming,Strom
Storm的计算模型:
DAG模型:spout/bolt/tuple/stream/grouping
Storm的系统架构:
nimbus/supervisor/woker/executor/zk
相关推荐
kafka-and-strom-event-processing-in-realtime-131023085422-phpapp01.pdf
这个是strom 1.0.2 的jar 包,版本比较老了,但是还是
strom学习笔记
strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的...
strom zookeeper kafka 部署文档 原理解析
Strom项目依赖所需jar
pg-strom, PG Strom开发知识库 pgpg strom是PostgreSQL数据库的定制扫描提供程序模块。 它是用于使用GPU设备进行accelarate顺序扫描,hash-基于表的Join 和聚合函数。 它的基本概念是CPU和GPU应该集中在它们具有优势...
Strom的基础概念,包括核心概念释义,如拓扑等;一些常用API方法和参数详解;大方面的工作流程;
Strom webService测试工具,类似于soapUI,个人更喜欢这个
排版紧凑易于阅读,笔记详细适合初学者下载学习,有详细的实践代码和说明,欢迎下载学习
GPU数据库PG_strom的安装及使用,包括postgresql的安装, PG_strom的安装。
tinkerforge-strom-ui
strom介绍,包括出现背景,应用场景,环境搭建,基本架构。
postgresql数据库插件PG-Strom中Scan算子执行流程分析; 资源中的.mdj文件请由StartUML软件打开;
里面是对storm运行的一个项目,放到eclipse里面就可以跑了,对于初学者非常有用,是根据这个https://www.cnblogs.com/freeweb/p/5242631.html来的
storm与kafka集合相关jar包。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
NULL 博文链接:https://contentprovider.iteye.com/blog/1041946