前言:
在数据部门工作已经是第三个年头,做过很多的数据产品,也接触了很多的业务数据和业务数据的生产。我的工作经历也大致分为这样几个阶段:第一阶段就是做数据产品,主要的工作就是把生产好的数据根据具体的业务把数据搬到网页上;第二个阶段开始尝试做了数据产品的产品,以配置化和平台化的方式玩出数据产品的页面;第三个阶段开始尝试做了数据仓库的产品,直接基于数据仓库模型组织的明细粒度数据进行即席OLAP分析从而快速获取统计分析的结果数据,这其中随着当前业务数据的急速膨胀,我们必须要面对如何在千万级别、亿级别甚至是百亿级别的数据进行聚合统计计算的问题,大家都知道在做聚合计算一般都是比较耗费资源的,一台单机关系型数据库在面对百万级别数据做类似Group by计算时在一定的并发量下经常会遭遇CPU load严重吃紧从而导致服务不可用的情况,所幸,我们集团内有很多团队做了很多努力,陆续出来Higo、Garuda等等可直接基于大数据进行统计分析的分析型数据库产品,我本人也亲身体验和使用过这些产品,本着知其然知其所以然的技术精神,我对这些即时计算的产品原理做下大概的总结,才疏学浅,还望大牛们指正。
相关概念:
即时计算:针对只读数据进行即时数据的获取和计算。
即时计算的特点:海量数据、低延迟、计算准确、高可用、以及SQL访问。
聚合统计查询:一般查询形式为select count(xx),sum(xx),count(distinct xx),Avg(xx) where<过滤条件> group by XXX having<分组后过滤条件>
技术原理核心要点:
- 列式存储:减少IO,更少扫描(只选择需要的列),分块存储顺序访问
- 索引:利用lucene倒排索引、正排索引快速定位列存储位置
- 分布式MPP架构计算:多节点并行计算充分发挥分布式本地计算能力
- 压缩技术:内存压缩和磁盘压缩,降低内存IO、磁盘IO以及网络IO
- 高效的内存计算:bitMap和bitSet
- 缓存:列存储分块(Block)缓存、BitMap缓存等,LRU淘汰策略。
- 多级Merge:多路归并计算合并,优化网络
- 资源管理调度:自动failover机制保证可用性,表上下线管理
以上是海量数据即时计算的技术总纲,另外面对海量数据的计算处理还需要一定的硬件支持,比如应对随机访问需要SSD磁盘特性,而对于缓存和内存计算也需要一定容量的内存来支撑。接下来我会针对每个技术的要点来进行分期讲解,争取把原理都讲清楚。
相关推荐
贵州省大数据产业发展规划纲要2014-2020年.docx
月国务院印发《促进大数据发展行动纲要》。9月,贵州启动建设首个大数据综合试验区试 点。次年,国家公布第二批国家级大数据综合试验区建设名单,包括北京、天津、河北、内 蒙古、辽宁、河南、上海、重庆、广东 参照...
依据国家《促进大数据发展行动纲要》《信息产业发展指南》《大数据产业发展规划(2016—2020)》《成都市国民经济和社会信息化发展“十三五”规划》和《成都市战略性新兴产业发展“十三五”规划》,制定本规划。...
国家十三五规划纲要中提出:“实施国家大数据战略,推进数据资源开放共享” 国发【2015】50号《促进大数据发展行动纲要》中明确提出“鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据...
管理学原理-纲要.doc
《促进大数据发展行动纲要》(国发[2015]50号)政策文件信息
《促进大数据发展行动纲要》(国发[2015]50号)
管理学原理-组织与管理复习题-复习纲要.doc
数据科学与大数据技术专业培养方案 数据科学与大数据技术 Data Science and Big Data Technology 一、专业介绍 数据科学与大数据技术专业是一个兼顾数据科学理论与应用,以计算技术为基础,以数据科学与大数据技术为...
。。。
。。。
微机原理与接口技术复习纲要
。。。
。。。
山东大学计算机组成原理复习纲要.pdf
大数据是互联网、移动应用、社交网络和物联网等技术...本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。
A: 2015年8月31日:《促进大数据发展行动纲要》 B: 2015年12月29日:《"互联网+"行动的指导意见》 C: 2017年7月8日:《新一代人工智能发展规划》 D: 2017年4月10日:《云计算发展三年行动计划(2017-2019年)》 E:...
安徽普通高中学业水平测试纲要--信息技术.pdf
。。。
。。。