rainforc

浏览: 59322 次
性别:
来自: 杭州

最近访客更多访客>>

dx919

san_yun

seawavecau

superyang_xp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

大数据即时计算产品的一般原理----技术纲要介绍

博客分类：

hadoop

前言：

在数据部门工作已经是第三个年头，做过很多的数据产品，也接触了很多的业务数据和业务数据的生产。我的工作经历也大致分为这样几个阶段：第一阶段就是做数据产品，主要的工作就是把生产好的数据根据具体的业务把数据搬到网页上；第二个阶段开始尝试做了数据产品的产品，以配置化和平台化的方式玩出数据产品的页面；第三个阶段开始尝试做了数据仓库的产品，直接基于数据仓库模型组织的明细粒度数据进行即席OLAP分析从而快速获取统计分析的结果数据，这其中随着当前业务数据的急速膨胀，我们必须要面对如何在千万级别、亿级别甚至是百亿级别的数据进行聚合统计计算的问题，大家都知道在做聚合计算一般都是比较耗费资源的，一台单机关系型数据库在面对百万级别数据做类似Group by计算时在一定的并发量下经常会遭遇CPU load严重吃紧从而导致服务不可用的情况，所幸，我们集团内有很多团队做了很多努力，陆续出来Higo、Garuda等等可直接基于大数据进行统计分析的分析型数据库产品，我本人也亲身体验和使用过这些产品，本着知其然知其所以然的技术精神，我对这些即时计算的产品原理做下大概的总结，才疏学浅，还望大牛们指正。

技术原理核心要点：

列式存储：减少IO，更少扫描(只选择需要的列)，分块存储顺序访问
索引：利用lucene倒排索引、正排索引快速定位列存储位置
分布式MPP架构计算：多节点并行计算充分发挥分布式本地计算能力
压缩技术：内存压缩和磁盘压缩，降低内存IO、磁盘IO以及网络IO
高效的内存计算：bitMap和bitSet
缓存：列存储分块（Block）缓存、BitMap缓存等，LRU淘汰策略。
多级Merge:多路归并计算合并，优化网络
资源管理调度：自动failover机制保证可用性，表上下线管理

以上是海量数据即时计算的技术总纲，另外面对海量数据的计算处理还需要一定的硬件支持，比如应对随机访问需要SSD磁盘特性，而对于缓存和内存计算也需要一定容量的内存来支撑。接下来我会针对每个技术的要点来进行分期讲解，争取把原理都讲清楚。

分享到：

大数据即时计算产品的一般原理----列式存储 | 大数据即时计算产品的一般原理介绍----MPP ...

2016-05-20 17:03
浏览 585
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

大数据即时计算产品的一般原理----技术纲要介绍

前言：

相关概念：

技术原理核心要点：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

大数据即时计算产品的一般原理----技术纲要介绍

前言：

相关概念：

技术原理核心要点：

评论

发表评论

相关推荐

job运行流程（4）---NodeManager运行CONTAINER

job运行流程（3）---NodeManager运行APPLICATION

job运行流程（1）---客户端提交job

hadoop------applog读写流程

job运行流程（2）---ResourceManager调度job

hadoop-----joblog读写流程

GOOGLE分布式数据库技术演进研究--从Bigtable、Dremel到Spanner

大数据即时计算产品的一般原理----索引

大数据即时计算产品的一般原理介绍----MPP架构

大数据即时计算产品的一般原理----列式存储

Hadoop学习分享-----Shuffle过程

Hadoop学习分享----SequenceFile 和MapFile

Hadoop学习分享----Hadoop I/O序列化

Hadoop学习分享----入门概要介绍

最近访客更多访客>>