参加2012 DTCC大会，总结Big data的趋势

dengyll

浏览: 90267 次

最近访客更多访客>>

cjxgotofly

大宝SOD密

y110231

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

hadoop

参加了2012中国数据库技术大会，综合各方的演讲、资料和个人理解，总结出Big data(大数据)的趋势。

本次技术大会议题众多，但无论是企业级应用还是互联网应用，关注的焦点无一不是“大数据”。

传统的IBM、Oracle关注企业级大数据的统一解决方案，并已经提供了商业的产品；互联网的百度、淘宝、腾讯等都基于自己的业务和互联网的特点，构建了自己的大数据系统。一些研究机构或者学术机构，也已经被这个由互联网刮起的“大数据”旋风吸引，开始投入更多的精力进行相关理论上的研究。

现在比较流行的所谓“大数据”一般都是指历史的静态数据，例如日志数据、历史的业务数据；但经过我个人的理解和观察，其实“大数据”目前已经划分为两大部分“在线大数据（Online big data）”、“离线大数据（Offline big data）”。由于两类数据的访问要求不同，虽然不同公司的业务不一样，但基本上都殊途同归，两类数据的处理基本类似。

在线大数据

在线大数据主要是在线业务数据，比如百度的贴吧、淘宝的商品等，这类数据具有“海量访问”的特点，对读写要求特别高，包括读写的时延（决定用户的响应速度）、并发量（决定用户的并行数量）都比较苛刻，一般都要求时延在毫秒级，并发量在万级甚至十万级。

从这次大会的内容来看，无论是企业级应用，还是互联网级的应用，都采用了“数据库集群”的解决方案。企业级应用采用了商用数据库集群，例如Oracle Rac；互联网企业基本都是基于mysql构建自己的集群，例如淘宝的TDDL，百度的dbproxy等。

另外，淘宝使用了HBase集群提供在线大数据的服务，这可能是未来互联网在线大数据应用的一个趋势，个人分析原因如下：

1）业务复杂多变：互联网业务存在复杂多变的特征，传统的关系型数据库（例如MySQL）在应对数据变化方面存在天然的不足（特别是MySQL在线修改的能力更弱），

2）数据库集群存在中间层瓶颈：基于MySQL构建的数据库集群存在中间层的瓶颈（例如proxy本身成为瓶颈，估计只能达到10万量级）。

离线大数据

离线数据主要是历史数据，例如日志，历史业务数据，这部分数据主要用于数据分析和数据挖掘，不直接面向最终用户，具有“海量存储”的特点，对于存储容量要求特别高，一般都是PB级别的数据，存储服务器达到几百上千台，但这类数据对读写要求不像在线数据那么严格。

从这次大会的演讲内容来看，企业级的应用倾向于提供一体机（包括解决方案、软件、硬件）来完成离线大数据的处理，互联网应用毫无例外的都集中到了Hadoop体系上面，其中几个先行的公司已经在定制Hadoop了，例如百度、淘宝。

总结：
Big data的现状可以总结为如下图：

在RDBMS集群方面，国内的几个大公司都有自己的解决方案，但都不开源，开放心态还远远不够，令人遗憾！！
幸运的是最近已经看到Youtube已经开源了类似的解决方案Vitess，大家有时间研究一下，没有必要自己又造一个轮子啦！！！

另外，HBase是一个令人惊讶的产品，能够同时为两种不同类型的数据提供解决方案，值得大家深入研究！

附：

1）文中提到的相关互联网企业的信息都是从DTCC大会获取的，可能存在不准确或者错误的地方，如果需要引用，请三思！
2）Vitess项目地址： http://code.google.com/p/vitess/

分享到：

【分享】Bigtable架构图 | Hadoop1.0.0 eclipse插件下载

2012-04-23 22:43
浏览 952
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论