`

Hadoop 和DBMS 的互补性

 
阅读更多

随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Hadoop 也有自己的优势和使用案例.

    就如前一篇TDWI 所说的3个V 问题,新一代Hadoop MapReduce 主要解决的是数据容量和多种类型的数据(结构化,半结构化,非结构化). 而传统的MPP DBMS 解决的主要还是速度,低延迟,实时性的问题.

 

DBMS Hadoop
低延迟,一般响应时间为秒 高延迟,一般响应时间最少为分钟
较高的吞吐(同一时间执行sql数) 可以提交很多任务,但不一定快速执行.
处理的数据量有限制(目前为P) 可以处理大量的数据(从10p到1E)
硬件有特殊需要,不能随时添加 硬件可随时添加,增加计算能力
假设机器是随时可用的,不对失败做处理 默认机器故障时正常的,可以容忍机器失效并用其它迅速机器替代
数据库模式过渡优化 对数据格式没有限制
数据满足完整性(外键) 用户程序需要自己验证完整性
必须提前知道使用模式并进行优化
或者根据使用一段时间之后的情况进行特定优化
面对未知的使用模式,常规使用模式可以做一定程度的优化.
需要添加额外的优化计算(索引,分区等) 大部分情况不用额外优化
CPU,内存,磁盘,网络利用率较为高效 资源利用率不算高效,人为优化需要较多技巧,目前没有DBMS 优化技术成熟


 
储存能力有限, 磁盘不能随意扩展 储存能力极高,随时可以按需扩展
磁盘比较昂贵,经常访问的数据可使用高端SSD 廉价磁盘,随意保存多份数据防止丢失
线型扩展能力一般, 一般到几百台机器有瓶颈 极高的线型扩展能力,目前yahoo 的为4000台,下一代Hadoop 目标6000 – 10000台
不具备开放性,必须数据库厂商提供功能 高端开放性,大多数组织参与合作
分析能力需要默认提供 可以自己编写UDF 函数,随时扩展功能.
不太适合用来保存过多的历史数据 可以保存任意多的历史数据,随时可以访问.
不能处理半结构化或非结构化的数据 可以处理XML,图片,音频视频等任意格式数据
有厂商在数据库内提供MapReduce功能
(Aster Data 和Greenplum)
有厂商希望在Hadoop 内添加MPP DBMS 的特性降低延迟提高吞吐能力(Hadapt , MapR)
可以随时装载最新数据并查询和分析 一般都是批量处理 , 需要特定的技术才能进行实时或叫准实时的计算
实施费用较为昂贵 免费开源
人员培训较为简单,拥有成熟的人才市场 需要IT 人员拥有较高的技能,而且培训较少.

  

目前DBMS 还是在其关系型领域拥有绝对的竞争力, 适合多种不同的功能需要.

Hadoop 目前还是主要以廉价的解决方案,活跃的社区,储存能力和非结构化数据的处理见长.

目前有名的数据仓库提供商都开始在自己的产品线里面提供直接的Hadoop 集成,帮助用户选择合适的技术做合适的事情.

一些比较成功的数据仓库使用者都会同时使用DBMS 和Hadoop , 比如Ebay, Walmart, Yahoo, LinkedIn等

一些特殊的行业也会完全使用Hadoop 做其数据仓库的完整解决方案. 比如Facebook , Twitter .

 

Microsoft 加入Hadoop 估计也就是提供一下Windows 的便捷开发的然后骗骗用户“我们有大规模计算的能力了”,估计真要在Windows 服务器上跑Hadoop 效果可想而知.

 

 

参考资料

争论之后的A Comparison of Approaches to Large-Scale Data Analysis

http://database.cs.brown.edu/projects/mapreduce-vs-dbms/

 

转自:http://www.gemini5201314.net/bi/hadoop-%e5%92%8cdbms-%e7%9a%84%e4%ba%92%e8%a1%a5%e6%80%a7.html#more-1305

分享到:
评论

相关推荐

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path...解决方案:下载本资源解压将hadoop.dll和winutils.exe文件复制到hadoop2.7.3的bin目录下即可解决。

    hadoop的hadoop.dll和winutils.exe下载

    hadoop的hadoop.dll和winutils.exe下载

    Hadoop和Hive的安装配置

    Hadoop和Hive的安装配置

    hadoop和jdk的压缩包

    hadoop和jdk的压缩包,用于搭建hadoop平台的基础必备软件

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe 64位

    hadoop权威指南4和源码

    hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码

    Hadoop多版本 hadoop.dll和winutils.exe 下载

    支持如下版本的Hadoop hadoop-2.6.0 hadoop-2.6.3 hadoop-2.6.4 hadoop-2.7.1 hadoop-2.8.1 hadoop-2.8.3 hadoop-3.0.0

    Spark和Hadoop的集成

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Storm是一个分布式的、容错的实时计算系统。两者整合,优势互补。

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...

    Hadoop下载 hadoop-3.3.3.tar.gz

    摘要 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。...Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 软件特点 Hadoop是一个

    Apache Hadoop和Hadoop生态系统.pdf

    Apache Hadoop和Hadoop生态系统.pdf 学习资料 复习资料 教学资源

    hadoop的hadoop.dll和winutils.exe

    hadoop hadoop的hadoop.dll和winutils.exe 解决方法, 把winutils.exe加入你的hadoop-x.x.x/bin下 Could not locate executable null\bin\winutils.exe in the Hadoop binaries

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    Hadoop安装和配置

    Hadoop安装和配置,Hadoop安装和配置,Hadoop安装和配置

    hadoop HA高可用性完全分布式集群安装

    hadoop HA高可用性完全分布式集群安装 内付下载地址和说明文档

    hadoop1.1.2安装和配置

    hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2安装和配置hadoop1.1.2...

    hadoop_tutorial hadoop入门经典

    Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的...

    《Elasticsearch集成Hadoop最佳实践》

    Elasticsearch Hadoop作为一个完美的工具,用来连接 Elasticsearch 和 Hadoop 的生态系统。通过Kibana技术,Elasticsearch Hadoop很容易从Hadoop 生态系统中获得大数据分析的结果。 本书全面介绍Elasticsearch ...

    hadoop配置资源 ,hadoop-3.0.0,hadoop.dll,winutils

    调用保存文件的算子,需要配置Hadoop依赖 将文件夹中的 hadoop-3.0.0 解压到电脑任意位置 在Python代码中使用os模块配置:os.environ[‘HADOOP_HOME’] = ‘HADOOP解压文件夹路径’ winutils.exe,并放入Hadoop解压...

Global site tag (gtag.js) - Google Analytics