分析师给出关于Hadoop的12个事实
TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622
【TechTarget中国原创】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。
虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了“关于Hadoop的12点事实”的主题演讲,TechTarget编辑在本文中将对其精华内容进行总结,希望对您进一步了解Hadoop有所帮助。
事实1:Hadoop是由多个产品组成的。
人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。
Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”
一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。
事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。
由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。
这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。
事实3:Hadoop是一个生态系统,而非一个产品。
Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop的产品其结构化和关系性更强一些。
Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口,Hadoop当然也不例外。”
事实4:HDFS是文件系统,而不是数据库管理系统。
Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。
数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。
事实5:Hive与SQL类似,却非标准SQL。
传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。
Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”
Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。
事实6:Hadoop与MapReduce相互关联,但不相互依赖。
MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。
尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。
事实7:MapReduce提供的是对分析的控制,而不是分析本身。
MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。
Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”
事实8:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。
有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。
Russom说:“Hadoop的处理范围为大多数数据仓库所不及,比如针对半结构化与完全非结构化的数据。”
事实9:Hadoop是数据仓库的补充,不是数据仓库的替代品。
Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳。
他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过。”
数据仓库在其领域中的性能仍然出色,Hadoop可起到对数据仓库技术进行补充的作用。数据仓库和其他系统的架构越来越多地开始向分布式靠拢,Hadoop在这里将发挥其作用。
事实10:Hadoop不仅仅是Web分析。
Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。
Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生。
Russom尽管十分看好Hadoop的前景,但同时认为它的普及还需要数年时间。
事实11:大数据不一定非Hadoop不可。
别看现在大数据和Hadoop已经密不可分,Russom却认为Hadoop并不是大数据的“唯一”。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等。
除此之外,在Hadoop没有诞生之时,一些企业就已经开始研究大数据了。例如,电信行业多年以前就有呼叫明细记录。
事实12:Hadoop不是“免费午餐”。
虽然Hadoop属于开源技术,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲。
更不用提部署Hadoop集群的硬件和相关配置的成本。
他说:“千万别以为Hadoop是免费的或者很便宜,它背后的隐性开销你是一下子看不到的。”
TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622
分享到:
相关推荐
Hadoop豆瓣电影数据分析(Hadoop)操作源码
基于Hadoop网站流量日志数据分析系统 1、典型的离线流数据分析系统 2、技术分析 - Hadoop - nginx - flume - hive - mysql - springboot + mybatisplus+vcharts nginx + lua 日志文件埋点的 基于Hadoop网站流量...
基于Hadoop数据分析系统设计(需求分析).docx 随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了PB、EB甚至是ZB。Hadoop作为一...
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
Hadoop源代码分析完整版.pdf Hadoop源代码分析 hadoop mapreduce
hadoop 搜索引擎 用户行为分析 基于hadoop的搜索引擎用户行为分析,采用分布式文 件系统和并行计算模型支撑海量日志文件的处理
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
网上很难找的hadoop代码,很适合初学或想从事大数据方向的程序猿,心动者赶紧下载。
针对数据分析介绍分布式计算涉及的大量概念、工具和技术,纵览Hadoop生态系统。
1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 5.东软基于HADOOP的大数据应用建议
Hadoop源码分析视频下载
,Hadoop 技术已经在互联网领域得到了广泛的应用。...同样也得到了许多公司的青睐,如百度主要将Hadoop 应用于日志分析和网页数据库的数据 挖掘;阿里巴巴则将Hadoop 用于商业数据的排序和搜索引擎的优化等。
Hadoop源代码分析(完整版).pdf
基于Hadoop大数据平台对某网站的外卖订单数据进行分析,分析结果进行可视化展示
鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从 Hadoop 分布式 文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进 行比较,总结出 Hadoop 分布式文件系统具有...
基于Hadoop技术的大数据就业岗位数据分析 作者:梁天友 邱敏 来源:《电脑知识与技术》2021年第31期 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第1页。 基于Hadoop技术的大数据就业岗位数据分析全文...
基于Hadoop的大数据应用分析