`
serisboy
  • 浏览: 169766 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

关于Hadoop的12个事实

 
阅读更多
原文链接:http://www.searchbi.com.cn/showcontent_62856.htm

  事实1:Hadoop是由多个产品组成的。
  人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。
  Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”
  一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。

  事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。
  由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。
  这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。

  事实3:Hadoop是一个生态系统,而非一个产品。
  Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop的产品其结构化和关系性更强一些。
  Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口,Hadoop当然也不例外。”

  事实4:HDFS是文件系统,而不是数据库管理系统。
  Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。
  数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

  事实5:Hive与SQL类似,却非标准SQL。
  传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。
  Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”
  Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。

  事实6:Hadoop与MapReduce相互关联,但不相互依赖。
  MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。
  尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

  事实7:MapReduce提供的是对分析的控制,而不是分析本身。
  MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。
  Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”

  事实8:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。
  有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。
  Russom说:“Hadoop的处理范围为大多数数据仓库所不及,比如针对半结构化与完全非结构化的数据。”

  事实9:Hadoop是数据仓库的补充,不是数据仓库的替代品。
  Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳。
  他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过。”
  数据仓库在其领域中的性能仍然出色,Hadoop可起到对数据仓库技术进行补充的作用。数据仓库和其他系统的架构越来越多地开始向分布式靠拢,Hadoop在这里将发挥其作用。

  事实10:Hadoop不仅仅是Web分析。
  Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。
  Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生。
  Russom尽管十分看好Hadoop的前景,但同时认为它的普及还需要数年时间。

  事实11:大数据不一定非Hadoop不可。
  别看现在大数据和Hadoop已经密不可分,Russom却认为Hadoop并不是大数据的“唯一”。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等。
  除此之外,在Hadoop没有诞生之时,一些企业就已经开始研究大数据了。例如,电信行业多年以前就有呼叫明细记录。

  事实12:Hadoop不是“免费午餐”。
  虽然Hadoop属于开源技术,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲。
  更不用提部署Hadoop集群的硬件和相关配置的成本。
  他说:“千万别以为Hadoop是免费的或者很便宜,它背后的隐性开销你是一下子看不到的。”
分享到:
评论

相关推荐

    Hadoop下载 hadoop-2.9.2.tar.gz

    摘要 Hadoop 是一个处理、存储和分析海量的...Hadoop 和 Google 内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。 Yahoo、Facebook、Amazon,以及国内的百度、阿里巴巴等众多

    Hadoop大数据开发实战-教学大纲.pdf

    经过十多年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛最具有代表性的大数据技术。因此,学习Hadoop技术是从事大数据行业工作所必不可少的一步。 二、 课程的任务 通过本...

    大数据与Hadoop.doc

    Hadoop作为数据分布式处理系统的典型代表,已 经成为该领域事实的标准。但Hadoop并不等于大数据,它只是一个成功的处理离线数据 的分布式系统,大数据领域还存在众多其他类型的处理系统。所以,Hadoop代替不了大 ...

    CSDN在线培训:Hadoop 2.0新特性剖析及应用

    时下数据已经成为当今企业的核心竞争力,拥有...业界在Hadoop上的兴趣和投资形成了包括开源软件和商业化软件的整个生态系统,Hadoop迅速成为大数据处理方面的业界事实标准。越来越多的企业急需引入Hadoop技术人才!

    Spark是什么?Spark和Hadoop的区别

    Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。...Hadoop 已经成了大数据技术的事实标准,Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操

    Hadoop实战(陆嘉恒)译

    经过学术界和业界近10年的努力,Hadoop技术已经趋于完善而且应用广泛,几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂,而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术,学习门槛比较高,对于...

    Doug Cutting:Apache Hadoop和大数据平台

    Hadoop已经成为了大数据的分布式操作系统的核心技术,一个事实上的标准。下一步,Apache Hadoop将提高HDFS的性能,可扩展性和可用性。

    hadoop面试题.chm

    这是一套hadoop的面试题资源一个文件100M,上传到HDFS占用几个快?一个块128M,剩余的28M怎么办? 事实上,128只是个数字,数据超过128M,便进行切分, 如果没有超过128M,就不用切分,有多少算多少, ...

    如何挑选合适的大数据或Hadoop平台?

    虽然没有一个标准的定义来解释何为“大数据”,但在处理大数据上,Hadoop已经成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理...

    用于大数据分析的 Hadoop 技术-研究论文

    大数据是当今全世界都在谈论的词。 数据量日复一日地从千字节增加到 Zettabytes,数据可能是... 这一事实激发了深入探索 Hadoop 及其组件的灵感。 MapReduce 结果有助于预测流行病、治愈疾病、提高生活质量并防止死亡。

    达观数据文辉:Hadoop和Hive使用经验

    近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。本文将从...

    hadoop MapReduce编程教程

    事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。 而化简操作指...

    大数据架构hadoop

    Admaster数据挖掘总监随着互联网、移动互联网和物联网的发展,谁...Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台

    hadoop-book:hadoop 中文教学

    大家来学Hadoop 大数据近几年成为显学,坊间许多书籍鼓吹各种大数据的商机,以及各种运用大数据的成功故事。不过,实际上探讨大数据技术的书籍相对较少,不是技术程度太浅,就是太过个案,难以做为个人学习教材之用...

    hadoop集群搭建时的问题

    可是事实上防火墙并没有关闭 需要 systemctl stop firewalld systemctl disable firewalld.service 防火墙没有关闭会影响到后来的web化、hdfs等等 问题二 INFO ipc.Client: Retrying connect to server: linden10004...

    apache-tez-0.10.2-src.tar.gz

    Tez是Apache最新的支持DAG作业的...Hadoop传统上是一个大量数据批处理平台。但是,有很多用例需要近乎实时的查询处理性能。还有一些工作则不太适合MapReduce,例如机器学习。Tez的目的就是帮助Hadoop处理这些用例场景。

Global site tag (gtag.js) - Google Analytics