`
younglibin
  • 浏览: 1193233 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据与Hadoop之间的关系

 
阅读更多

 

个人汇总:

 hadoop :Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现

大数据:

 

资料:

我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约 480,000英里。

 

对于那些喜欢杞人忧天的人来说,这是数据存储的末日即将到来的不祥预兆。而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易。

 

走进大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。

 

在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。

 

大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像“云”。我们请教了一些分析人士和大数据爱好者,请他们解释一下大数据究竟是什么,以及它对于未来数据存储的意义。

 

大数据走进历史舞台

 

适用于企业的大数据已经出现,这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据,IDC 数据库管理分析师Carl Olofson如是说。

 

“我们不仅要把这些事情做好,还要能承受得起相应的开支”,他说。 “过去的某些超级计算机也具有执行系统多重处理的能力,(这些系统紧密相连,形成了一个集群)但因为要使用专门的硬件,它的成本高达几十万美元甚至更多。”现在我们可以使用普通硬件完成相同的配置。正因为这样,我们能更快更省得处理更多数据。"

 

大数据技术还没有在有大型数据仓库的公司中得到广泛普及。IDC认为,想让大数据技术得到认可,首先技术本身一定要足够便宜,然后,必须满足IBM称之为3V标准中的2V,即:类型(variety),量(volume)和速度(velocity)。

 

种类要求指的是待存储数据的类型分为结构化数据和非结构化数据。量是指存储和分析的数据量可以很庞大。 “数据量不只是几百TB,”

 

Olofson说: “要视具体情况而定,因为速度和时间的关系,有时几百GB可能就算很多了。如果我现在一秒能完成过去要花一小时才能完成的300GB的数据分析,那结果将大为不同。大数据就是这样一种技术,它可以满足这三个要求中的至少两个,并且普通企业也能够部署。”

 

关于大数据的三大误解

 

对于大数据是什么以及大数据能干什么存在很多误会。下面就是有关大数据的三个误解:

 

1、关系数据库无法大幅增容,因此不能被认为是大数据技术(不对)

 

2、无需考虑工作负载或具体使用情况,Hadoop或以此类推的任何MapReduce都是大数据的最佳选择。(也不对)

 

3、图解式管理系统时代已经结束。图解的发展只会成为大数据应用的拦路虎。(可笑的错误)

 

大数据与开源的关系

 

“很多人认为Hadoop和大数据基本上是一个意思。这是错误的,”Olofson说。并解释道: Teradata, MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。

 

Hadoop是一种用于大数据的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。

 

为了充分利用Hadoop和类似的先进技术,软件开发商们绞尽脑汁研发出了各种各样的技术,其中很多都是在开源社区里开发出来的。

 

Olofson 说“他们已经开发出了大量的所谓noSQL数据库,种类之多让人眼花缭乱,其中大部分都是键值配对数据库,能利用多种技术对性能或种类或容量进行优化。”

 

开源技术还没有得到商业支持。“所以在这方面还需要经过一段时间的发展完善,这一过程可能需要几年。基于这个原因,大数据可能需要一些时日才能在市场上走向成熟”他补充道。

 

据IDC预计,年内至少有三家商业公司能以某种方式给予Hadoop支持。同时,包括Datameer 在内的几家企业将发布配有Hadoop组件的分析工具,这种工具能帮助企业开发自己的应用程序。Cloudera和Tableau公司的产品清单里已经出现了Hadoop。

 

 

 

 

来源:http://os.51cto.com/art/201205/339932.htm

分享到:
评论

相关推荐

    Hadoop基础培训教程.pdf

    起源与目标 大数据与Hadoop 应用模式 大数据的产生背景:RDBMS时代回头看 索引 查询 交易 起源与目标 大数据与Hadoop 应用模式 大数据的产生背景:技术博弈 交易 分析 起源与目标 大数据与Hadoop 应用模式 大数据的...

    大数据运维技术第9章 Sqoop组件安装配置.pptx

    当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase等分析器出现时,他们需要一种工具来与关系数据库服务器进行交互,以导入和导出驻留在其中的大数据。Sqoop在Hadoop生态系统中占据一席之地,为关系数据库...

    云计算与大数据之间的关系.pdf

    云计算与⼤数据之间的关系 云计算的关键词在于"整合",⽆论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使⽤的海量节点聚合型 技术,它都是通过将海量的服务器资源通过⽹络进⾏整合,调度...

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Apache框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的...

    大数据与健康生活.docx

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项大数据与健康生活全文共2页,当前为第2页。大数据与健康生活全文共2页,当前 第2页。的出现。例如发现使用手机的时长与...

    还在为搭建集群的期末作业发愁吗?最简单的搭建hadoop+spark+hive大数据集群搭建文档.docx

    最简单的Hadoop+Spark大数据集群搭建方法,看这一篇就够啦,给出一个... 这一次梳理搭建过程我觉得很有意义,熟悉了各类配置文件之间的关联,以及大数据组件之间的配置关系,很开心和大家分享此文,那就,继续加油吧!

    Apache Hadoop---Sqoop.docx

    Sqoop是SQL-to-Hadoop的缩写,是Hadoop的周边工具,它的主要作用是在结构化数据存储与Hadoop之间进行数据交换。Sqoop可以将一个关系型数据库(例如MySQL、Oracle、PostgreSQL等)中的数据导入Hadoop的HDFS、Hive中,...

    基于Hadoop的电信大数据采集方案研究与实现

    ETL是数据仓库实施过程中...最后,根据Hadoop和Oracle的系统运行日志,比较分析了两个平台的采集效率与数据量之间的关系。实践表明,混搭架构的大数据平台优势互补,可有效提升数据采集时效性,获得比较好的应用效果。

    基于Hadoop的大规模数据交换的研究

    在Hadoop 与许多关系型数据库之间导入导出数据。与此同时,许多第三方的数据交换工具 如雨后春笋般出现在人们的视野中。本文将着重阐述几种数据交换工具间的差异和不足,进 而分析优化的方式,最后从性能上比较上述...

    BI与大数据区别.docx

    而大数据应用的是一个完整的技术体系,包括用Hadoop、流处BI与大数据区别全文共2页,当前为第2页。BI与大数据区别全文共2页,当前为第2页。理等技术解决海量的结构化、非结构化数据的ETL问题,用Hadoop、MPP等技术...

    高职组云计算与大数据题库

    2.修改 2 个节点的 hosts 文件, 使用 FQDN 的方式,配置 IP 地址与主机名之间的映射关系。查询 hosts 文件的信息,将操作命令和返回结果以文本形式提交到答题框。 3.配置2个节点使用Ambari和iaas中的centos7的yum...

    2021年安徽省大数据现场赛赛题

    探索近6个月销售额和新零售智能销售设备数量之间的关系,并按时间走势进行可视化分析。要求:销售额和设备数量进行双折线图画图展示。其中横坐标为月份,左侧纵坐标为销售额(元),右侧纵坐标为设备数量(台)。 ...

    大数据开发教程.zip00000001

    大数据概念和特点:首先需要了解大数据的定义、特点、挑战和机遇,熟悉大数据技术的发展背景和趋势。...大数据生态系统:掌握大数据生态系统的各个组件,如Hadoop、Spark、Hive等,并理解它们之间的关系和作用。

    基于 hadoop实现的金庸江湖人物关系网分析+源代码+文档说明

    人物关系使用邻接表的形式表示,人物是顶点,人物之间关系是边,两个人的关系的密切程度由共现次数体现,共现次数越高,边权重越高。另外需要对共现次数进行归一化处理,确保某个顶点的出边权重和为1。 4.数据分析...

    大数据之运维.pptx

    Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 低成本。 Hadoop的框架最核心的设计就是...

    大数据时代银行业的机遇与挑战.docx

    然而,传统的数据仓库对于数据分析通常是建立在关系模型的基础之上,面向结构化数据处理,各分析主题之间的关系在系统内已经被创立,而且用以分析的数据也大都是企业自身信息系统中产生的运营数据,这些数据大都是...

    基于Hadoop的集群部署与管理系统的设计与实现毕业论文(62页27073字数).doc

    先对项目进行需求分析,分析大规模集群在硬件配置、操作系统、网络环境之间的异构性,分析Hadoop相关系统的服务、配置文件以及软件包之间的依赖关系。然后根据需求分析结果,对整个系统体系结构进行设计,

    大数据心得体会.doc

    存储与内存的消长,大数据第一个要解决把数据存储下来,后来发现要把它放到大的内 存里进行处理,获得实时性,接着在存储和内存之间现在又出现了闪存,有闪存化甚至 全闪存的存储,也有闪存化的内存,把所有的计算...

    大数据-sqoop.pptx

    Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Postgresql...)间进行数据的传递,可以将一个关系 型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将...

    大数据环境安装部署说明文档

    包括分布式文件系统HDFS,分布式应用程序协调服务器Zookeeper,分布式发布订阅消息系统Kafka,关系型数据库MYSQL,基于Hadoop和MYSQL的数据仓库引擎Hive,Hadoop与结构化数据存储之间的数据转换工具Sqoop和计算引擎Spark...

Global site tag (gtag.js) - Google Analytics