全文连接
http://click.aliyun.com/m/22902/
0?wx_fmt=jpeg
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。
Amazon Elastic Map Reduce(EMR):托管的解决方案,运行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理,EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作,会有较高的延时。
Hadoop 还包含了一系列技术的扩展系统,这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。
Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。
Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析。
Hbase:一种分布的、可伸缩的、大数据储存库,支持随机、实时读/写访问。
Sqoop:为高效传输批量数据而设计的一种工具,其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。
Flume:一种分布式的、可靠的、可用的服务,其用于高效地搜集、汇总、移动大量日志数据。
ZooKeeper:一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务。
Cloudera:最成型的Hadoop发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。开发并贡献了可实时处理大数据的Impala项目。
Hortonworks:使用了100%开源Apache Hadoop提供商。开发了很多增强特性并提交至核心主干,这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。
MapR:获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目,是Google的Dremel的开源实现,目的是执行类似SQL的查询以提供实时处理。
全文连接
http://click.aliyun.com/m/22902/
分享到:
相关推荐
04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构...
04-29 后Hadoop时代的大数据架构.docx04-29 后Hadoop时代的大数据架构.docx04-29 后Hadoop时代的大数据架构.docx04-29 后Hadoop时代的大数据架构.docx04-29 后Hadoop时代的大数据架构.docx04-29 后Hadoop时代的...
后Hadoop时代的大数据架构.pdf
随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop作为处理大数据的分布式存储和计算框架,...
基于Hadoop的大数据工程实践多层次教学设计.pdf
资源名称:Hadoop安全:大数据平台隐私保护内容简介:《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业...
Hadoop大数据计算平台搭建实践.pdf
「⼤数据⼲货」基于 「⼤数据⼲货」基于Hadoop的⼤数据平台实施 的⼤数据平台实施——整体架构设 整体架构设 计 计 ⼤数据的热度在持续的升温,继云计算之后⼤数据成为⼜⼀⼤众所追捧的新星。我们暂不去讨论⼤数据...
《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。...
大数据时代基于Hadoop的一个数据仓库工具hive
基于Hadoop的交通视频大数据监控方案.pdf
大数据-大营销——互联网时代大数据营销ppt模板全文共18页,当前为第1页。 原子 比特 大数据-大营销——互联网时代大数据营销ppt模板全文共18页,当前为第2页。 万物互联网的的时代已经来临 大数据-大营销——互联网...
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)...
Admaster数据挖掘总监随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常...
大数据大营销——互联网时代大数据营销PPT模板全文共18页,当前为第1页。 原子 比特 大数据大营销——互联网时代大数据营销PPT模板全文共18页,当前为第2页。 万物互联网的的时代已经来临 大数据大营销——互联网...
大数据云计算技术 暴风集团基于hadoop的数据平台总体架构简介(共18页).ppt 大数据云计算技术 淘宝网Hadoop与数据分析 taobao数据团队(共30页).ppt 大数据云计算技术 淘宝网基于Hadoop的数据应用开发平台iData...