Hadoop及子项目介绍
Hadoop是Apache的一个项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。
目前,整个Hadoop家族由以下几个子项目组成:
Hadoop Common
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。
Avro
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。
Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
HBase
基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。
HDFS
分布式文件系统
Hive
hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。
MapReduce
实现了MapReduce编程框架
Pig
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
-------------------------------------------------------------------------------------------------------------------
作者:CNZQS|JesseZhang 个人博客:CNZQS(http://www.cnzqs.com)
版权声明:除非注明,文章均为原创,可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
--------------------------------------------------------------------------------------------------------------------
分享到:
相关推荐
Hadoop的子项目及其后续项目所用的名称也与其本身的功能多数相关,通常以动物的名字。一些小的组件,名称通常具有很好的描述性。比如:jobtracker是用于跟踪MapReduce作业的。从零开始构建一个网络搜索引擎是一个很...
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能...
内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点...
Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习
第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和...
第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和...
第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和...
内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点...
内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点...
2003-2004年,Google公开了...2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和...
elasticsearch-hadoop是一个深度集成Hadoop和ElasticSearch的项目,也是ES官方来维护的一个子项目,通过实现Hadoop和ES之间的输入输出,可以在Hadoop里面对ES集群的数据进行读取和写入,充分发挥Map-Reduce并行处理...
开源分布式数据库Hadoop PPT,Hadoop 使用了POSIX的设计来实现对文件系统文件流的...HDFS(Hadoop FileSystem)原来是Apache Nutch搜索引擎(从Lucene发展而来)开发的一个部分,后来独立出来作为一个Apache子项目。
第12-17章详细而系统地讲解了Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等所有与Hadoop相关的子项目的原理及使用,以及这些子项目与Hadoop的整合使用;第18章以实例的方式讲解了常用Hadoop插件的使用和...
Hadoop 迭代式计算框架 Guagua 是 PayPal 的一个开源机器学习框架 Shifu 的子项目。Guagua 主要解决了模型训练的分布式问题。同时 Guagua 并没有将自己局限在分类模型,Guagua 是一个基于 Hadoop 的迭代式计算框架,...
内容全面,涵盖Hadoop技术本身和Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等所有与Hadoop相关的子项目! 实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强!
《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。 《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读...
教案27 项目8 平台化快速部署Hadoop 第1部分 探寻大数据平台及基础环境配置.docx教案27 项目8 平台化快速部署Hadoop 第1部分 探寻大数据平台及基础环境配置.docx教案27 项目8 平台化快速部署Hadoop 第1部分 探寻...