Hadoop工具生态系统指南
Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。
Hadoop
Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。
HDFS
分布式文件系统提供高速的应用数据访问。
MapReduce
在计算机集群上进行大数据分布式处理的软件框架。
亚马逊Elastic MapReduce
亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。
网址:aws.amazon.com/elasticmapreduce/
Cloudera Hadoop发行版(CDH)
Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。
ZooKeeper
针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。
网址:hadoop.apache.org/zookeeper/
HBase
可扩展的分布式数据库,支持大表(big table)的结构化数据存储。
Avro
数据序列化系统。与Thrift和Protocolbuffers类似。
Sqoop
Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:
- ● 将单独的表或者整个数据库导入HDFS文件
- ● 通用Java库支持与导入数据的互动
- ● 支持将SQL数据库直接导入你的Hive数据仓库
网址:cloudera.com/downloads/sqoop/
Flume
Flume是一个分布式高可靠的大数据传输服务。
网址:archive.cloudera.com/cdh/3/flume/
Hive
Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。
Pig
Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。
Oozie
Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。
Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。
Cascading
Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。
Cascalog
Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。
网址:github.com/nathanmarz/cascalog
HUE
Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。
网址:archive.cloudera.com/cdh3/hue 更多信息:Cloudera blog
Chukwa
Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。
网址:incubator.apache.org/chukwa/
Mahout
一种可扩展的机器学习和数挖掘库。
相关推荐
Hadoop Spark生态系统操作与实战指南
海量数据处理-Hadoop生态系统和成功案例
hadoop大数据生态,大数据分布式引擎数据分析,思维导图,知识点总结,快速掌握,包括hadoop spark hive elasticsearch kafka
详细介绍了hadoop生态圈,包括 基础介绍 HDFS, HDFS 2 MapReduce, YARN 以下简要介绍 Pig Hive Hbase, HOYA Mahout 其它
Hadoop、Spark、hive、mapReduce经典学习资料
Hadoop 2.0 生态系统第一章 关键技术Hadoop生态系统-课程介绍1
Apache Hadoop和Hadoop生态系统.pdf 学习资料 复习资料 教学资源
Hadoop 2.0 生态系统第一章 关键技术Hadoop分布式文件系统1
《Hadoop生态系统》
Hadoop 2.0 生态系统第五章 分析辅助Hadoop Streaming
Hadoop 2.0 生态系统第五章 分析辅助Hadoop图像处理接口
简单介绍hadoop生态系统、spark、scala
Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南Hadoop分布式文件系统使用指南...
第1周 Hadoop生态系统以及版本演化
本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...
本人写的大数据平台搭建教程,包含基于hive的离线分析、基于storm的实时分析、包含solrcloud和hbase的搜索架构等基础组件的配置及整合