apache hadoop 2.x 是在1.x版本上做了重大的改进。
以下是一个关于HDFS和MapReduce的简短的改进概述。
HDFS Federation
为了提升name service 的水平扩展性,federation使用多个独立的Namenodes/Namespaces。Namenodes独立运行且不需要与其他namenode协作运行。datanodes为所有namenode提供通用的blocks存储服务。每个datanode注册到集群中所有的namenode上。datanode发送heartbeats、block reports和执行从namenode传来的命令。
下一代MapReduce,又名YARN或MRv2
新的架构在hadoop-0.23已经介绍过了,把jobtracker划分成两个主要功能:resource management和job 生命周期管理组件。
新的ResourceManager负责计算机全部资源的分配工作,每个应用的ApplicationMaster管理应用调度和协作工作。
一个应用可以是在原mapreduce那样单一的job或者一组有序任务。
ResourceManager 和每个机器的NodeManager守护进程,负责管理机器上的用户进程,形成计算模型。
实际上每个应用的ApplicationMaster是架构中具体的library,负责向ResourceManager 协调资源,与NodeManager(s)一起协作完成任务执行和监控的工作。
分享到:
相关推荐
Apache Hadoop2.x 安装入门详解 PDF
Pro Apache Hadoop 2nd Edition 2014
Spring Data for Apache Hadoop API。 Spring Data for Apache Hadoop 开发文档
SQL for Apache Hadoop, SQL for Apache Hadoop, SQL for Apache Hadoop, SQL for Apache Hadoop
Pro apache hadoop 原版书
Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 完整版哦,绝对清晰,不是扫描的mobi格式电子书,请使用电子书库calibre (http://calibre-ebook.com/download) 打开。
Pro Apache Hadoop, 2nd Edition是最新介绍Hadoop2.x的资料
带图带说明:Hadoop简介及Apache Hadoop三种搭建方式
Apache Hadoop YARN.pdf完整电子版
Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get ...
Moving beyond MapReduce and Batch Processing with Apache Hadoop™ 2
apache hadoop v2.7.0官方最新版
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。但是这里的 Hadoop 是广义...
Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...
Apache Hadoop十周岁:展望前方.pdf
Java-org.apache.hadoop,Java-org.apache.hadoop,Java-org.apache.hadoop
Apache Hadoop (hadoop-3.2.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...