（转）HADOOP2.6基于标签的调度 -

zhangxiong0301

浏览: 351185 次

最近访客更多访客>>

brosnan2800

rl724

itgege

fhtwins

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

（转）HADOOP2.6基于标签的调度

博客分类：

HADOOP

hadoop

在最新的hadoop 2.6.0版本中，YARN引入了一种新的调度策略：基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异构集群中，进而更好地管理和调度混合类型的应用程序。

注意，截止这篇文章发布时，只有apache hadoop 2.6.0和hdp 2.2两个发行版具有该特性（CDH5.3尚不支持，CDH5.4会支持），在hadoop自带的调度器重，只有 Capacity Scheduler支持该特性，FIFO Scheduler和Fair Scheduler尚不支持。、

什么是Label based scheduling？

故名思议，Label based scheduling是一种调度策略，就像priority-based scheduling一样，是调度器调度众多调度策略中的一种，可以跟其他调度策略混合使用，实际上，hadoop也是这样做的。但是，相比于其他调度策略，基于标签的调度策略则复杂的多，这个feature的代码量非常大，基本上需要修改YARN的各个模块，包括API， ResourceManager，Scheduler等。该策略的基本思想是：用户可以为每个nodemanager标注几个标签，比如highmem，highdisk等，以表明该nodemanager的特性；同时，用户可以为调度器中每个队列标注几个标签，这样，提交到某个队列中的作业，只会使用标注有对应标签的节点上的资源。举个例子：

比如最初你们的hadoop集群共有20个节点，硬件资源是32GB内存，4TB磁盘；后来，随着spark地流行，公司希望引入spark计算框架，而为了更好地运行spark程序，公司特地买了10个大内存节点，比如内存是64GB，为了让spark程序与mapreduce等其他程序更加和谐地运行在一个集群中，你们希望spark程序只运行在后来的10个大内存节点上，而之前的mapreduce程序既可以运行在之前的20个节点上，也可以运行在后来的10个大内存节点上，怎么办？有了label-based scheduling后，这是一件非常easy的事情，你需要按一以下步骤操作：

步骤1：为旧的20个节点打上normal标签，为新的10个节点打上highmem标签；

步骤2：在capacity scheduler中，创建两个队列，分别是hadoop和spark，其中hadoop队列可使用的标签是nornal和highmem，而spark则是highmem，并配置两个队列的capacity和maxcapacity。

如何配置使用Label based scheduling？

首先，要选择apache hadoop 2.6或hdp2.2（可使用ambari部署）发行版。

之后按照以下步骤操作：

步骤1：添加系统级别的label（相当于所有label的全集），注意，各个节点上的label必须都在系统级别的label中。

yarn rmadmin -addToClusterNodeLabels normal,highmem

步骤2：为各个节点分别添加label（可动态修改）

yarn rmadmin -replaceLabelsOnNode “nodeId,label1,label2,…,labeln”

注意，nodeId是nodemanager的唯一标示，注意，一个节点上可以有多个nodemanager，每个nodemanager的nodeid可以在ResourceManager界面上看到，通常有host和PRC port拼接而成，默认情况下，各个nodemanager的RPC port是随机选取的，你可以将所有的nodemanager配置成一样的，便于管理：

<property>
<name>yarn.nodemanager.address</name>
<value>0.0.0.0:45454</value>
</property>

复制代码

步骤3：配置label重启恢复功能。这样，label信息会保存到hdfs上（默认是保存在内存中的），之后yarn重新启动，可以自动恢复所有label信息：

<property>
<name>yarn.node-labels.manager-class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.nodelabels.RMNodeLabelsManager</value>
</property>

复制代码

步骤4：修改capacity scheduler相关配置，设置每个队列对应的label，以及每中label的资源上下限。具体配置，可参考相关资源。

分享到：

（转）YARN内存配置 | HADOOP平台优化综述（转自董的博客）

2015-04-04 10:32
浏览 814
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转）HADOOP2.6基于标签的调度

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转）HADOOP2.6基于标签的调度

评论

发表评论

相关推荐

HADOOP中mapreduce开启压缩功能

HIVE跑mapjoin时所有任务失败--问题分析及解决

hadoop、hbase节点下线

HADOOP中设置map个数

hadoop安全机制

CDH对hadoop的一些配置指南，包括THP

MAP运行过程

MAP/REDUCE TASK作业状态转移图

YARN常见问题

转载--淘宝hadoop升级遇到的问题

mapreduce数据流配置

HADOOP2 yarn相关参数

HADOOP2 mapreduce配置（转）

（转）hadoop yarn 内存相关配置

YARN的一些常见错误

(转) hadoop2安装LZO

（转）提高mapreduce性能的几点建议-cloudera

（转）YARN内存配置

HADOOP平台优化综述（转自董的博客）

hadoop ha 启停命令

最近访客更多访客>>