YARN内存使用优化配置

kjkhi

浏览: 181702 次
性别:
来自: 广州

最近访客更多访客>>

XiaoPY

royalking

0obeiiedo0

xiexjbailx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop yarn yarn 内存分配

在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示

YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container是YARN中处理能力的基本单元, 是对内存, CPU等的封装.

目前我这里的服务器情况：6台slave，每台：32G内存，2*6核CPU。

由于hadoop 1.x存在JobTracker和TaskTracker，资源管理有它们实现，在执行mapreduce作业时，资源分为map task和reduce task。所有存在下面两个参数分别设置每个TaskTracker可以运行的任务数：

<property>
        <name>mapred.tasktracker.map.tasks.maximum</name>
        <value>6</value>
        <description><![CDATA[CPU数量=服务器CPU总核数 / 每个CPU的核数；服务器CPU总核数 = more /proc/cpuinfo | grep 'processor' | wc -l；每个CPU的核数 = more /proc/cpui nfo | grep 'cpu cores']]></description>
</property>
<property>
		<name>mapred.tasktracker.reduce.tasks.maximum</name>
		<value>4</value>
		<description>一个task tracker最多可以同时运行的reduce任务数量</description>
</property>

但是在hadoop 2.x中，引入了Yarn架构做资源管理，在每个节点上面运行NodeManager负责节点资源的分配，而slot也不再像1.x那样区分Map slot和Reduce slot。在Yarn上面Container是资源的分配的最小单元。

Yarn集群的内存分配配置在yarn-site.xml文件中配置：

	<property>
		<name>yarn.nodemanager.resource.memory-mb</name>
		<value>22528</value>
		<discription>每个节点可用内存,单位MB</discription>
	</property>
	
	<property>
		<name>yarn.scheduler.minimum-allocation-mb</name>
		<value>1500</value>
		<discription>单个任务可申请最少内存，默认1024MB</discription>
	</property>
	
	<property>
		<name>yarn.scheduler.maximum-allocation-mb</name>
		<value>16384</value>
		<discription>单个任务可申请最大内存，默认8192MB</discription>
	</property>

由于我Yarn集群还需要跑Spark的任务，而Spark的Worker内存相对需要大些，所以需要调大单个任务的最大内存（默认为8G）。

而Mapreduce的任务的内存配置：

	<property>
		<name>mapreduce.map.memory.mb</name>
		<value>1500</value>
		<description>每个Map任务的物理内存限制</description>
	</property>
	
	<property>
		<name>mapreduce.reduce.memory.mb</name>
		<value>3000</value>
		<description>每个Reduce任务的物理内存限制</description>
	</property>
	
	<property>
		<name>mapreduce.map.java.opts</name>
		<value>-Xmx1200m</value>
	</property>
	
	<property>
		<name>mapreduce.reduce.java.opts</name>
		<value>-Xmx2600m</value>
	</property>

mapreduce.map.memory.mb：每个map任务的内存，应该是大于或者等于Container的最小内存。

按照上面的配置：每个slave可以运行map的数据<= 22528/1500,reduce任务的数量<=22528/3000

1
顶

0
踩

分享到：

hadoop 2.x升级异常 | log4j指定配置文件路径

2014-05-30 17:24
浏览 4275
评论(1)
分类:开源软件
查看更多

1 楼 dextersmake 2015-04-13

我的配置和你的差不多，调了有一些效果，但是还不是很满意。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论