`
han_zw
  • 浏览: 171604 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

hadoop 2.7.2 yarn中文文档——NodeManager 重启

 
阅读更多
介绍
本文档给出NodeManager(NM) restart的概览,该feature允许NodeManager在不丢失active container的情况下重启。从更高层面看,NM在处理container-management 请求时将必要的状态信息保存至本地state-store。当NM重启时,它首先为各个子系统加载state信息,之后让这些子系统利用加载的state重新执行恢复。
启用NM Restart
Step 1. 启用NM Restart功能,设置conf/yarn-site.xml中的以下属性为true。
Property Value
yarn.nodemanager.recovery.enabled true, (默认值为false)
Step 2.配置NodeManager可以保存它的run state的本地文件系统目录。
Property Description
yarn.nodemanager.recovery.dir 当recovery启用之后,node manager可以保存state信息的本地文件系统目录。默认值为$hadoop.tmp.dir/yarn-nm-recovery
Step 3. 为NodeManager配置一个有效的RPC地址
Property Description
yarn.nodemanager.address 临时性端口不能用于NodeManager的RPC server,因为它会导致NM重启前后使用不同的端口。这会使得之前运行的与NM通信的client断开。明确设置yarn.nodemanager.address 为包含端口号的地址是启用NM Restart的前提条件。
Step 4. Auxiliary services.
  • 在YARN集群中,NodeManager可以配置为运行auxiliary services. 完整的NM Restart功能依赖任何auxiliary service都要配置为支持recovery。这通常包括:(1)避免使用临时性端口,以便之前运行中的client(在这个场景下,通常为container)在重启之后不会中断(2)当NodeManager重启和重新初始化auxiliary service时,确保auxiliary service自身支持通过加载之前的state可以恢复的能力,
  • 对于上述auxiliary service的一个简单样例就是MapReduce(MR)的‘ShuffleHandler’。ShuffleHandler已经满足上述两个必要条件,所以用户/admin 不需要做任何事情来支持NM Restart. (1)配置项mapreduce.shuffle.port 控制NodeManager host上的ShuffleHandler绑定的端口,它默认为一个非临时性端口。(2)ShuffleHandler service也已经支持NM重启之后恢复之前的state。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics