出处:http://zzhblog.sinaapp.com/?p=82
一、 Hadoop节点热拔插
在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。
2.在集群中添加节点:
a. 把新节点IP或者主机名字加入到主节点的slaves文件。
b. 登录到新节点,执行:
1
2
3
|
cd
$HADOOP_HOME
bin
/hadoop-daemon
.sh start datanode
bin
/hadoop-daemon
.sh start tasktracker
|
3. 从集群中移走节点,且对移走节点的数据进行备份:
a. 在主节点的core-site.xml配置文件中添加
1
2
3
4
5
|
<
property
>
<
name
>dfs.hosts.exclude</
name
>
<
value
>/usr/local/hadoop/conf/exclude</
value
>
<
description
>A base for other temporary directories.</
description
>
</
property
>
|
b. 在主节点的$HADOOP_HOME/conf/目录下新建文件excludes,每行为需要移走的节点,该例为s140。
c. 运行命令:
1
|
hadoop dfsadmin -refreshNodes
|
该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。此刻datanode消失了,但是tasktracker还存在。
d. 然后热行命令,查看状态
1
|
bin
/hadoop
dfsadmin -report
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
Name: 192.168.3.140:50010
Decommission Status : Decommission in progress
Configured Capacity: 310716715008 (289.38 GB)
DFS Used: 59891990052 (55.78 GB)
Non DFS Used: 20663939548 (19.24 GB)
DFS Remaining: 230160785408(214.35 GB)
DFS Used%: 19.28%
DFS Remaining%: 74.07%
Last contact: Fri Aug 13 10:17:20 GMT+08:00 2010
Name: 192.168.3.136:50010
Decommission Status : Normal
Configured Capacity: 487925370880 (454.42 GB)
DFS Used: 101679245034 (94.7 GB)
Non DFS Used: 55873218838 (52.04 GB)
DFS Remaining: 330372907008(307.68 GB)
DFS Used%: 20.84%
DFS Remaining%: 67.71%
Last contact: Fri Aug 13 10:17:21 GMT+08:00 2010
|
e. 在停掉节点Decommission Status不为Normal前, mapreduce操作会出现异常。
f. 节点移走64G数据需要十分钟左右。
二、 数据负载均衡
1. 在Hadoop集群中新添加一个Datanode时,需要对集群数据进行负载均衡。
2. 在主节点运行bin/start-balancer.sh命令,可以添加参数-threshold 5,threshold是平衡阈值,默认是10%,值越小负载越均衡,但需要更长的时间去执行。
3. 添加s140到集群,执行负载均衡半个小时共负载了4G的数据。
分享到:
相关推荐
Hadoop datanode启动失败:Hadoop安装目录权限的问题
Hadoop datanode重新加载失败无法启动解决.docx
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地...
hadoop 源码解析-DataNode
1. Hadoop 2.0 2. 部署在2个Ubuntu上 3. 2个namenode 2个datanode
用于 Apache Hadoop HDFS 的 DataNode 卷重新平衡工具该项目旨在填补和系列的空白:当一个硬盘驱动器在 Datanode 上死机并被替换时,没有真正的方法将块从最常用的硬盘移动到新添加的硬盘上——因此是空的。...
启动Hadoop后 没有DataNode进程 的解决方法。 一篇文章带你快速了解!
手把手教你配置高效的Hadoop集群,充分利用Hadoop平台的优势。2. 为Hadoop生态系统实现强健的端到端的安全保障。
《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
Hadoop应用开发与案例实战(慕课版)-课件PPT.rar
Python+Spark 2.0+Hadoop机器学习与大数据实战完整高清带书签的PDF压缩包
hadoop基于linux开发和布署运行,故不能将hadoop环境原始运行在windows上。 操作系统环境差异说明 因为模拟linux环境,所以在linux原生环境中就不需要他了 在windows环境中需要配置 如何配置: 配置到运行环境当前目录...
NULL 博文链接:https://zqhxuyuan.iteye.com/blog/1879292
《Hadoop大数据技术原理与应用》课后习题答案
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
hadoop大数据平台技术与应用 --课后习题参考答案.pdf