`
乡里伢崽
  • 浏览: 109297 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop集群balance工具详解

    博客分类:
  • hdfs
 
阅读更多
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。

     1) hadoop balance工具的用法:

To start:
bin/start-balancer.sh [-threshold <threshold>]
Example: bin/ start-balancer.sh
start the balancer with a default threshold of 10%
bin/ start-balancer.sh -threshold 5
start the balancer with a threshold of 5%

To stop:
bin/ stop-balancer.sh

      2)影响hadoop balance工具的几个参数:

             -threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。

            dfs.balance.bandwidthPerSec  默认设置:1048576(1 M/S),参数含义:设置balance工具在运行中所能占用的带宽,设置的过大可能会造成mapred运行缓慢

     3)hadoop balance工具其他特点:

           balance工具在运行过程中,迭代的将文件块从高使用率的datanode移动到低使用率的datanode上,每一个迭代过程中移动的数据量不超过下面两个值的较小者:10G或者指定阀值*容量,且每次迭代不超过20分钟。每次迭代结束后,balance工具将更新该datanode的文件块分布情况。以下为官方文档英文描述:

The  tool moves  blocks from  highly utilized datanodes  to  poorly utilized datanodes
iteratively. In each iteration a datanode moves or receives no more than the lesser of 10G
bytes or the threshold fraction of its capacity. Each iteration runs no more than 20
minutes. At the end of each iteration, the balancer obtains updated datanodes information
from the namenode.





在要balance的slave执行:

start-balancer.sh -threshold 10%

或 ./hadoop balancer -threshold 10





由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运行是有问题的。

暂时还没有找到控制磁盘使用率的参数,可以通过hadoop命令行来手动调节磁盘的使用情况。

> hadoop balancer -Threshold 20

或者 sh $HADOOP_HOME/bin/start-balancer.sh –t 20%

参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。
分享到:
评论

相关推荐

    Hadoop集群pdf文档

    Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...

    hadoop集群虚拟机安装详解

    hadoop集群虚拟机安装详解,用于在linux下的hadoop的建立,并详细说明过程,提供图片指导

    Hadoop集群-WordCount运行详解.pdf

    Hadoop集群-WordCount运行详解.pdf Hadoop,Hadoop集群,WordCount,pdf

    hadoop集群虚拟机安装详解概要.pdf

    hadoop集群虚拟机安装详解概要.pdf

    脚本搭建hadoop集群

    自动化安装hadoop集群 脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,...

    Hadoop集群-WordCount运行详解

    在linux环境下部署的Hadoop集群-WordCount运行详解。

    Hadoop集群与安全

    手把手教你配置高效的Hadoop集群,充分利用Hadoop平台的优势。2. 为Hadoop生态系统实现强健的端到端的安全保障。

    CentOS系统下Hadoop集群增加机器详解

    CentOS6.5系统下Hadoop2.6.0集群增加机器详解

    Hadoop集群(1-11期)

    Hadoop集群·WordCount运行详解(第6期) Hadoop集群·Eclipse开发环境设置(第7期) Hadoop集群·HDFS初探之旅(第8期) Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop...

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    hadoop集群安装配置详解

    1、集群部署介绍 1.1 Hadoop简介 1.2 环境说明 1.3 网络配置 1.4 所需软件 1.5 VSFTP上传 ...4、Hadoop集群安装 4.1 安装hadoop 4.2 配置hadoop 4.3 启动及验证 4.4 网页查看集群 5、常见问题FAQ

    Hadoop集群中影响应用性能的因素分析

    针对Hadoop集群中应用执行的低效率、高成本问题,首先,通过对Hadoop分布式存储技术和并行编程模型的分析,发现数据集采用单文件还是多文件方式,以及数据块划分的大小是影响其性能的主要因素.其次,设计实验探讨了不同...

    Hadoop集群构建实训报告.doc

    Hadoop集群构建实训报告

    Hadoop集群架构搭建分析

    Hadoop 集群架构搭建分析 Hadoop 集群架构搭建分析是指设计和搭建一个高效、可靠、可扩展的 Hadoop 集群环境,以满足大数据处理和分析的需求。本文将从概述、环境准备、环境搭建三个方面对 Hadoop 集群架构搭建进行...

    hadoop集群信息

    搭建高可用的Hadoop集群,基于NFS共享磁盘的namenode配置,使用zookeeper进行主节点推举

    细细品味Hadoop_Hadoop集群(第9期)_MapReduce初级案例

    细细品味Hadoop_Hadoop集群(第9期)_MapReduce初级案例

    Hadoop集群程序设计与开发教材最终代码.zip

    Hadoop集群程序设计与开发教材最终代码.zip

    hadoop集群环境的搭建

    "hadoop集群环境的搭建" Hadoop 是一个开源的大数据处理框架,由Apache基金会开发和维护。它可以实现大规模数据的存储和处理,具有高可扩展性、可靠性和高性能等特点。搭建 Hadoop 集群环境是实现大数据处理的重要...

Global site tag (gtag.js) - Google Analytics