1.检查HDFS状态
fsck命令
1)fsck检测丢失及无效的数据块
-fsck只是起到检测作用,不会进行修复
2)fsck可以查看的内容
-每个文件的块数量、块的位置、机架信息
3)例子
$ hadoop fsck /
$ hadoop fsck / -files
$ hadoop fsck / -files -blocks
$ hadoop fsck / -files -blocks -locations
$ hadoop fsck / -files -blocks -locations -racks
4) 运行fsck的时机,建议使用定时任务(cron job),并把结果发送给管理员
-选择集群使用率不高的时间,去运行fsck
5)-move选项会把无效的文件放到/lost+found
-无效文件是指所有块(复制的)都丢失了
6)-delete选项删除无效文件
dfsadmin命令
1)dfsadmin提供了管理hdfs的功能
2)列出每一个DataNode上的信息
$ hadoop dfsadmin -report
3)重新加载dfs.hosts及dfs.hosts.exclude文件
$ hadoop dfsadmin -refreshNodes
4)手工设置文件系统为"安全模式"
-NameNode在启动时,会处于安全模式
-READ-ONLY - NameNode的元数据不可以改变,既不可以建立(删除)文件(文件夹)
-不能复制及删除块
-离开安全模式,依据复制块数点总块数百分比,可配置
$ hadoop dfsadmin -safemode neter
$ hadoop dfsadmin -safemode leave
-提供安全模式等待退出命令
-对脚本非常有用
$ hadoopo dfsadmin -safemode wait
5)保存NameNode
-必须在安全模式
$ hadoop dfsadmin -saveNamespace
2.集群之间拷贝数据
distcp命令
1.distcp在集群之间拷贝
-拷贝大数据
-拷贝过程通过Mapper-Only MapReduce 任务
-可以拷贝文件或文件夹,会检测目标的文件名及大小是否相同,确定是否覆盖
hadoop distcp hdfs://nn1:9000/path/to/src \
hdfs://nn2:9000/path/to/dest
2.在实践中,很多公司都有不在集群之间拷贝数据,一般做法是在导入数据时,会同时给另外一个集群导入数据
3.集群增加及移除节点
4.使集群平衡
5.NameNode元数据备份
分享到:
相关推荐
里面讲了一些hadoo是如何部署与运维的知识点,希望对初学者有所帮助!
大数据技术基础培训-Hadoop集群管理与维护.pptx
第8-11章全面地阐述了hadoop的i/o操作、hdfs的原理与基本操作,以及hadoop的各种管理操作,如集群的维护等;第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子...
第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-hadoop分布式集群HA模式部署.avi 06-hdfs...
该软件演示了一种创建和管理在Google Compute Engine上运行的Hadoop节点集群的方法。 概述 该软件演示了一种创建和管理在Google Compute Engine上运行的Hadoop节点集群的方法。 Compute可用于托管Hadoop集群。 一...
本文主要对Hadoop集群的节点磁盘数据结构进行说明,然后讲解如何利用管理工具对集群进行管理及日常的维护和升级
(一)Impala集群维护简介 PetImpalaabase集群主从节点启动的服务略有不同,其中主节点启动服务主要有: 资源管理 Hadoop服务 Hive服务 Impala zookeeper-server hadoop-hdfs-namenode hive-metastore petabase...
而CDH是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,全称Cloudera’s Distribution, including Apache Hadoop。 CDH提供了Hadoop的核心可扩展存储(HDFS)和分布式计算(MR),还...
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统...
《Hadoop大数据处理》共10章涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与...
《hadoop权威指南(第3版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,...
利用基准测试程序测试Hadoop集群 Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常...
《hadoop权威指南(第3版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,...
Hadoop YARN(Yet Another Resource Negotiator):用于集群资源管理和作业调度的框架,可以有效地管理集群中的计算资源。 Hadoop MapReduce:一种分布式计算模型,用于将大规模数据集分解为多个小任务,并在集群中...
《Hadoop权威指南(第2版)》是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 google帝国的基石是什么?mapreduce算法!开源项目Hadoop作为它的一个具体实现...
这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、...
Spydra的原理和设计基于我们在将Hadoop集群扩展和维护到2500多个节点和100 PB的容量(每天运行大约20,000个独立作业)的经验的基础上。 Spydra支持向Dataproc以及现有的本地Hadoop基础结构提交数据处理作业,并且...
《hadoop权威指南(第2版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,...
《hadoop权威指南(第2版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,...
第8-11章全面地阐述了hadoop的i/o操作、hdfs的原理与基本操作,以及hadoop的各种管理操作,如集群的维护等;第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子...