`
hmilyzhangl
  • 浏览: 45000 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

hadoop杂记(二)

阅读更多
四、安全模式属性说明
1、dfs.replication.min 类型:int 默认值:1 说明:设置最小副本级别,成功执行写操作所需要创建的最少副本数目(也就是最小复本级别)
2、 dfs.safemode.threshold.pct 类型:float 默认值:0.999 说明:在namenode退出安全模式之前,系统中满足最小复本级别(由上一个选项定义)的块的比例,将这项值设为0或更小的比例会令namenode无 法启动安全模式,设为高于1则永远不会退出安全模式
3、dfs.safemode.extension 类型:int 默认值:30000 说明:在最小复本条件(由上一个选项定义)满足之后,namenode还需要处于安全模式的时间(以毫秒为单位),对于小型集群(十几个节点),这项值可以设为0

core-site.xml个别设置说明:
1、io.file.buffer.size 设置缓冲区大小,默认4kb(64kb 128kb)
2、 fs.trash.interval 设置回收站中的文件保留多久后删除,以分钟为单位,默认值是0,表示回收特性无效。该回收功能是用户级特性,启用后,每个用户都有自己独立的回收站目录, 即home目录下的.trash目录,恢复时只要从该目录找到被删除的文件,将其移除就可以了。hdfs会自动删除回收站中的文件,其它文件系统不具备这 个功能,需要使用下列命令自行删除 hadoop fs -expunge

hdfs-site.xml个别设置说明:
1、dfs.block.size 设置hdfs块大小,默认64mb (128mb 256mb)
2、dfs.balance.bandwidthPerSec 设置均衡器在不同节点之间复制数据的带宽

dfs.datanode.du.reserved 设置保留空间的大小,以供其它程序使用,以字节为单位
fs.checkpoint.period 设置辅助namenode每隔多久创建检查点,以秒为单位
fs.checkpoint.size 设置当编辑日志(edits)大大小达到多少mb时,创建检查点,系统每5分钟检查一次编辑日志大小
dfs.datanode.numblocks 设置datanode一个目录存放多少个块时,就重新创建一个子目录
dfs.datanode.scan.period.hours 设置datanode块扫描的周期,默认三周(504小时)扫描一次


hadoop命令:
1、hadoop fs -mkdir /user/username   创建用户
2、hadoop fs -chown user:user /user/username  设置权限
3、hadoop dfsadmin -setSpaceQuota 1t /user/username  限制空间容量
4、hadoop dfsadmin -saveNamespace 创建检查点,将内存中的文件熊映射保存为一个新的fsimage文件,重置edits文件,该操作仅在安全模式下执行
5、hadoop dfsadmin -safemode get  查看namenode是否处于安全模式
6、hadoop dfsadmin -safemode wait  在脚本中执行某条命令前namenode先退出安全模式
7、hadoop dfsadmin -safemode enter  进入安全模式
8、hadoop dfsadmin -safemode leave  离开安全模式
9、hadoop dfsadmin -report 显示文件系统的统计信息,以及所连接的各个datanode的信息
10、hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中,包括正在被复制或删除的块信息,以及已连接的datanode列表
11、hadoop dfsadmin -refreshNodes 更新允许连接到namenode的datanode列表
12、hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级
13、hadoop dfsadmin -finalizeUpgrade 移除datanode和namenode的存储目录上的旧版数据
14、hadoop dfsadmin -setQuota  设置目录中包含的文件和子目录的个数的配额
15、hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额
16、hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额
17、hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件
18、hadoop fsck / 检查hdfs中文件的健康状况,该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块
19、 hadoop fsck /user/tom/part-007 -files -blocks -racks  files选项显示文件名称,大小,块数量,健康状况;block选项描述文件中各个块的信息,每个块一行;racks选项显示各个块的机架位置和 datanode的地址

解决主nemenode重启较慢的方法:(使用 -importCheckpoint选项启动辅助namenode,可将辅助namenode用作新的主namenode)
1、辅助namenode请求主namenode停止使用edits(记录操作日志的文件)文件。暂时将新记录写操作记录到一个新文件中
2、辅助namenode从主namenode获取fsimage(元数据永久检查点文件)和edits文件(采用http get)
3、辅助namenode将fsimage文件载入内存,逐一执行edits文件中的操作,创建新的fsimage文件
4、辅助namenode将新的fsimage文件发送回主namenode(使用http post)
5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件,用步骤一所产生的edits文件替换旧的edits文件,同时,还更新fstime文件来记录检查点执行的时间

均衡器程序:
start-balancer.sh -threshold 参数指定阀值(百分比格式),默认值是10%,任何时刻,集群中都只能运行一个均衡器,均衡器在不同节点之间复制数据是有带宽限制的,默认值是1mb/s
分享到:
评论

相关推荐

    深入理解Hadoop(第二版)

    本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例

    hadoop分区二次排序示例.zip

    hadoop分区二次排序示例,对基站数据,按电话号码升序、到达时间降序进行排序

    hadoop 二次排序 原理

    Hadoop 大数据方向 mapreduce计算中的二次排序,讲解透彻

    Hadoop大数据平台运维杂记.pptx

    Hadoop大数据平台运维杂记.pptx

    Hadoop权威指南 第二版(中文版)

     本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop...

    Hadoop运维杂记

    Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。在众多公司中做的比较好(用的也比较广泛)是Cloudera。...它不是一个详细指导安装的文档、是一个杂记。

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    Hadoop权威指南中文版(第二版)+Hadoop in Action

    Hadoop权威指南中文版(第二版)+Hadoop in Action(英文版) + pro Hadoop(英文版)

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...

    hadoop-3.1.3安装包

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...

    hadoop实现分区二次排序代码示例.zip

    hadoop分区二次排序代码示例,包含基站数据集,对基站数据,按电话号码升序、到达时间降序进行排序,只需打包成jar,即可在hadoop集群中运行

    Apache Flume, Distributed Log Collection for Hadoop(第二版)

    Apache Flume, Distributed Log Collection for Hadoop,2015 第二版,Packt Publishing

    Hadoop In Action2

    Hadoop In Action 中文第二版 卷二 rar

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    Hadoop二进制安装包稳定版本

    Hadoop是分布式计算模型,用于分布式计算,包括分布式文件系统HDFS和计算系统MapReduce,二进制安装包,解压以后就可以使用

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    Hadoop in Practice 第二版 英文版

    This second edition covers Hadoop 2, which at the time of writing is the current production-ready version of Hadoop. The first edition of the book covered Hadoop 0.22 (Hadoop 1 wasn’t yet out), and ...

Global site tag (gtag.js) - Google Analytics