hadoop杂记（二）

hmilyzhangl

浏览: 45000 次
性别:
来自: 重庆

最近访客更多访客>>

hackWang

zr531196248

haha3000

langke93

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

云计算--hadoop

hadoop hdfs

四、安全模式属性说明

1、dfs.replication.min 类型：int 默认值：1 说明：设置最小副本级别，成功执行写操作所需要创建的最少副本数目（也就是最小复本级别）

2、 dfs.safemode.threshold.pct 类型：float 默认值：0.999 说明：在namenode退出安全模式之前，系统中满足最小复本级别（由上一个选项定义）的块的比例，将这项值设为0或更小的比例会令namenode无法启动安全模式，设为高于1则永远不会退出安全模式

3、dfs.safemode.extension 类型：int 默认值：30000 说明：在最小复本条件（由上一个选项定义）满足之后，namenode还需要处于安全模式的时间（以毫秒为单位），对于小型集群（十几个节点），这项值可以设为0

core-site.xml个别设置说明：

1、io.file.buffer.size 设置缓冲区大小，默认4kb（64kb 128kb）

2、 fs.trash.interval 设置回收站中的文件保留多久后删除，以分钟为单位，默认值是0，表示回收特性无效。该回收功能是用户级特性，启用后，每个用户都有自己独立的回收站目录，即home目录下的.trash目录，恢复时只要从该目录找到被删除的文件，将其移除就可以了。hdfs会自动删除回收站中的文件，其它文件系统不具备这个功能，需要使用下列命令自行删除 hadoop fs -expunge

hdfs-site.xml个别设置说明：

1、dfs.block.size 设置hdfs块大小，默认64mb （128mb 256mb）

2、dfs.balance.bandwidthPerSec 设置均衡器在不同节点之间复制数据的带宽

dfs.datanode.du.reserved 设置保留空间的大小，以供其它程序使用,以字节为单位

fs.checkpoint.period 设置辅助namenode每隔多久创建检查点，以秒为单位

fs.checkpoint.size 设置当编辑日志（edits）大大小达到多少mb时，创建检查点，系统每5分钟检查一次编辑日志大小

dfs.datanode.numblocks 设置datanode一个目录存放多少个块时，就重新创建一个子目录

dfs.datanode.scan.period.hours 设置datanode块扫描的周期，默认三周（504小时）扫描一次

hadoop命令：

1、hadoop fs -mkdir /user/username 创建用户

2、hadoop fs -chown user:user /user/username 设置权限

3、hadoop dfsadmin -setSpaceQuota 1t /user/username 限制空间容量

4、hadoop dfsadmin -saveNamespace 创建检查点，将内存中的文件熊映射保存为一个新的fsimage文件，重置edits文件，该操作仅在安全模式下执行

5、hadoop dfsadmin -safemode get 查看namenode是否处于安全模式

6、hadoop dfsadmin -safemode wait 在脚本中执行某条命令前namenode先退出安全模式

7、hadoop dfsadmin -safemode enter 进入安全模式

8、hadoop dfsadmin -safemode leave 离开安全模式

9、hadoop dfsadmin -report 显示文件系统的统计信息，以及所连接的各个datanode的信息

10、hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中，包括正在被复制或删除的块信息，以及已连接的datanode列表

11、hadoop dfsadmin -refreshNodes 更新允许连接到namenode的datanode列表

12、hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级

13、hadoop dfsadmin -finalizeUpgrade 移除datanode和namenode的存储目录上的旧版数据

14、hadoop dfsadmin -setQuota 设置目录中包含的文件和子目录的个数的配额

15、hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额

16、hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额

17、hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件

18、hadoop fsck / 检查hdfs中文件的健康状况，该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块

19、 hadoop fsck /user/tom/part-007 -files -blocks -racks files选项显示文件名称，大小，块数量，健康状况；block选项描述文件中各个块的信息，每个块一行；racks选项显示各个块的机架位置和 datanode的地址

解决主nemenode重启较慢的方法：（使用 -importCheckpoint选项启动辅助namenode，可将辅助namenode用作新的主namenode）

1、辅助namenode请求主namenode停止使用edits（记录操作日志的文件）文件。暂时将新记录写操作记录到一个新文件中

2、辅助namenode从主namenode获取fsimage（元数据永久检查点文件）和edits文件（采用http get）

3、辅助namenode将fsimage文件载入内存，逐一执行edits文件中的操作，创建新的fsimage文件

4、辅助namenode将新的fsimage文件发送回主namenode（使用http post）

5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件，用步骤一所产生的edits文件替换旧的edits文件，同时，还更新fstime文件来记录检查点执行的时间

均衡器程序：

start-balancer.sh -threshold 参数指定阀值（百分比格式），默认值是10%，任何时刻，集群中都只能运行一个均衡器，均衡器在不同节点之间复制数据是有带宽限制的，默认值是1mb/s

分享到：

hadoop杂记（一） | java 通过jdbc驱动连接hive操作实例

2012-05-03 15:51
浏览 1459
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论