(转）用mapreduce来操作hbase的两点优化 -

月光杯

浏览: 377613 次
性别:
来自: 上海

最近访客更多访客>>

regicide

jybzjf

tangang

libo_591

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

(转）用mapreduce来操作hbase的两点优化

博客分类：

hbase

用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作，提升性能。它们分别是：

(1)scan.setCacheBlocks(false);

然后调用下面这句来初始化map任务 TableMapReduceUtil.initTableMapperJob

这个配置项是干什么的呢？本次mr任务scan的所有数据不放在缓存中，一方面节省了交换缓存的操作消耗，可以提升本次mr任务的效率，另一方面，一般mr任务scan的数据都是一次性或者非经常用到的，因此不需要将它们替换到缓存中，缓存中还是放一些正常的多次访问的数据，这样可以提升查询性能。

(2)conf.setBoolean("mapred.map.tasks.speculative.execution", false);

这个 "mapred.map.tasks.speculative.execution" 配置项是干什么用的呢？

是否开启mr的map备用任务机制，如果设为true，则如果一个map任务占用时间较其他的明显长很多（策略由内部设置），在其他TT节点上新建一个map任务，两个一起做，谁先做完，便结束。

优化项是将其设为false，为何呢，跟hbase存储机制有关，hbase本地存储机制，即hbase会尽量把hdfs上的数据文件和rs上对应region存在一台机器上，即当前的map的数据肯定在当前的机器上有本地数据，不需要网络传输。如果启用备用任务机制，则新创建备用任务时，很有可能新建备用任务的机器上没有所需要的数据的备份，如此便需要网络传输数据，增加了网络的开销，其效率会大大的降低，还不如不开启备用任务，就让原来的map任务正常做呢。当然，即便关闭了此机制，如果创建map失败（比如由于oom异常）仍然会在其他节点上重新创建此map任务。

分享到：

在linux下利用nohup来后台运行java程序 | (转载）hbase的基本操作

2014-02-18 15:30
浏览 1902
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

(转）用mapreduce来操作hbase的两点优化

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

(转）用mapreduce来操作hbase的两点优化

评论

发表评论

相关推荐

提升HBase写性能

hadoop 节点时间同步

HBase一次慢查询请求的问题排查与解决过程

HBase .META. Region启动不成功

hadoop1.2.1+zookeeper-3.4.5+hbase-0.94.1集群安装

zookeeper技术浅析

hbase二级索引Observer

hbase问题总结【转】

(转载）hbase的基本操作

(转载）hbase轻量级中间件simplehbase v0.1简介

(转载）hbase轻量级中间件simplehbase v0.2简介

HBase存储

shell语句操作hbase方法

Class org.apache.hadoop.hive.hbase.HBaseSplit not found

Hbase 优化

hbase 移植数据

常用hbase shell 命令

Hbase二级索引

最近访客更多访客>>