Hive怎样决定reducer个数?
Hadoop
MapReduce程序中,reducer个数的设定极大影响执行效率
,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的
估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定:
1. hive.exec.reducers.bytes.per.reducer(默认为1000^3)
2. hive.exec.reducers.max(默认为999)
计算reducer数的公式很简单:
N=min(参数2,总输入数据量/参数1)
通常情况下,有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定reducer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数)。
Reduce任务设置多少个?
正确的reduce任务的
个数应该是0.95或者1.75 ×(节点数
×mapred.tasktracker.tasks.maximum参数值)
。如果任务数是节点个数的0.95倍,那么所有的reduce任务能够在
map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍,那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批
reduce任务,这样的情况更有利于负载均衡。
set mapred.reduce.tasks=16;
分享到:
相关推荐
hive执行计划可视化工具
hive50题作业.txt,
hive实现并发机制:hive里,同一sql里,会涉及到n个job,...如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。
Hive及Hadoop作业调优 阿里巴巴内部hive优化经验文档
hive2.1.1orc格式读取报数组越界错误,替换jar包。hive-exec-2.1.1-cdh6.3.2.jar、hive-orc-2.1.1-cdh6.3.2.jar。分发各个服务器即可。
Hive优化以及执行原理,一位前辈总结的hive知识,个人觉得非常有用,资源难找,现在贡献给大家,独乐乐不如众乐乐。
Hive任务提交流程.pdf
hive的一些关于设置map和reduce的参数
windows平台下,hive可执行文件,完全没有问题,可以使用。 将这个bin目录覆盖hive原有的bin目录即可
Hadoop [3] is a popular open-source map-reduce im- plementation which is being used as an alternative to store and process extremely large data sets on commodity hard- ware. However, the map-reduce ...
hive密码设置包,还需更改配置
hive hive hive hive hive hive hive hive hive hive hive hive
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加...
hive调优总结,网络上分享的hive常见优化细节,这是一个前辈的总结,个人觉得,总结得相当到位和详细
hive执行过程,便于初学者尽快掌握hive开发所需知识和技能。
Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同。 拥有1万多个Hive作业的大电商如何进行Hive优化的?本系列课结合企业实战和场景从作业架构层面、Hql(Hive sql)语法层面、Hive...
Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同。 拥有1万多个Hive作业的大电商如何进行Hive优化的?本系列课结合企业实战和场景从作业架构层面、Hql(Hive sql)语法层面、Hive...
CDH平台,通过hue访问hive,控制库级别,表级别,及列级别的访问权限
windows10下安装hive2.3.3的时候,无法执行hive命令,原因是官方下载文件中缺少可执行文件(好多个cmd文件),安装的时候无法执行成功。下载后,解压替换hive的bin目录即可执行成功。