我们先看一看map中对reduce个数产生影响的两个参数
hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)
hive.exec.reducers.max(每个任务最大的reduce数,默认为999)
hive计算reducer数的公式很简单N=min(参数2,总输入数据量/参数1) ,即如果reduce的输入(map的输出)总大小不超过1G,那么只会有一个reduce任务.。
针对有些hql,由于我们的产生的计算中间数据量很庞大,那么必然到导致我们的reduce数目过大,甚至超过我们现有集群的全部reduce slots,如果计算时间过长, 这必然导致后续提交的reduce任务处于超长的等待阶段,解决办法办法为一下两种
1.更换或者实现更加公平的作业调度器。
2.限制 hive.exec.reducers.max = 集群内slots的*0.75
相关推荐
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。
Hadoop集群搭建及Hive的安装与使用
HIVE大数据学习资源
Linux_centos的Hive安装配套资源:hive安装包、mysql连接包、hive-env.sh配置文件、hive-site.xml配置文件
Hadoop hbase hive sqoop集群环境安装配置及使用文档
hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百MB 的数据集上执行...
Hadoop集群监控与Hive高可用.pdf
IDEA工具 连接CDH集群里面的hive组件 亲自测试通过 可以连接使用
hive解决问题的一些方案
hive实现并发机制:hive里,同一sql里,会涉及到n个job,...如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。
资源共享,基于阿里的云计算的信息跟hive进行对比,并且有一些可以借鉴之处,用于hive的开发和使用
从零开始hadoop+zookeeper+hbase+hive集群安装搭建,内附详细配置、测试、常见error等图文,按照文档一步一步搭建肯定能成功。(最好用有道云打开笔记)
Hive常见错误及解决方案.docx
hive2.1.1orc格式读取报数组越界错误,替换jar包。hive-exec-2.1.1-cdh6.3.2.jar、hive-orc-2.1.1-cdh6.3.2.jar。分发各个服务器即可。
Hadoop集群监控与Hive高可用-向磊 这个是pdf高清文字版本
大数据综合实验环境搭建(3个集群、Zookeeper、Hive、HBase)
本文是继hadoop伪分布式安装文档后,又一篇详细介绍完全分布式安装hadoop的过程,并在此基础上,介绍了如何集成安装hbase和hive的详细步骤。 本文真实记录了我安装过程的每个细节,初学者,可按文档一步步轻松完成...
hive hive hive hive hive hive hive hive hive hive hive hive
Hive多字节分隔符解决方案.docx
Hadoop [3] is a popular open-source map-reduce im- plementation which is being used as an alternative to store and process extremely large data sets on commodity hard- ware. However, the map-reduce ...