hive执行作业时reduce任务个数设置为多少合适？ - - ITeye博客

`

samuschen

浏览: 412162 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

u012363178

谁谁谁

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

秦时明月黑：深入浅出，楼主很有功底
hive编译部分的源码结构
tywo45：感觉好多错误，但还是支持！
HDFS+MapReduce+Hive+HBase十分钟快速入门
xbbHistory：解析的很棒！！
Linux-VFS
darrendu：执行这个命令，bin/hadoop fs -ls /home/ ...
Hadoop示例程序WordCount运行及详解
moudaen：请问楼主，我执行总后一条语句时，执行的是自带的1.sql，你当 ...
TPC-H on Hive

hive执行作业时reduce任务个数设置为多少合适？

博客分类：

hive

Hadoop Mapreduce

阅读更多

Hive怎样决定reducer个数？

Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）

2. hive.exec.reducers.max（默认为999）

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)

通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。

Reduce任务设置多少个？

正确的reduce任务的个数应该是0.95或者1.75 ×（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。

set mapred.reduce.tasks=16;

分享到：

hive编译部分的源码结构 | hive 源码结构分析（编译器）

2011-01-12 15:31
浏览 2597
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive及Hadoop作业调优: 这包括了控制Map任务的数量、合理设置Reduce任务的数量、压缩中间数据以及减少磁盘IO。配置参数调优的目的是提高数据处理的效率和速度，降低不必要的资源消耗。 2. 自定义模块：调优过程中，用户可能需要根据自身...

hive优化经典.pdf: 在Hive中，一个作业是通过分析input目录下的数据文件来创建一个或多个Map任务的，而影响Map数量的主要因素包括input文件的总个数、文件大小以及集群设置的文件块大小。首先，当input目录下存在一个或多个文件时，...

hive性能优化: Hive会根据输入数据量动态计算Reduce任务数量，公式为`num_reduce_tasks = min(${hive.exec.reducers.max},${input.size} / ${hive.exec.reducers.bytes.per.reducer})`，其中`hive.exec.reducers.bytes.per.reducer...

写好Hive程序的五个提示，淘宝数据平台团队: 5. 注意性能监控和调整：监控Hive作业的执行情况，并根据资源消耗和任务执行时间进行相应的配置调整，如设置合适的Map和Reduce任务内存大小等。以上五个方面的提示，概括了在编写Hive程序时需要注意的性能优化和...

hive常见的优化方案ppt: 8. **控制并行Reduce任务**：通过`hive.exec.reducers.bytes.per.reducer`和`hive.exec.reducers.max`调整Reduce任务的数量和大小。 9. **启用向量化执行**：`hive.vectorized.execution.enabled`开启后，Hive将...

hive 优化策略、、、、: 6. 作业调度优化：合理安排作业的执行顺序和依赖关系，以及使用Hive的作业流功能，可以有效减少作业的执行时间和提高资源利用率。 7. 数据倾斜处理：数据倾斜是Hive性能问题的常见原因。通过数据预处理、使用动态...

Hive高级编程: 在Hive中，HiveQL被转换为MapReduce作业执行，例如： - **Join操作**：HiveQL支持标准的SQL JOIN语句，用于连接多个表，如`INSERT INTO TABLE pv_users SELECT pv.pageid,u.age FROM page_view pv JOIN user u ON ...

大数据企业级调优的完整过程：9.1 Fetch抓取；9.2 本地模式；9.3 表的优化；9.4 数据倾斜；9.5 并行执行: - **合理设置Reduce数**：根据业务需求和系统负载，平衡Reduce任务的数量。 **9.5 并行执行** 并行执行是提高大数据处理效率的重要手段，允许任务同时进行，减少整体处理时间。通过配置`hive.exec.parallel`为true...

Hive Hadoop Spark优化: 2. **Task并行度**：合理设置Map和Reduce任务数量，以充分利用集群资源，避免过载或资源浪费。 3. **内存调优**：根据数据规模和计算需求调整MapReduce的内存参数，防止内存溢出。 4. **Compressio编码**：使用压缩...

Hive-Spark小文件解决方案(企业级实战).docx: - **设置Hive参数**：启用Hive的文件合并功能，如`hive.merge.mapfiles`和`hive.merge.mapredfiles`，并在作业结束时设置合适的合并文件大小，如`hive.merge.size.per.task`和`mapred.max.split.size`。 - **选择...

hadoop MapReduce教材: Hadoop MapReduce还包含一个重要的组件——JobTracker（在Hadoop 2.x版本中被YARN取代），它是任务调度和资源管理的中心，负责协调Map和Reduce任务的执行，确保整个作业的正确完成。同时，TaskTracker是运行在每个...

Hadoop的Demo: 7. **性能优化**：通过调整Hadoop的配置参数，优化MapReduce作业的性能，比如设置合适的split大小、调整Map和Reduce的任务数量等。通过这个HadoopDemo项目，初学者不仅能掌握Hadoop的基本操作，还能对Hadoop的...

hadoop The Definitive Guide 2nd Edition: - **执行Reduce任务**：Reduce任务对来自各个Map任务的数据进行聚合处理。 - **写入结果**：Reduce任务完成后，结果被写入到HDFS中。综上所述，《Hadoop：全面指南第二版》不仅涵盖了Hadoop的基础概念和发展历史，...

SparkSQL的分布式执行引擎(Spark ThriftServer): 3. **Shuffle优化**：通过调整shuffle的分区策略和reduce任务数量，减少数据交换的开销。 4. **数据源读写优化**：选择合适的文件格式（如Parquet、ORC），利用压缩和分区等手段提高读写速度。总的来说，SparkSQL...

hadoop.pdf: 随后，在Reduce阶段，具有相同键的所有键值对被发送到同一个Reduce任务，Reduce任务将这些键值对聚合，并产生最终的结果。这一过程极大地提高了数据处理的效率，使得Hadoop能够轻松应对大规模数据集的挑战。 ### ...

大数据面试100题.pdf: 在YARN中执行任务的过程包括：客户端提交作业到YARN、ResourceManager启动一个ApplicationMaster、ApplicationMaster向ResourceManager申请资源、ResourceManager分配资源给NodeManager、NodeManager启动相应的容器...

sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz: 它将数据库查询任务分解为一系列独立的Map任务，每个任务处理一部分数据，然后由Reduce阶段进行聚合。这样，即使面对海量数据，也能高效地完成数据迁移。 **安装过程：** 1. 首先，你需要解压下载的压缩包，使用...

基于Hadoop各大类SQL查询系统对比: - **执行延迟**：每次执行作业都需要启动Task，不适合需要实时响应的应用场景。 #### 2. Impala **简介** Impala是由Cloudera开发的一款实时交互式SQL查询系统，受Google的Dremel启发。它采用类似商用并行关系...

大数据方向面试题大全.pdf: 9. Hive优化策略：可以通过增加分区、设置合适的执行器配置、使用压缩存储等手段对Hive查询进行优化。 10. 分析函数：Hive支持丰富的分析函数，用于执行复杂的分析查询。 Spark面试题： 1. Spark的Shuffle原理及...

Global site tag (gtag.js) - Google Analytics