hadoop mapper和reduce数量设置 - - ITeye博客

`

447214075

浏览: 77655 次
性别:
来自: 北京

最近访客更多访客>>

07accp

yeocoo

jssyydg

tyzqqq

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

LinApex： yangshangchuan 写道我们研究new一个Objec ...
再次陷入迷茫
yangshangchuan：我们研究new一个Object对象占多少内存可能没什么实际意义 ...
再次陷入迷茫

hadoop mapper和reduce数量设置

博客分类：

hadoop

阅读更多

但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。
为了方便介绍，先来看几个名词：
block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数
（1）默认map个数
如果不进行任何设置，默认的map个数是和blcok_size相关的。
default_num = total_size / block_size;
（2）期望大小
可以通过参数
mapred.map.tasks来设置程序员期望的map个数，但是这个个数只有在大于default_num的时候，才会生效。
goal_num =mapred.map.tasks;
（3）设置处理的文件大小
可以通过mapred.min.split.size 设置每个task处理的文件大小，但是这个大小只有在大于
block_size的时候才会生效。
split_size = max(
mapred.min.split.size,
block_size);split_num = total_size / split_size;
（4）计算的map个数
compute_map_num = min(split_num, max(default_num, goal_num))
除了这些配置以外，mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的，也就是说max_map_num <= input_file_num。所以，最终的map个数应该为：
final_map_num = min(compute_map_num, input_file_num)
经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：
（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。
（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。

分享到：

spring boot 使用gradle打包包含所有依赖 ... | hadoop 往dfs上传文件时报错

2014-11-08 13:21
浏览 4534
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop实战中文版: 3.1.2 编程读写HDFS　3.2 剖析MapReduce 程序　3.2.1 Hadoop数据类型　3.2.2 Mapper　3.2.3 Reducer　3.2.4 Partitioner：重定向Mapper输出　3.2.5 Combiner：本地reduce　3.2.6 预定义mapper和Reducer类的单词计数...

Idea运行MapperReduce本地环境配置(win10).rar: 介绍不多，就是1分钟就能帮你配置完MapperReduce在win10上分析数据的jar文件环境（资源免费，记得一键三连！）

Hadoop权威指南第二版(中文版): 　本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop...

搭建Hadoop集群，写mapreduce程序处理数据: 搭建了一个完全分布式Hadoop集群，并通过Java写了mapreduce程序处理数据，需要下载的可以找我要具体数据。

Hadoop权威指南（中文版）2015上传.rar: Apache Hadoop和Hadoop生态圈第2章关于MapReduce 一个气象数据集数据的格式使用Unix工具进行数据分析使用Hadoop分析数据 map阶段和reduce阶段横向扩展合并函数运行一个分布式的MapReduce作业 Hadoop的...

基于Hadoop的数据分析.doc: 依次选择open " "perspective，other，Map、Reduce，如下图所示： " " " "(3)设置Map/Reduce location，选择Map/Reduce locations，new hadoop " "location，将其中的内容设置成下图所示的内容： " " " "设置...

大数据云计算技术在云中构建可扩展的分布式应用程序-精通Hadoop 共68页.docx: 1.4 执行和测试HADOOP样例程序 18 1.4.1 Hadoop的样例代码 18 1.4.2 测试Hadoop 23 1.5 解决问题 24 1.6 总结 25 2 MAPREDUCE任务的基础知识 26 2.1 HADOOP MAPREDUCE作业的基本构成要素 26 2.1.1 输入分割块 30 ...

提高hadoop的mapreduce job效率笔记: 修改mapper和reducer数量,如何使用combiner,什么时候该选择哪个writeable等。资料里很详细说明了。

hadoop教程: 这篇教程从用户的角度出发，全面地介绍了Hadoop Map/Reduce框架的各个方面。

Hadoop实战中文版.PDF: 146第8章　管理Hadoop　1478.1　为实际应用设置特定参数值　1478.2　系统体检　1498.3　权限设置　1518.4　配额管理　1518.5　启用回收站　1528.6　删减DataNode　1528.7　增加DataNode　1538.8　管理NameNode和SNN...

Optimizing Hadoop for MapReduce(PACKT,2014): MapReduce is the distribution system that the Hadoop MapReduce engine uses to distribute work around a cluster by working parallel on smaller data sets. It is useful in a wide range of applications, ...

hadoop 权威指南（第三版）英文版: hadoop权威指南第三版（英文版）。 Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Preface . . . . . . ....

Hadoop中MapReduce基本案例及代码（一）: MapReduce意味着在计算过程中实际分为两大步，Map过程和Reduce过程。下面以一个统计单词次数简单案例为例: 数据源 Map类 import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org....

Hadoop实战（陆嘉恒）译: Hadoop组件3.1 HDFS 文件操作3.1.1 基本文件命令3.1.2 编程读写HDFS3.2 剖析MapReduce 程序3.2.1 Hadoop数据类型3.2.2 Mapper3.2.3 Reducer3.2.4 Partitioner：重定向Mapper输出3.2.5 Combiner：本地reduce3.2.6 ...

Hadoop实战: 323.1.2 编程读写HDFS 353.2 剖析MapReduce程序 373.2.1 Hadoop数据类型 393.2.2 Mapper 403.2.3 Reducer 413.2.4 Partitioner：重定向Mapper输出 413.2.5 Combiner：本地reduce 433.2.6 预定义mapper和Reducer类的...

Hadoop-MapReduce:一个使用Hadoop分析大数据的应用程序: Hadoop MapReduce分析大数据（Apache Hadoop，Java，Map ... 在HDFS的单节点和多节点群集上都实现了Mapper和reducer。使用不同数量的映射器和化简器进行时间和性能分析。使用的技术：Apache Hadoop，Java，Amazon EC2

MongoDBHadoopStockInfo:这个项目实现了 Sharding MongoDB config 和 Connected MongoDB with Hadoop: Hadoop Map-Reduce 与 MongoDB 连接器（使用 BSON/MongoUpdateWritable 格式覆盖 Mapper 和 Reducer 类） ##Sharded MongoDB 配置（这部分无法在代码中显示，所以我只在这里展示。）下图是我设置三个不同端口的...

hadoop_the_definitive_guide_3nd_edition: Hadoop definitive 第三版, 目录如下 1. Meet Hadoop . . . 1 Data! 1 Data Storage and Analysis 3 Comparison with Other Systems 4 RDBMS 4 Grid Computing 6 Volunteer Computing 8 A Brief History of Hadoop 9...

forcombiner_reduce_java_mapReduce_markizj_yourselfarq_源码: Map Reduce中的Combiner就是为了避免map任务和reduce任务之间的数据传输而设置的，Hadoop允许用户针对map task的输出指定一个合并函数。即为了减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少...

让python在hadoop上跑起来: 本文实例讲解的是一般的hadoop入门程序“WordCount”，就是首先写一个map程序用来将输入的字符串分割成单个的单词，然后reduce这些单个的单词，相同的单词就对其进行计数，不同的单词分别输出，结果输出每一个单词...

Global site tag (gtag.js) - Google Analytics