Map/Reduce中的Combiner的使用 - 心如大海 - ITeye博客

`

p_x1984

浏览: 1168873 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

清风_秋雨

sun80264629

shaoaj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pandaball：支持一下，心如大海
做有气质的男人
recall992：山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的
zhangsasa： -services "services-config ...
flex中endpoint的作用是什么？
来利强：非常感谢
java使用json所需要的几个包
zhanglian520：有参考价值。
hadoop部署错误之一：java.lang.IllegalArgumentException: Wrong FS

Map/Reduce中的Combiner的使用

博客分类：

hadoop

阅读更多

一、作用

1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

2、combiner还具有类似本地的reduce功能.

例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3)
reduce: (K3, list(V3)) → list(K4, V4)

3、如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

4、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

二、总结

1、combiner使用的合适，可以在满足业务的情况下提升job的速度，如果不合适，则将导致输出的结果不正确。

分享到：

secondarynamenode配置使用总结 | Map/Reduce中的Partiotioner使用

2011-07-07 08:36
浏览 4722
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

forcombiner_reduce_java_mapReduce_markizj_yourselfarq_源码: Map Reduce中的Combiner就是为了避免map任务和reduce任务之间的数据传输而设置的，Hadoop允许用户针对map task的输出指定一个合并函数。即为了减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少...

MapReduce分布式计算平台编程示例: 3.2 C语言Map-Reduce程序示例 6 3.2.1计算任务 6 3.2.2 Mapper算法设计 7 3.2.3 Reducer算法设计 8 3.2.4 作业提交命令 9 3.3 shell Map-Reduce程序示例 9 3.3.1计算任务 9 3.3.2 map实现 10 3.3.3 reduce实现 11 ...

hadoop倒排索引实现完整代码+报告: 接下来在 combiner 中，我们统计每个单词的 value 并加起来为 sum，并把原来 key 中的文件名剥离出来与sum 合并为新的 value（text），把单词设为 key（text）。最后在 reduce 中，我们对每个词的 value 用“：”...

2018最新BAT大数据面试题.docx: 3）很多人的误解在 Map 阶段，如果不使用 Combiner便不会排序，这是错误的，不管你用不用 Combiner，Map Task 均会对产生的数据排序（如果没有 Reduce Task，则不会排序，实际上 Map 阶段的排序就是为了减轻 Reduce...

提高hadoop的mapreduce job效率笔记: 修改mapper和reducer数量,如何使用combiner,什么时候该选择哪个writeable等。资料里很详细说明了。

大数据开发笔试.docx: 这些按照时间顺序包括：输入分片（input split）、map阶段、combiner阶段、shuffle阶段和reduce阶段。（5个阶段） 3、map方法是如何调用reduce方法的答：Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方，...

MapReduce单词统计 hadoop集群: Map阶段采集数据 Combiner阶段合并数据 Reduce阶段最终处理，进行排序等自定义操作每个阶段都会打印对应的数据处理情况，在Map阶段打印每一次读取切割之后的每个单词内容；在Combiner阶段打印单个分片里的单词...

大数据知识脉络总结: 分布式计算框架编程模型 InputFormat Map 输入：偏移量、一行数据输出：Text，Text ... 本地reduce，在map阶段运行看情况使用排序&TopN; 共同好友计算分布式资源调度框架架构原理分配流程

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点26　在HDFS、MapReduce、Pig 和Hive 中使用数据压缩技术点27　在MapReduce、Hive 和Pig 中处理可分割的LZOP 5．3　本章小结 6　诊断和优化性能问题 6．1　衡量MapReduce 和你的环境 6．1．1　提取作业统计...

Hadoop实战(第2版): 4．4　本章小结5　优化HDFS 处理大数据的技术5．1　处理小文件技术点24　使用Avro 存储大量小文件5．2　通过压缩提高数据存储效率技术点25　选择合适的压缩解码器技术点26　在HDFS、MapReduce、Pig 和Hive 中使用...

Hadoop二次开发必懂（下）: Mapper的结果，可能送到可能的Combiner做合并，Combiner在系统中并没有自己的基类，而是用Reducer作为Combiner的基类，他们对外的功能是一样的，只是使用的位置和使用时的上下文不太一样而已。Mapper最终处理的结果...

Hadoop实战中文版: 5.2.1 Reduce侧的联结　5.2.2 基于DistributedCache的复制联结　5.2.3 半联结：map侧过滤后在reduce侧联结　5.3 创建一个Bloom filter　5.3.1 Bloom filter做了什么　5.3.2 实现一个Bloom filter　5.3.3 Hadoop 0.20...

hadoop_the_definitive_guide_3nd_edition.pdf: Map and Reduce Java MapReduce Scaling Out Data Flow Combiner Functions Running a Distributed MapReduce Job Hadoop Streaming Ruby Python import import import import import import org.apache.hadoop.fs...

Hadoop中MapReduce基本案例及代码（四）: 就相当于map后多reduce几次。排序如果想将mapreduce结果排序，需将排序对象作为键值。案例：将利润求和后按照顺序排序数据源 profit.txt 编号 | 姓名 | 收入 | 支出 1 ls 2850 100 2 ls 3566 200 3 ls 4555 323 ...

Hadoop实战（陆嘉恒）译: map侧过滤后在reduce侧联结5.3 创建一个Bloom filter5.3.1 Bloom filter做了什么5.3.2 实现一个Bloom filter5.3.3 Hadoop 0.20 以上版本的Bloom filter5.4 温故知新5.5 小结5.6 更多资源第6 章编程实践6.1 开发...

Hadoop实战: 895.2.1 Reduce侧的联结 905.2.2 基于DistributedCache的复制联结 985.2.3 半联结：map侧过滤后在reduce侧联结 1015.3 创建一个Bloom filter 1025.3.1 Bloom filter做了什么 1025.3.2 实现一个Bloom filter 1045.3.3...

Hadoop实战中文版.PDF: 865.1.3　预处理和后处理阶段的链接　865.2　联结不同来源的数据　895.2.1　Reduce侧的联结　905.2.2　基于DistributedCache的复制联结　985.2.3　半联结：map侧过滤后在reduce侧联结　1015.3　创建一个Bloom filter...

hadoop 权威指南（第三版）英文版: Map and Reduce Java MapReduce Scaling Out Data Flow Combiner Functions Running a Distributed MapReduce Job Hadoop Streaming Ruby Python iii Hadoop Pipes Compiling and Running 3. The Hadoop ...

Global site tag (gtag.js) - Google Analytics