mapreduce的shuffle，partition，combine - - ITeye博客

`

bbym010

浏览: 141196 次
性别:
来自: 北京

最近访客更多访客>>

bneliao

liao8735

longyi_java

chang1816

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

harim：好文章！
JAVA 中BIO,NIO,AIO的理解
mercyblitz：引用3.toCharArray（）调用toCharArray( ...
Java优化编程学习笔记一-----Java核心类与性能优化
mercyblitz：引用# list = new ArrayList(); # ...
Java优化编程学习笔记一-----Java核心类与性能优化

mapreduce的shuffle，partition，combine

博客分类：

分布式

阅读更多

shuffle：

　　是描述着数据从map端传输到reduce端的过程，而且我们知道的是hadoop的集群环境中，大部分map task和reduce task是在不同的node上执行，主要的开销是网络开销和磁盘IO开销，因此shuffle的主要作用相当于是

　　1.完整的从map task端传输到reduce task端。

　　2.跨节点传输数据时，尽可能减少对带宽的消耗.（注意是reduce执行的时候去拉取map端的结果）

　　3.减少磁盘IO开销对task的影响。

shuffle的详细：http://webcache.googleusercontent.com/search?q=cache:MP_qIMfp1N4J:langyu.iteye.com/blog/992916+mapreduce+shuffle+partition%E4%BD%9C%E7%94%A8&cd=1&hl=zh-CN&ct=clnk&gl=cn

Partition：
Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求：

1）均衡负载，尽量的将工作均匀的分配给不同的reduce。

2）效率，分配速度一定要快。

　　重定向mapper的输出，根据key来决定mapper应该讲k，v对输出给谁，默认采用的hash key来实现，也可以根据自己的需要来实现。

partition的更多参考：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/

combiner：

　　相当于本地的reduce，在分发mapper的结果之前做一下本地的reduce，比如说wordcount程序，单词“a”出现了500次，存储并洗牌一次（“a”，500）键值对比许多次（“a”，1）要高效。

分享到：

spring生命周期 | tomcat源码

2013-02-20 09:50
浏览 2123
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MapReduce Shuffle 过程图解 Xmind文件: MapReduce Shuffle 过程图解 Xmind文件

MapReduce详解Shuffle过程: MapReduce详解Shuffle过程

论文研究-MapReduce中Shuffle优化与重构 .pdf: MapReduce中Shuffle优化与重构，彭辅权，金苍宏，如今Hadoop已成为目前最主流的云计算平台，在Hadoop分布式计算平台中，如何优化MapReduce计算性能是目前研究的一个热点问题。除了编写高

17、MapReduce的分区Partition介绍: 17、MapReduce的分区Partition介绍网址：https://blog.csdn.net/chenwewi520feng/article/details/130454574 本文介绍MR的分区Partition。本文分为2个部分，即介绍与示例。前提依赖：hadoop环境可正常使用。

mapreduce高级特性及shuffle: 1.shuffle机制详细讲解 2.MR案例多文件输出 3.MR案例partition使用 4.MR案例内容去重 5.MR案例敏感词汇过滤 6.MR案例自定义combiner的使用 7.MR案例倒排序索引 8.MR案例简单排序

hadoop-mapreduce-client-shuffle-2.5.1-API文档-中文版.zip: 赠送jar包：hadoop-mapreduce-client-shuffle-2.5.1.jar；赠送原API文档：hadoop-mapreduce-client-shuffle-2.5.1-javadoc.jar；赠送源代码：hadoop-mapreduce-client-shuffle-2.5.1-sources.jar；赠送Maven依赖...

hadoop-mapreduce-client-shuffle-2.5.1-API文档-中英对照版.zip: 赠送jar包：hadoop-mapreduce-client-shuffle-2.5.1.jar；赠送原API文档：hadoop-mapreduce-client-shuffle-2.5.1-javadoc.jar；赠送源代码：hadoop-mapreduce-client-shuffle-2.5.1-sources.jar；赠送Maven依赖...

自己实现MapReduce-Shuffle过程.zip: 用JAVA多线程实现单机版Map-Shuffle-Reduce，以理解MapReduce原理（蓄水池采用确定reduce范围）

hadoop-mapreduce-client-shuffle-2.6.5-API文档-中文版.zip: 赠送jar包：hadoop-mapreduce-client-shuffle-2.6.5.jar；赠送原API文档：hadoop-mapreduce-client-shuffle-2.6.5-javadoc.jar；赠送源代码：hadoop-mapreduce-client-shuffle-2.6.5-sources.jar；赠送Maven依赖...

hadoop-mapreduce-client-shuffle-2.6.5-API文档-中英对照版.zip: 赠送jar包：hadoop-mapreduce-client-shuffle-2.6.5.jar；赠送原API文档：hadoop-mapreduce-client-shuffle-2.6.5-javadoc.jar；赠送源代码：hadoop-mapreduce-client-shuffle-2.6.5-sources.jar；赠送Maven依赖...

【MapReduce篇05】MapReduce之Shuffle机制1: （1）如果 Reduce Task的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000Xx （2）如果1< ReduceT

Hadoop Shuffle过程全解析: Hadoop Mapreduce过程shuffle过程全解析，Shuffle过程

mapreduce mapreduce mapreduce: mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce mapreduce ...

实验项目 MapReduce 编程: 4 分别在自编 MapReduce 程序 WordCount 运行过程中和运行结束后查看 MapReduce Web 界面。 5. 分别在自编 MapReduce 程序 WordCount 运行过程中和运行结束后练习 MapReduce Shell 常用命令。。。

MapReduce执行流程和Shuffle过程: 本节将对 Hadoop MapReduce 的工作机制进行介绍，主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解，可以使程序开发者更合理地使用 MapReduce 解决实际问题。 ...

Hadoop原理与技术MapReduce实验: （2）打开网站localhost:8088和localhost:50070，查看MapReduce任务启动情况（3）写wordcount代码并把代码生成jar包（4）运行命令（1）：把linus下的文件放到hdfs上（2）：运行MapReduce （5）：查看运行结果 ...

【MapReduce篇07】MapReduce之数据清洗ETL1: 【MapReduce篇07】MapReduce之数据清洗ETL1

MapReduce发明人关于MapReduce的介绍: MapReduce发明人关于MapReduce的介绍

MapReduce实现join连接: 简单的在MapReduce中实现两个表的join连接简单的在MapReduce中实现两个表的join连接简单的在MapReduce中实现两个表的join连接

Global site tag (gtag.js) - Google Analytics