`
Tristan_S
  • 浏览: 361547 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop shuffle 学习

 
阅读更多
hadoop的核心就是shuffle,最好的学习方式就是看源代码
但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐。
建立一个项目,引用最简单的wordcount, 将jar包attach到源代码上,再用远程调试就ok了。


打开mapreduce的调试端口
<property>
  <name>mapred.child.java.opts</name>
  <value>-Xmx200m -Xdebug -Xrunjdwp:transport=dt_socket,address=50051,server=y,suspend=y</value>
</property>

修改spill的参数 默认100
  <name>mapreduce.task.io.sort.mb</name>
  <value>1</value>

mapreduce的info日志
/usr/hadoop/hadoop-2.2.0/logs/userlogs

map端的shuffle

collect阶段
mapreduce.task.io.sort.mb  默认100(MB)
每次Mapper中context.write(word, one); 都会调用correct方法,将数据放到buffer中,
当buffer 超过了0.8*100MB=80MB 时会触发sortAndSpill方法,将buffer中的数据spill到磁盘,文件大小为40MB
如果设置了combiner的话,spill时会调用reduce的合并代码减少临时文件的输出14MB(可能)
可以用一个2MB的文件来做测试, 将mb调成1

merge阶段
mapreduce.task.io.sort.factor  默认 10
从spill的磁盘文件中进行多路归并排序,默认是10个一组
如果设置了combiner的话,也会进行一次combine


MapTask
1573行 是spill输出的文件
1820行 是merge的输出文件
可以用strings 命令看看输出的内容

注意
如果没有combiner的话, shuffle-Map端的输出还是
a 1
a 1
b 1
的形式,  不是
a 2
b 1

如果只有一个文件并且设置了combiner的话, 就不需要reduce端了。




reduce的shuffle端
就是各种merge
内存merge,磁盘merge, final merge


参考
http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html
http://blog.csdn.net/mrtitan/article/details/8711366
http://langyu.iteye.com/blog/1171091
http://zhangjie.me/eclipse-debug-hadoop/
分享到:
评论

相关推荐

    hadoop shuffle和排序1

    hadoop学习笔记-shuffle和排序 shuffle是指将map输出作为输入传给reduce的过程。

    Hadoop实战(第2版)

     《Hadoop硬实战》包含: ·Hadoop和MapReduce的基本概念 ·85个实战和测试技术 ·真实的场景,实用的解决方案 ·如何整合MapReduce和R前言 致谢关于本书 第1 部分 背景和基本原理1 跳跃中的Hadoop1.1 什么...

    【大数据】批处理与Hadoop.pdf

    MapReduce的学习曲线较为陡峭,虽然Hadoop⽣态系统的其他周边技术可以⼤幅降低这⼀问题的影响,但通过Hadoop集群快速实现某 些应⽤时依然需要注意这个问题。 围绕Hadoop已经形成了辽阔的⽣态系统,Hadoop集群本⾝也...

    Java大数据培训学校全套教程-50)Hadoop与MapReduce最入门

     通过学习Hadoop的安装与配置,hdfs常用命令,WordCount程序详解,Shuffle过程详解,WordCount程序结果分析,Hadoop,HDFS,MapReduce,NameNode和DataNode,yarn,ResourceManager,NodeManager的概念等让大家对Hadoop和...

    javashuffle源码-MapReduce-Demo:Hadoop,MapReduce编程学习练手实例

    shuffle源码 前言 之前没怎么在GitHub MD中写过目录索引,下文目录中有的锚点不能跳转(尤其是IE内核的浏览器),我也没办法。这里我将下文放到了我CSDN的博客上,可以跳转目录,看起来也方便美观一点—— 这里放一...

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...

    FocusBigData:【大数据成神之路学习路径+面经+简历】

    FocusBigData :elephant:Hadoop分布存储框架 Hadoop篇 HDFS篇 HDFS客户端操作 --- 开发环境准备 HDFS客户端操作 --- 文件操作 ...MapReduce之Shuffle机制 MapReduce之MapJoin和ReduceJoin MapReduce之

    预测算法调研报告.doc

    第二、Hadoop在进行MapReduce计算的过程中,会将map的计算结果写入到本地磁盘或 Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)上,然后再通过shuffle过程将计算结果发送到reduce上进行处理,反复的...

    基本排序算法及其在MapReduce的应用

    该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上...所以快排、归并以及堆排是必须要掌握的排序算法,这都在MapReduce内部使用的排序算法,学习Hadoop的必须过程。 所谓算法稳定性即能够保证排序前两个相

    第一个Storm应用

    我们现在创建这么一个应用,统计文本文件中的单词个数,详细学习过Hadoop的朋友都应该写过。 那么我们需要具体创建这样一个Topology,用一个spout负责读取文本文件,用第一个bolt来解析成单词,用第二个bolt来对...

    第二章 Spark RDD以及编程接口

    注:学习《Spark大数据处理技术》笔记 1. Spark程序”Hello World” 1. 概述 计算存储在HDFS的Log文件中出现字符串”Hello World”的行数 2. 代码实现 3. 行解 第一行 对于所有的Spark程序而言,要进行任何操作,...

Global site tag (gtag.js) - Google Analytics