hadoop shuffle 学习

Tristan_S

浏览: 361547 次
性别:
来自: 上海

最近访客更多访客>>

devcang

loginboot

ty518459

william_dev

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据

hadoop的核心就是shuffle，最好的学习方式就是看源代码
但是编译hadoop的源代码成本太大，而且由于maven中的有些资源被天草屏蔽的关系，不推荐。
建立一个项目，引用最简单的wordcount，将jar包attach到源代码上，再用远程调试就ok了。

打开mapreduce的调试端口
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx200m -Xdebug -Xrunjdwp:transport=dt_socket,address=50051,server=y,suspend=y</value>
</property>

修改spill的参数默认100
<name>mapreduce.task.io.sort.mb</name>
<value>1</value>

mapreduce的info日志
/usr/hadoop/hadoop-2.2.0/logs/userlogs

map端的shuffle

collect阶段
mapreduce.task.io.sort.mb 默认100(MB)
每次Mapper中context.write(word, one); 都会调用correct方法，将数据放到buffer中，
当buffer 超过了0.8*100MB=80MB 时会触发sortAndSpill方法，将buffer中的数据spill到磁盘，文件大小为40MB
如果设置了combiner的话，spill时会调用reduce的合并代码减少临时文件的输出14MB(可能)
可以用一个2MB的文件来做测试，将mb调成1

merge阶段
mapreduce.task.io.sort.factor 默认 10
从spill的磁盘文件中进行多路归并排序，默认是10个一组
如果设置了combiner的话，也会进行一次combine

MapTask
1573行是spill输出的文件
1820行是merge的输出文件
可以用strings 命令看看输出的内容

注意
如果没有combiner的话， shuffle-Map端的输出还是
a 1
a 1
b 1
的形式，不是
a 2
b 1

如果只有一个文件并且设置了combiner的话，就不需要reduce端了。

reduce的shuffle端
就是各种merge
内存merge，磁盘merge， final merge

参考
http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html
http://blog.csdn.net/mrtitan/article/details/8711366
http://langyu.iteye.com/blog/1171091
http://zhangjie.me/eclipse-debug-hadoop/

分享到：

zookeeper 学习 | hadoop 学习

2014-06-04 16:37
浏览 325
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论