`
flyingdutchman
  • 浏览: 353284 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop深入学习:ReduceTask详解

阅读更多
        本节我们来着重学习ReduceTask的内部操作流程和实现。
        我们先看一下ReduceTask操作流程:

        从流程图中我们可以看出,ReduceTask分5个阶段:
        Copy阶段
        Merge阶段
        Sort阶段
        Reduce阶段
        Write阶段
        其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
        为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
        当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
        经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。
  • 大小: 43 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics