q36988 发表于 2016-12-10 06:02:22

Hadoop深入学习:ReduceTask详解

本节我们来着重学习ReduceTask的内部操作流程和实现。
      我们先看一下ReduceTask操作流程:

      从流程图中我们可以看出,ReduceTask分5个阶段:
      Copy阶段
      Merge阶段
      Sort阶段
      Reduce阶段
      Write阶段
      其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
      为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
      当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
      经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。
页: [1]
查看完整版本: Hadoop深入学习:ReduceTask详解