在hadoop中，在shuffle阶段，reducer在哪里复制它的输入

0kjbasz6 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(386)

在hadoop中，Map器的输出在shuffle阶段被复制到reducer。reducer必须从不同的Map器复制相应的分区。在开始实际的reduce过程之前，reducer在哪里存储其输入？

来源：https://stackoverflow.com/questions/35286549/in-hadoop-where-does-the-reducer-copy-its-input-during-the-shuffle-phase

1条答案

按热度按时间

7gcisfzg1#

如果Map输出足够小（缓冲区的大小由mapred.job.shuffle.input.buffer.percent控制，它指定了用于此目的的堆的比例），则将它们复制到reduce任务jvm的内存中；否则，它们将被复制到磁盘。当内存缓冲区达到阈值大小（由mapred.job.shuffle.merge.percent控制）或达到阈值Map输出数（mapred.inmem.merge.threshold）时，它将被合并并溢出到磁盘。如果指定了组合器，则在合并期间将运行该组合器以减少写入磁盘的数据量。
参考hadoop的权威指南

赞(0）回复(0）举报 2021-05-30

我来回答

在hadoop中，在shuffle阶段，reducer在哪里复制它的输入

1条答案

相关问题

热门标签

最新问答