我不确定这是否是更新版本的hadoop已经修复的问题,但是我现在被限制运行hadoop0.20(遗留代码)。问题是:当我启动hadoop作业时,需要首先运行“作业设置”任务。在我看来,hadoop随机选择这个任务,要么是map任务,要么是reduce任务。我们配置的map任务的容量比reduce任务的容量大,所以每当我运气不好并且有reduce启动任务时,我的作业甚至要花很长时间才能开始运行。有什么办法克服这个问题吗?
zynd9foi1#
hadoop作业首先完成所有Map器任务。一旦所有的mapper任务都完成了,它就会通过网络进行洗牌和排序,只有在这之后,reducer任务才会开始处理。所以我想这次耽搁可能还有别的原因。
1条答案
按热度按时间zynd9foi1#
hadoop作业首先完成所有Map器任务。一旦所有的mapper任务都完成了,它就会通过网络进行洗牌和排序,只有在这之后,reducer任务才会开始处理。所以我想这次耽搁可能还有别的原因。