调用/etc/bin/hadoop jar myjar.jar myclass args时map reduce作业是否同步运行?换句话说,调用是否仅在所有节点上的所有map reduce作业完成后返回?这是特别相关的情况下,坚果的工作是派遣。我想知道在命令返回时站点爬网是否已经完成。
f4t66c6m1#
不, Map Reduce 工作不能同时完成。第一个mapper类完成其工作,然后将mapper的输出提交到reducer阶段(中间) shuffling,sorting,combing ). 在Map器阶段,节点将其结果共享给namenode,如果namenode找到完整的输出,则它将通知Map器停止Map器阶段。然后开始减速阶段。
Map Reduce
shuffling,sorting,combing
tzxcd3kk2#
是的,这是一个同步调用,因为对于最终结果,您必须等到所有节点上的作业完成。事实上,我想说,这也取决于你如何写的工作,即你可以添加一些代码行打印你的当前状态的爬网终端,你会得到你的爬网实时状态更新。但要查看爬网的最终输出,必须等到作业完成。
2条答案
按热度按时间f4t66c6m1#
不,
Map Reduce
工作不能同时完成。第一个mapper类完成其工作,然后将mapper的输出提交到reducer阶段(中间)shuffling,sorting,combing
). 在Map器阶段,节点将其结果共享给namenode,如果namenode找到完整的输出,则它将通知Map器停止Map器阶段。然后开始减速阶段。tzxcd3kk2#
是的,这是一个同步调用,因为对于最终结果,您必须等到所有节点上的作业完成。事实上,我想说,这也取决于你如何写的工作,即你可以添加一些代码行打印你的当前状态的爬网终端,你会得到你的爬网实时状态更新。但要查看爬网的最终输出,必须等到作业完成。