etc/bin/hadoop是同步调用吗?

s6fujrry  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(258)

调用/etc/bin/hadoop jar myjar.jar myclass args时
map reduce作业是否同步运行?换句话说,调用是否仅在所有节点上的所有map reduce作业完成后返回?
这是特别相关的情况下,坚果的工作是派遣。我想知道在命令返回时站点爬网是否已经完成。

f4t66c6m

f4t66c6m1#

不, Map Reduce 工作不能同时完成。第一个mapper类完成其工作,然后将mapper的输出提交到reducer阶段(中间) shuffling,sorting,combing ). 在Map器阶段,节点将其结果共享给namenode,如果namenode找到完整的输出,则它将通知Map器停止Map器阶段。然后开始减速阶段。

tzxcd3kk

tzxcd3kk2#

是的,这是一个同步调用,因为对于最终结果,您必须等到所有节点上的作业完成。事实上,我想说,这也取决于你如何写的工作,即你可以添加一些代码行打印你的当前状态的爬网终端,你会得到你的爬网实时状态更新。但要查看爬网的最终输出,必须等到作业完成。

相关问题