etc/bin/hadoop是同步调用吗？

s6fujrry 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(274)

调用/etc/bin/hadoop jar myjar.jar myclass args时
map reduce作业是否同步运行？换句话说，调用是否仅在所有节点上的所有map reduce作业完成后返回？
这是特别相关的情况下，坚果的工作是派遣。我想知道在命令返回时站点爬网是否已经完成。

hadoop mapreduce Asynchronous nutch

来源：https://stackoverflow.com/questions/27596653/is-etc-bin-hadoop-a-synchronous-call

2条答案

按热度按时间

f4t66c6m1#

不， Map Reduce 工作不能同时完成。第一个mapper类完成其工作，然后将mapper的输出提交到reducer阶段（中间） shuffling,sorting,combing ). 在Map器阶段，节点将其结果共享给namenode，如果namenode找到完整的输出，则它将通知Map器停止Map器阶段。然后开始减速阶段。

赞(0）回复(0）举报 2021-05-30

tzxcd3kk2#

是的，这是一个同步调用，因为对于最终结果，您必须等到所有节点上的作业完成。事实上，我想说，这也取决于你如何写的工作，即你可以添加一些代码行打印你的当前状态的爬网终端，你会得到你的爬网实时状态更新。但要查看爬网的最终输出，必须等到作业完成。

赞(0）回复(0）举报 2021-05-30