为什么我们不能在hadoop中计算作业执行时间？

nkkqxpd9 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(426)

我的问题和掉队者问题有关。在sort中，它是一种算法，我们可以知道它的复杂性，并计算在一组恒定数据上执行时的运行时间。
为什么我们不能在hadoop中获得作业执行时间？
如果能够获得作业执行时间或任务执行时间，就可以快速地知道散乱任务，而不需要算法来知道哪个任务是散乱任务。

2条答案

作业执行时间或任务执行时间将在作业跟踪器web ui中可用。希望这是您正在寻找的。web ui将在作业跟踪器的50030端口中可用。如果是基于Yarn的设置，则url将为http://：8088

在运行作业之前，不应估计作业将花费多少时间。运行mapreduce作业后，可以估计所用的时间。mapreduce始终取决于您的集群容量—ram大小、cpu内核和网络带宽—以及您为任务设置的缩减器数量。
您只能根据ram大小除以输入分割来进行假设。