了解阶段中的Spark端子输出

k7fdbhmy  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(447)

这个问题在这里已经有答案了

进度条上的数字在spark shell中是什么意思(2个答案)
两年前关门了。
我是新的Spark,并试图了解其阶段的日志输出在我的终端。我正在本地机器上处理一个非常大的数据集,在操作过程中,我将看到如下内容:

[Stage: 4 ==>           (10 + 4) / 200]

我知道阶段是rdd的所有操作,但是最后的数字呢?它们代表任务吗?

(10 + 4) / 200]
``` `10` 完成的任务数? `4` 正在运行的并发任务数(即我的机器上的内核数?) `200` 此阶段的任务总数?
k0pti3hp

k0pti3hp1#

它被称为控制台进度条。对于上述阶段,数字的含义是,

[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

希望这有帮助,干杯。

相关问题