Spark进程运行无磁盘错误异常

qojgxg4l 于 2023-11-22 发布在 Apache

关注(0)|答案(1)|浏览(201)

我在Google Cloud中有一个DataProc集群。
我在其中执行一个Spark应用程序。这个应用程序就像一个Web服务器。它监听请求;然后触发Spark作业（又名：Spark操作）并返回结果。集群只专用于我的Spark应用程序;没有其他作业在其中运行。集群中的每个节点都有375 GB的硬盘连接到它。
当spark应用程序完成请求时，它派生的spark作业（操作）会创建大量的shuffle数据。
我的预期是：由于spark应用程序一直在运行，它会在某个时候耗尽shuffle数据的磁盘空间（因为它一直在获取请求）。我甚至在Spark UI中监视到聚合的shuffle数据正在增长，甚至已经超过375 GB;但作业正在满足新的请求，而不会抛出任何磁盘错误异常。
在应用程序中，我也启用了外部 Shuffle 服务。
因此，很明显，应用程序正在删除shuffle数据;但不确定哪个spark进程正在删除shuffle数据。
是执行者进程本身还是运行在每个节点上的外部shuffle服务进程？还是驱动程序进程？
有人能把光。
谢谢

apache-spark

来源：https://stackoverflow.com/questions/77418134/spark-process-running-without-disk-error-exception

1条答案

按热度按时间

4bbkushb1#

Spark有一个用于应用程序范围清理的组件-ContextCleaner。它运行在驱动程序上，并在ShuffleDependency示例没有引用时删除shuffle文件。

/**
 * An asynchronous cleaner for RDD, shuffle, and broadcast state.
 *
 * This maintains a weak reference for each RDD, ShuffleDependency, and Broadcast of interest,
 * to be processed when the associated object goes out of scope of the application. Actual
 * cleanup is performed in a separate daemon thread.
 */
private[spark] class ContextCleaner(
...

字符串
所以，这个过程有点依赖于JVM垃圾收集的行为。相关引用来自[SPARK-5750][SPARK-3441][SPARK-5836][CORE]下面是解释shuffle的新增文档。
我知道有一些关于 Shuffle 文件填充磁盘的担忧，但截至目前，可能会发生，因为以下一个或多个原因。

GC在很长一段时间内不会启动（非常高的驱动程序内存）。解决方案通常是定期调用GC。
1.没有超出范围的内容，因此没有任何内容是GCed的。
1.有一些问题报告与 Shuffle 文件没有被清理在Mesos
第三个是一个错误，我们将修复它。前两个应该在文档中澄清。
为了减少资源释放的延迟，我将Dataset和RDD变量设置为null，如果数据在不再需要时被缓存，则调用Dataset.unpersist()和RDD.unpersist()函数。有关详细信息，请参阅Oracle博客中的When are Java objects eligible for garbage collection?页和Spark的RDD编程指南中的删除数据一节。
清除器默认启用。请参阅Spark Configuration页了解更多信息。

赞(0）回复(0）举报 2023-11-22

我来回答

Spark进程运行无磁盘错误异常

1条答案

相关问题

热门标签

最新问答