当我们遇到许多阶段失败时,通常会重新启动集群以避免阶段失败。我想知道1) 当我们重新启动它时到底发生了什么。2) 是否正在从集群中删除元数据/缓存?3) 有没有其他方法可以在不重启集群的情况下满足上述要求。
vs3odd8k1#
当您重新启动集群时,spark应用程序会重新初始化,就像从头开始擦除集群中的所有缓存一样。当您重新启动、spark初始化和引导所有库加载metastore和dbfs时,您将在集群驱动程序日志中看到这一点。立即快速重启(间隔不超过5分钟)不能做的一件事是不取消承载应用程序的底层vm示例的配置。如果您认为虚拟机处于不良状态,请终止-留出5分钟的间隔,然后重新开始这不适用于池上的集群,因为池即使在终止之后也支持vm。
1条答案
按热度按时间vs3odd8k1#
当您重新启动集群时,spark应用程序会重新初始化,就像从头开始擦除集群中的所有缓存一样。
当您重新启动、spark初始化和引导所有库加载metastore和dbfs时,您将在集群驱动程序日志中看到这一点。
立即快速重启(间隔不超过5分钟)不能做的一件事是不取消承载应用程序的底层vm示例的配置。如果您认为虚拟机处于不良状态,请终止-留出5分钟的间隔,然后重新开始这不适用于池上的集群,因为池即使在终止之后也支持vm。