我们的flink集群有时会重新启动,所有作业都会重新启动。有时,某些作业无法重新启动,面板上的失败计数也会增加。然而,它不能让我们知道哪些工作失败了。当作业总数增加时,查找已停止的作业变得更加困难。有人知道我怎样才能得到失败工作的名字吗?
kh212irz1#
您可以为此编写一个简单的脚本,该脚本将为您提供失败的作业名称列表。我正在使用此命令获取失败作业的列表。
$yarn application -list -appStates KILLED
在集群重新启动时设置警报,并在重新启动后检查尚未重新启动的作业,也可以为这些作业设置警报。
1条答案
按热度按时间kh212irz1#
您可以为此编写一个简单的脚本,该脚本将为您提供失败的作业名称列表。
我正在使用此命令获取失败作业的列表。
在集群重新启动时设置警报,并在重新启动后检查尚未重新启动的作业,也可以为这些作业设置警报。