我在一个独立的flink集群上运行作业,其中有一个作业管理器,在docker容器中运行。每当集群崩溃并重新启动时,我都必须再次手动提交作业以启动它们。有没有办法让flink在集群再次运行时自动恢复作业?
dzjeubhm1#
如果作业因引发异常而崩溃,只要(1)启用了检查点(由于需要某些配置,默认情况下禁用了检查点),并且(2)没有设置阻止重新启动的重新启动策略(默认的重新启动策略很好),作业管理器就会自动重新启动它。如果独立集群中的任务管理器完全失败,则需要启动另一个任务管理器。要配置作业管理器故障切换,请参阅有关独立群集的高可用性的文档。
1条答案
按热度按时间dzjeubhm1#
如果作业因引发异常而崩溃,只要(1)启用了检查点(由于需要某些配置,默认情况下禁用了检查点),并且(2)没有设置阻止重新启动的重新启动策略(默认的重新启动策略很好),作业管理器就会自动重新启动它。如果独立集群中的任务管理器完全失败,则需要启动另一个任务管理器。
要配置作业管理器故障切换,请参阅有关独立群集的高可用性的文档。