taskmanager杀死/丢失时运行flink作业

lqfhib0f  于 2021-06-25  发布在  Flink
关注(0)|答案(0)|浏览(335)

我想要实现的是flink集群,当出现资源中断时,它将自动重新分配以运行作业,例如:kubernetes pod scale down,丢失现有taskmanager。
我测试了一组:
一个jobmanager,两个taskmanager(每个任务槽2个),
重新启动策略fixeddelayrestart(2000年2月),
检查点和状态配置为hdfs。
作业以4并行开始,它利用了所有可用的插槽。
这个集群稍后将运行在kubernetes之上,并通过自动缩放进行管理。
场景:当我杀死一个taskmanager时,flink集群将运行1个jm和1个tm,然后作业将重新启动,并最终失败,因为它将以以前的状态(4个并行)启动,并且来自flink集群的资源不可用。
有没有办法通过动态重新分配可用资源而不是使用以前的状态来重新启动作业?
如果有人能给这个遮光,我会很感激的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题