如何从保存点恢复Flink作业(Kubernetes)?

8yoxcaq7  于 12个月前  发布在  Apache
关注(0)|答案(1)|浏览(124)

我正在Kubernetes集群上运行Flink 1.14应用程序(jar嵌入在docker镜像中)。配置如parallelismnumberOfTaskSlots等。在ConfigMap中指定为flink-conf.yaml。检查点目录(hdfs)硬编码在jar(setCheckpointStorage("hdfs://..."))中。未在任何位置指定保存点位置。
一切正常,检查点被创建,在错误的情况下,应用程序自动从这些检查点恢复。

问题-如何手动触发保存点操作,然后从该保存点手动重新加载应用?

请考虑到,我在Flink应用程序模式下的Kubernetes集群上(每个Flink应用程序都是独立的k8s部署),我知道-s hdfs://...参数,但不确定如何在我的情况下应用该参数。

rwqw0loc

rwqw0loc1#

官方文档:
用户可以通过在作业规范中为变量savepointTriggerNonce定义一个新的(不同/随机)值来手动触发保存点:
job:. savepointTriggerNonce:123
因此,我会尝试在Flink作业上运行kubectl edit job,将savepointTriggerNonce值更新为新的随机值,然后重新启动作业。它应该从最后一个保存点开始。

相关问题