触发 Flink 检查点,延迟5- 20分钟

ryoqjall  于 2023-06-27  发布在  Apache
关注(0)|答案(1)|浏览(175)

以下是我的Flink检查点配置,我们有s3作为后端。理想情况下,检查点应该每隔70秒发生一次,如果我从S3后端移动到RockDBBackend,检查点/Flink配置没有其他变化,就会发生这种情况。S3后端的检查点间隔延迟为5- 20分钟。我在日志中没有看到任何S3节流或任何其他S3异常。CPU/内存指标看起来良好。我们的状态大小为30- 70 GB

checkpoint-interval : 70000
min-pause-between-checkpoint : 15000
max-concurrent-checkpoint : 1
checkpoint-type: aligned
Aligned-checkpoint-timeout : 30sec
TolerableCheckpointFailureNumber :2
Checkpoint-mode : atleast-once
incremental-checkpointing: true
4uqofj5v

4uqofj5v1#

将以下配置从默认值1更新为更高的值(如1 K),使检查点按时触发(70秒)。我认为Flink删除/清理旧检查点作业导致触发新检查点的延迟。我在S3 Cloudtrail日志中发现的另一件事是删除S3对象API的节流异常。我计划创建单独的aws lambda来清理旧的检查点,而不是让Flink这样做,因为它似乎会造成性能延迟和可能的反压力

state.checkpoints.num-retained: 1000

相关问题