触发 Flink 检查点，延迟5- 20分钟

ryoqjall 于 2023-06-27 发布在 Apache

关注(0)|答案(1)|浏览(203)

以下是我的Flink检查点配置，我们有s3作为后端。理想情况下，检查点应该每隔70秒发生一次，如果我从S3后端移动到RockDBBackend，检查点/Flink配置没有其他变化，就会发生这种情况。S3后端的检查点间隔延迟为5- 20分钟。我在日志中没有看到任何S3节流或任何其他S3异常。CPU/内存指标看起来良好。我们的状态大小为30- 70 GB

checkpoint-interval : 70000
min-pause-between-checkpoint : 15000
max-concurrent-checkpoint : 1
checkpoint-type: aligned
Aligned-checkpoint-timeout : 30sec
TolerableCheckpointFailureNumber :2
Checkpoint-mode : atleast-once
incremental-checkpointing: true

apache-flink

来源：https://stackoverflow.com/questions/76503923/flink-checkpoint-triggered-with-delay-of-5-20mins

1条答案

按热度按时间

4uqofj5v1#

将以下配置从默认值1更新为更高的值（如1 K），使检查点按时触发（70秒）。我认为Flink删除/清理旧检查点作业导致触发新检查点的延迟。我在S3 Cloudtrail日志中发现的另一件事是删除S3对象API的节流异常。我计划创建单独的aws lambda来清理旧的检查点，而不是让Flink这样做，因为它似乎会造成性能延迟和可能的反压力

state.checkpoints.num-retained: 1000

赞(0）回复(0）举报 2023-06-27

我来回答

触发 Flink 检查点，延迟5- 20分钟

1条答案

相关问题

热门标签

最新问答