以下是我的Flink检查点配置,我们有s3作为后端。理想情况下,检查点应该每隔70秒发生一次,如果我从S3后端移动到RockDBBackend,检查点/Flink配置没有其他变化,就会发生这种情况。S3后端的检查点间隔延迟为5- 20分钟。我在日志中没有看到任何S3节流或任何其他S3异常。CPU/内存指标看起来良好。我们的状态大小为30- 70 GB
checkpoint-interval : 70000
min-pause-between-checkpoint : 15000
max-concurrent-checkpoint : 1
checkpoint-type: aligned
Aligned-checkpoint-timeout : 30sec
TolerableCheckpointFailureNumber :2
Checkpoint-mode : atleast-once
incremental-checkpointing: true
1条答案
按热度按时间4uqofj5v1#
将以下配置从默认值1更新为更高的值(如1 K),使检查点按时触发(70秒)。我认为Flink删除/清理旧检查点作业导致触发新检查点的延迟。我在S3 Cloudtrail日志中发现的另一件事是删除S3对象API的节流异常。我计划创建单独的aws lambda来清理旧的检查点,而不是让Flink这样做,因为它似乎会造成性能延迟和可能的反压力