flink:rocksdb后端保存点的延迟加载

yruzcnhs  于 2021-06-26  发布在  Flink
关注(0)|答案(1)|浏览(344)

我们希望使用apache flink和rocksdb后端(hdfs)进行有状态流处理。但是,我们的应用程序状态(keyed state)将是TB级的。
据我所知,当我们从保存点恢复作业时,所有操作员状态数据都将从hdfs上的保存点位置传送到每个任务管理器。如果状态为TB级,那么如果需要传输所有这些状态,则每次部署都会导致很长时间的停机。
我想了解的是,在rocksdb的情况下,是否可以配置延迟加载,即在需要时从hdfs检索键控状态,然后缓存在本地磁盘上。
谢谢您!

1wnzp6jl

1wnzp6jl1#

如果您正在使用rocksdb,并将flink集群配置为使用本地恢复(您可以在此处阅读),那么rocksdb文件的副本将保留在每个任务管理器的本地磁盘上,并且恢复几乎是立即的(除了必须启动的任何新节点)。
但是,这并不真正适用于保存点,因为这种机制需要增量快照才能真正正常工作。
您可能需要阅读文档的整个页面,这是关于如何配置和调优使用大量状态的应用程序的。

相关问题