flink流媒体窗口容量边界

fhity93d  于 2021-06-24  发布在  Flink
关注(0)|答案(1)|浏览(380)

我是flink流媒体的初学者。我正在寻找处理事件在大约5000传入每秒,并需要查找过去3天的事件窗口。我的问题是:flink在哪里存储窗口数据?我会受到内存大小的限制吗?以每秒5000字节和每个事件2000字节的速度,我认为三天的时间窗口需要非常大的存储空间。

bhmjp9jg

bhmjp9jg1#

关于存储临时的“3天窗口数据”(通常称为“窗口状态”),flink提供了大量的选项。默认情况下,它存储在内存中(受jobmanager内存的限制),但是正如您所提到的,它可以根据窗口的大小快速增长。因此,flink支持将状态的副本(快照)保存到磁盘,这个过程称为检查点。为此,您应该配置一个状态后端,例如rocksdb。
更多信息:
[1] https://ci.apache.org/projects/flink/flink-docs-master/dev/stream/state/
[2] https://ci.apache.org/projects/flink/flink-docs-master/dev/stream/state/checkpointing.html
[3] https://ci.apache.org/projects/flink/flink-docs-master/ops/state/state_backends.html#the-内存状态后端

相关问题