apacheflink,其中s3作为源,s3作为接收器

g6ll5ycj  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(762)

当事件通过apache flink降落到s3源bucket中时,是否可以读取事件并处理它们,然后将其沉回到其他s3 bucket中?是否有专门的连接器,或者我必须使用apache flink中提到的可用读/保存示例?在这种情况下,检查点是如何发生的,flink是自动跟踪从s3源代码bucket读取的内容,还是需要构建自定义代码。flink也保证在s3源代码情况下只处理一次。

n3schb8v

n3schb8v1#

在flink1.11中,文件系统sql连接器得到了很大的改进;对于这个用例来说,这将是一个很好的解决方案。
使用datastreamapi FileProcessingMode.PROCESS_CONTINUOUSLYreadFile 监视一个bucket并在新文件以原子方式移动到其中时接收它们。flink跟踪bucket的最后一个修改的时间戳,并接收自该时间戳以来修改的所有子级——这样做只需一次(这些文件的读取偏移量包含在检查点中)。

相关问题