当事件通过apache flink降落到s3源bucket中时,是否可以读取事件并处理它们,然后将其沉回到其他s3 bucket中?是否有专门的连接器,或者我必须使用apache flink中提到的可用读/保存示例?在这种情况下,检查点是如何发生的,flink是自动跟踪从s3源代码bucket读取的内容,还是需要构建自定义代码。flink也保证在s3源代码情况下只处理一次。
当事件通过apache flink降落到s3源bucket中时,是否可以读取事件并处理它们,然后将其沉回到其他s3 bucket中?是否有专门的连接器,或者我必须使用apache flink中提到的可用读/保存示例?在这种情况下,检查点是如何发生的,flink是自动跟踪从s3源代码bucket读取的内容,还是需要构建自定义代码。flink也保证在s3源代码情况下只处理一次。
1条答案
按热度按时间n3schb8v1#
在flink1.11中,文件系统sql连接器得到了很大的改进;对于这个用例来说,这将是一个很好的解决方案。
使用datastreamapi
FileProcessingMode.PROCESS_CONTINUOUSLY
与readFile
监视一个bucket并在新文件以原子方式移动到其中时接收它们。flink跟踪bucket的最后一个修改的时间戳,并接收自该时间戳以来修改的所有子级——这样做只需一次(这些文件的读取偏移量包含在检查点中)。