kafkas3接收器连接器-如何将分区标记为完整

lskq00tm  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(386)

我正在使用kafka接收器连接器将数据从kafka写入s3。输出数据被划分为每小时一次的存储桶- year=yyyy/month=MM/day=dd/hour=hh . 此数据由批处理作业下游使用。因此,在开始下游作业之前,我需要确保在对给定分区的处理启动后,不会有额外的数据到达该分区。
最好的设计方法是什么?如何将分区标记为完整分区?i、 e.一旦标记为完成,将不会向其写入任何附加数据。
编辑:我使用recordfield作为timestamp.extractor。我的kafka消息保证在分区内按分区字段排序

axkjgtzd

axkjgtzd1#

取决于您在接收器配置中使用的时间戳提取器。
您必须保证no记录的时间戳可以早于您使用它的时间。
好吧,唯一可行的方法就是使用挂钟时间戳提取器。否则,您将使用一个kafka记录时间戳,或者每个消息中的某个时间戳。在过去的某个事件的生产者端,这两者都可以被覆盖

相关问题