我目前正在使用汇合hdfs接收器连接器(v4.0.0)来取代camus。我们处理的是敏感数据,因此在切换到连接器时,我们需要保持偏移量的一致性。
割接计划:
我们创建了hdfs sink connector并订阅了一个主题,该主题将写入一个临时hdfs文件。这将创建一个名为connect的使用者组-
已使用删除请求停止连接器。
使用/usr/bin/kafka使用者组脚本,我可以将连接器使用者组kafka主题分区的当前偏移量设置为所需的值(即gamus写入的最后偏移量+1)。
当我重新启动hdfs接收器连接器时,它会继续读取上次提交的连接器偏移量,并忽略设置值。我希望hdfs文件名如下:hdfs\u kafka\u topic\u name+kafkapartition+camus\u offset+camus\u offset\u plus\u flush\u size.format
我对合流连接器行为的期望是否正确?
1条答案
按热度按时间3npbholx1#
重新启动此连接器时,它将使用嵌入文件中的偏移量,该偏移量是上次写入hdfs的文件的偏移量。它不会使用消费群体补偿。它这样做是因为它使用一个写前日志来实现一次到hdfs的准确传递。