合流kafka connect hdfs接收器连接器延迟

qzlgjiam  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(459)

我有一个Kafka主题,有200万条消息,我的刷新大小是100000,默认分区为分布式模式,有4个worker,我可以看到数据在几秒钟内(10到15秒)立即写入hdfs。
我看到创建了一个+tmp目录和文件夹,每次触发新连接器时都会创建主题。
kafka connect的行为是每次都这么快地写入数据,还是已经将数据存储在hdfs中并根据连接器属性将其移动到主题目录?
如果我想计算这个的延迟,我该怎么计算呢?
如果我停止并删除/topics和/temp中的主题目录,然后重新触发同一主题,它会再次从kafka中提取数据还是从hdfs中的某个地方获取数据作为备份?
如果我的理解不正确,请告诉我。

sg24os4d

sg24os4d1#

kafka connect的行为是每次都这么快地写入数据,还是已经将数据存储在hdfs中并根据连接器属性将其移动到主题目录?
两者都有。它是一个kafka消费者在内存中缓冲,并写入hdfs上的写前日志。这个 +tmp 文件夹保存临时文件,这些文件被“压缩”到更大的hdfs文件中,并与kafka使用者偏移提交一起移动到最终位置。
计算此的延迟
您可以使用controlcenter,并在代理和连接示例上启用监视拦截器。
否则,您可以在cli中描述连接器的使用者组,以查看使用者延迟。
如果我停止并删除/topics和/temp中的主题目录,并重新触发同一主题,它会再次从kafka中提取数据吗
在hdfs connect的某个版本之前,我相信它是从hdfs中存储的偏移量恢复的。为了在任何其他kafka使用者中从头开始重新启动,必须删除或重置使用者组。
如果删除了主题目录,hdfs中就没有其他地方连接引用,因此就没有备份

相关问题