kafka连接基于大小的滚动更新和基于时间的滚动更新

7z5jn7bk  于 2021-06-05  发布在  Kafka
关注(0)|答案(1)|浏览(312)

我使用kafka connect将文件接收到hdfs,kafka connect有topicpartitionwriter,它可以按时滚动到所有分区,并且没有基于大小的滚动。
我想对每个分区进行基于大小和基于时间的滚动更新,因为通过每个分区传递的数据不一致,文件大小也相似。
2个问题:1。如果我试图通过改变Kafka连接中的大量代码来实现这一点,那会失去最初的设计吗?2有没有为我的用例做些什么?

dced5bon

dced5bon1#

topicpartitionwriter,它会按时滚动到所有分区,并且没有基于大小的滚动 flush.size 仍然(并且一直)使用。
如果我试图通过改变Kafka连接中的大量代码来实现这一点,那么就会失去原有的设计
不?只要数据从kafka传输到某个外部系统,这就是connectsinkapi提供的唯一契约
有没有为我的用例做些什么?
扫描github回购的问题和pr

相关问题