我使用kafka connect将文件接收到hdfs,kafka connect有topicpartitionwriter,它可以按时滚动到所有分区,并且没有基于大小的滚动。
我想对每个分区进行基于大小和基于时间的滚动更新,因为通过每个分区传递的数据不一致,文件大小也相似。
2个问题:1。如果我试图通过改变Kafka连接中的大量代码来实现这一点,那会失去最初的设计吗?2有没有为我的用例做些什么?
我使用kafka connect将文件接收到hdfs,kafka connect有topicpartitionwriter,它可以按时滚动到所有分区,并且没有基于大小的滚动。
我想对每个分区进行基于大小和基于时间的滚动更新,因为通过每个分区传递的数据不一致,文件大小也相似。
2个问题:1。如果我试图通过改变Kafka连接中的大量代码来实现这一点,那会失去最初的设计吗?2有没有为我的用例做些什么?
1条答案
按热度按时间dced5bon1#
topicpartitionwriter,它会按时滚动到所有分区,并且没有基于大小的滚动
flush.size
仍然(并且一直)使用。如果我试图通过改变Kafka连接中的大量代码来实现这一点,那么就会失去原有的设计
不?只要数据从kafka传输到某个外部系统,这就是connectsinkapi提供的唯一契约
有没有为我的用例做些什么?
扫描github回购的问题和pr