假设我有2个Kafka主题,每个主题都有一个分区。
我想使用一种技术,比如i.e. Kafka Streams、Apache Flink或Spring Kafka,通过基于Kafka时间戳年表连接这两个主题,将数据写入第三个主题。然而,我担心的问题,可能会出现在第一次运行这样一个程序。例如,如果主题A(3周前)中有2000万条消息,而主题B(1天前)中只有1000条消息。
有什么建议吗?
假设我有2个Kafka主题,每个主题都有一个分区。
我想使用一种技术,比如i.e. Kafka Streams、Apache Flink或Spring Kafka,通过基于Kafka时间戳年表连接这两个主题,将数据写入第三个主题。然而,我担心的问题,可能会出现在第一次运行这样一个程序。例如,如果主题A(3周前)中有2000万条消息,而主题B(1天前)中只有1000条消息。
有什么建议吗?
1条答案
按热度按时间az31mfrm1#
使用Flink,您可以使用水印对齐来避免对具有更多数据的源进行大量缓冲。
Kafka Streams将合并两个流,从具有较低时间戳的流中进行阅读-但在尽力而为的基础上。