可伸缩性—如何高效修复大型kafka/kafka流应用程序中的数据

klr1opcd 于 2021-06-06 发布在 Kafka

关注(0)|答案(1)|浏览(427)

项目：
我正在开发的应用程序处理金融交易（订单和交易）数据，每天数百万。
数据被输入Kafka主题。
kafka streams微服务聚合信息（例如，每只股票的交易次数），这些数据被其他软件使用。此外，数据将持久保存在mongodb中。
问题：
发送到主题的数据有时需要修改，例如由于错误或配置错误导致的价格变化。
由于kafka是append only，所以我在mongodb中进行了修正，修正后的数据通过管道传输到一个新的kafka主题中，从而完成下游聚合的重新计算。
但是，这个过程会引起可伸缩性问题，因为随着时间的推移，需要重放的数据越来越多。
问题
我正在考虑将大型Kafka主题拆分为日常主题，以便在大多数数据修复情况下只需要回放一天的主题。
我的问题是，这是否是一个合理的方式来解决这个问题，或者是否有更好的解决办法。

apache-kafka apache-kafka-streams scalability

来源：https://stackoverflow.com/questions/53181678/how-to-efficiently-repair-data-in-large-kafka-kafka-streams-applications