Pyspark：多重主题的Kafka消费者

6ovsh4lw 于 2023-01-26 发布在 Apache

关注(0)|答案(1)|浏览(130)

我有一个主题列表（现在是10个），其大小在将来可能会增加。我知道我们可以从每个主题中产生多个线程来使用，但在我的情况下，如果主题数量增加，则从主题中使用的线程数量也会增加，这是我不希望的，因为主题不会太频繁地获取数据，因此线程将处于空闲状态。
有没有办法让一个消费者消费所有的主题？如果有，那么我们如何实现它？还有Kafka将如何维护偏移量？如何用python编写？

apache-spark

来源：https://stackoverflow.com/questions/75192223/pyspark-kafka-consumer-for-multiple-topics

1条答案

按热度按时间

cuxqih211#

编程语言无关紧要。
在提交Spark作业时，只需将执行器的数量设置为1。
然而，这比提交您真正需要的文件要慢，所以我不确定您为什么要这样做。
如果主题数量增加，则从主题消费的线程数量也会增加
这是不正确的。您的上限是执行器数 * 每个执行器的内核数。
此外，每个主题的每个分区都将使用线程，而不是每个主题一个线程

赞(0）回复(0）举报 2023-01-26

我来回答

Pyspark：多重主题的Kafka消费者

1条答案

相关问题

热门标签

最新问答