Kafka流媒体或spark流媒体

ih99xse1 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(466)

我现在在python中使用kafka。想知道是否需要斯帕克·Kafka，或者我们可以通过皮Kafka来使用Kafka。
我担心的是spark在这个过程中会产生开销（pyspark），如果我们不使用任何spark函数，只需要kafka流。
使用pyspark和kafka spark有哪些不便之处？

apache-kafka apache-spark pyspark spark-streaming-kafka

来源：https://stackoverflow.com/questions/49122833/kafka-streaming-or-spark-streaming

1条答案

按热度按时间

of1yzvn41#

这完全取决于手头的用例，正如评论中提到的，但是我在几个月前通过了相同的情况，我将尝试转移我的知识以及我是如何决定转移到Kafka流而不是Spark流。
在我的用例中，我们只使用spark从kafka执行实时流，而不执行任何类型的Map缩减、窗口化、过滤和聚合。
鉴于上述情况，我根据3个维度进行了比较：
技术性
德沃斯
成本
下图显示了我说服我的团队迁移到使用kafka流和抑制spark时所做的比较表，成本没有添加到图中，因为它完全取决于集群大小（headnode workernodes）。
v、注意：同样，这是基于你的情况，我只是想给你一个指针如何做比较，但Spark本身有很多好处，这是无关的描述它在这个问题上。

赞(0）回复(0）举报 2021-06-07

我来回答

Kafka流媒体或spark流媒体

1条答案

相关问题

热门标签

最新问答