我现在在python中使用kafka。想知道是否需要斯帕克·Kafka,或者我们可以通过皮Kafka来使用Kafka。我担心的是spark在这个过程中会产生开销(pyspark),如果我们不使用任何spark函数,只需要kafka流。使用pyspark和kafka spark有哪些不便之处?
of1yzvn41#
这完全取决于手头的用例,正如评论中提到的,但是我在几个月前通过了相同的情况,我将尝试转移我的知识以及我是如何决定转移到Kafka流而不是Spark流。在我的用例中,我们只使用spark从kafka执行实时流,而不执行任何类型的Map缩减、窗口化、过滤和聚合。鉴于上述情况,我根据3个维度进行了比较:技术性德沃斯成本下图显示了我说服我的团队迁移到使用kafka流和抑制spark时所做的比较表,成本没有添加到图中,因为它完全取决于集群大小(headnode workernodes)。v、 注意:同样,这是基于你的情况,我只是想给你一个指针如何做比较,但Spark本身有很多好处,这是无关的描述它在这个问题上。
1条答案
按热度按时间of1yzvn41#
这完全取决于手头的用例,正如评论中提到的,但是我在几个月前通过了相同的情况,我将尝试转移我的知识以及我是如何决定转移到Kafka流而不是Spark流。
在我的用例中,我们只使用spark从kafka执行实时流,而不执行任何类型的Map缩减、窗口化、过滤和聚合。
鉴于上述情况,我根据3个维度进行了比较:
技术性
德沃斯
成本
下图显示了我说服我的团队迁移到使用kafka流和抑制spark时所做的比较表,成本没有添加到图中,因为它完全取决于集群大小(headnode workernodes)。
v、 注意:同样,这是基于你的情况,我只是想给你一个指针如何做比较,但Spark本身有很多好处,这是无关的描述它在这个问题上。