apachespark中的风暴状结构

8mmmxcuj 于 2021-06-21 发布在 Storm

关注(0)|答案(1)|浏览(262)

你知道在ApacheStorm中如何将数据流传输到多个螺栓。在apachespark中有没有类似的方法？
我基本上希望有一个程序从kafka队列中读取数据，并将其输出到两个不同的程序中，然后这些程序可以用自己不同的方式处理数据。
具体来说，将有一个读卡器程序从kafka队列中读取数据并将其输出到2个程序x和y。x将处理数据以计算一种度量（在我的例子中，它将计算用户活动），而y将计算另一种度量（在我的例子中，这将是基于不同设备的检查活动）。
有人能帮我理解这在spark是怎么可能的吗？

apache-spark apache-storm

来源：https://stackoverflow.com/questions/32755265/storm-like-structure-in-apache-spark

1条答案

按热度按时间

nzk0hqpo1#

为什么不简单地创建两个拓扑？
两种拓扑都有一个从Kafka主题中读取的喷口（是的，您可以从同一主题中读取多个拓扑；我在生产系统上运行）。请确保使用不同的喷口配置，否则kafka zookeper将看到两种拓扑相同。请看一下这里的文档。
spoutconfig是kafkanconfig的扩展，它支持带有zookeeper连接信息的附加字段，并用于控制特定于kafkaspout的行为。zkroot将用作根来存储消费者的偏移量。id应该唯一标识您的喷口。

public SpoutConfig(BrokerHosts hosts, String topic, String zkRoot, String id);

实现拓扑x中的程序x和拓扑y中的程序y。
另一个选项是两个螺栓图从同一个喷口订阅，但这不是最佳的，因为失败的元组（可能只在一个图中失败）将被重放到两个图中，如果它们只在其中一个图中失败，则事件；因此，一些kafka消息将被处理两次，使用两个分开的拓扑结构，您可以避免这种情况。

赞(0）回复(0）举报 2021-06-21

我来回答

apachespark中的风暴状结构

1条答案

相关问题

热门标签

最新问答