spark流数据在kafka和textsocket流中的传播

rdlzhqv9 于 2021-06-07 发布在 Kafka

关注(0)|答案(2)|浏览(285)

我想了解如何从spark流中的文本套接字流或kafka输入读取数据。
数据是在一个线程中从驱动程序读取然后分发给工人的吗？单点数据读取不会成为瓶颈吗？
所有工人都同时读取数据吗？如果是的话，读取是如何同步的？

Java apache-kafka spark-streaming

来源：https://stackoverflow.com/questions/35942148/spark-streaming-data-dissemination-in-kafka-and-textsocket-stream

2条答案

按热度按时间

qnakjoqk1#

1）不，数据由执行者直接读取。考虑到所覆盖的分区，它们会打开自己与相应代理的连接。见下一点。
2）每个执行器（假设不止一个）都有一个给定主题的分区子集。如果有2个分区并且有2个执行器，那么每个执行器将得到1个分区。如果您只有一个分区，那么一个执行器将获得所有数据，而一个将一无所获。在kafka中，只能保证消息在分区内按顺序传递，而缺少magic spark也不能做得更好。

赞(0）回复(0）举报 2021-06-07

ylamdve62#

数据是在一个线程中从驱动程序读取然后分发给工人的吗？单点数据读取不会成为瓶颈吗？
不，一般不是这样做的。有了Kafka，你可以选择两种方法：
基于接收器的流-Spark工人运行接收器，基本上是连接到Kafka。它们读取数据并使用wal更新zookeeper的偏移量。这种方法要求您启动多个接收器，以便同时读取Kafka的内容。这通常是通过创建多个数据流，然后使用 DStream.union 统一所有数据源。
这是spark 1.3.0发布后推出的新api。这种方法让驱动程序将偏移量读入不同的kafka分区，并启动具有特定偏移量的作业。这种方法不需要您打开到kafka集群的并发连接，它将为您打开每个kafka分区的连接。这使得工作人员用所需的范围查询kafka变得简单。但是，这种方法不会将偏移存储到zookeeper。相反，使用sparks检查点机制对偏移进行可靠的检查，以实现容错。
所有工人都同时读取数据吗？如果是的话，读取是如何同步的？
这取决于你选择的阅读选项。例如，如果您选择基于接收器的方法，并且只启动到kafka的单个连接，那么您将有一个worker使用所有数据。在无接收者方法中，多个连接已经代表您打开，并分配给不同的工作人员。
我建议阅读databricks的一篇博文：spark streaming对kafka集成的改进，以及spark streaming+kafka集成文档。

赞(0）回复(0）举报 2021-06-07

我来回答

spark流数据在kafka和textsocket流中的传播

2条答案

相关问题

热门标签

最新问答