我已经构建了一个从Kafka主题读取数据的Spark结构化流应用程序,我已经将起始偏移量指定为最新,如果从Spark端出现任何故障会发生什么情况,重新启动后数据将从哪个点/偏移量继续读取,在写入流中指定检查点以确保我们从应用程序/Spark发生故障的点读取数据好吗?请让我知道。
inkz8wg91#
你可以使用检查点,是的,或者你可以设置kafka.group.id(至少在Spark 3+中)。
kafka.group.id
否则,它可能会从主题的结尾处开始
1条答案
按热度按时间inkz8wg91#
你可以使用检查点,是的,或者你可以设置
kafka.group.id
(至少在Spark 3+中)。否则,它可能会从主题的结尾处开始