kafka的spark2.4.0结构化流容错

yebdmbv4  于 2021-06-04  发布在  Kafka
关注(0)|答案(1)|浏览(363)

当我阅读Kafka的文章时,我对spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南:
如果出现故障或有意关闭,可以恢复上一个查询的上一个进度和状态,并在其停止的位置继续。这是使用检查点和预写日志完成的。
1) 如何重新启动失败的查询?它能自动完成吗?
您可以使用检查点位置配置查询,该查询将把所有进度信息(即每个触发器中处理的偏移量范围)和正在运行的聚合(如快速示例中的字数)保存到检查点位置。此检查点位置必须是hdfs兼容文件系统中的路径,并且可以在启动查询时在datastreamwriter中设置为选项。
2) 如果不指定检查点位置,会发生什么情况?是选择了默认位置还是没有容错保证?能否将单个节点的本地非hdfs文件系统的路径指定为检查点位置?

bqujaahr

bqujaahr1#

您可以从streamingcontext.java中找到问题的答案https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/streaming/streamingcontext.html
无检查点位置-
如果我们不指定检查点的位置,那么我们将无法恢复失败。
默认检查点位置
没有默认的检查点位置。我们需要具体说明。
非hdfs检查点位置
hdfs兼容的目录,其中检查点数据将可靠地存储。请注意,这必须是像hdfs一样的容错文件系统。因此,指定本地检查点位置是没有用的。

相关问题