HDFS 在执行spark流式传输时,是否可以移动输出文件,而不会导致spark作业崩溃?

uxh89sit  于 2023-04-27  发布在  HDFS
关注(0)|答案(1)|浏览(174)

我有一个以Kafka为源代码的结构化流Spark Job,它以追加模式输出orc文件。(想)到一个hdfs的位置每隔一定的时间.通过移动文件,将spark作业曾经崩溃或产生坏的输出作为一个结果?一旦spark写文件,我想执行文件移动,但我不想以任何方式破坏Spark.

vm0i2vca

vm0i2vca1#

当您附加数据时,只要在输出文件夹中生成的_spark_metadata目录和检查点目录保持同步,移动文件就不会影响您的结构化流作业。

相关问题