我有一个以Kafka为源代码的结构化流Spark Job,它以追加模式输出orc文件。(想)到一个hdfs的位置每隔一定的时间.通过移动文件,将spark作业曾经崩溃或产生坏的输出作为一个结果?一旦spark写文件,我想执行文件移动,但我不想以任何方式破坏Spark.
vm0i2vca1#
当您附加数据时,只要在输出文件夹中生成的_spark_metadata目录和检查点目录保持同步,移动文件就不会影响您的结构化流作业。
1条答案
按热度按时间vm0i2vca1#
当您附加数据时,只要在输出文件夹中生成的_spark_metadata目录和检查点目录保持同步,移动文件就不会影响您的结构化流作业。