HDFS 在执行spark流式传输时，是否可以移动输出文件，而不会导致spark作业崩溃？

uxh89sit 于 2023-04-27 发布在 HDFS

关注(0)|答案(1)|浏览(174)

我有一个以Kafka为源代码的结构化流Spark Job，它以追加模式输出orc文件。（想）到一个hdfs的位置每隔一定的时间.通过移动文件，将spark作业曾经崩溃或产生坏的输出作为一个结果？一旦spark写文件，我想执行文件移动，但我不想以任何方式破坏Spark.

来源：https://stackoverflow.com/questions/59129109/can-output-files-be-moved-while-doing-spark-streaming-without-crashing-the-spar

1条答案

按热度按时间

当您附加数据时，只要在输出文件夹中生成的_spark_metadata目录和检查点目录保持同步，移动文件就不会影响您的结构化流作业。

赞(0）回复(0）举报 2023-04-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前