我使用saveastextfile方法将rdd以文本格式写入本地文件系统。在输出目录中,每个部件文件都有一个.crc文件,即使对于\u success文件也是如此。
我只是在寻找hadoop/spark的任何内置功能或属性,以避免生成这些元文件(尤其是.crc)
我发现以下属性可以避免生成成功的文件和.crc文件生成Parquet文件,但要为文本文件寻找类似的属性。
sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")
sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!