spark ignorecorruptfiles config在第一个文件损坏时忽略未损坏的文件

vyu0f0g1 于 2021-05-26 发布在 Spark

关注(0)|答案(0)|浏览(637)

我有一个文件夹，其中包含一个损坏的文件和其他适当的文件（非损坏）
路径：s3://temp bucket/test/
文件夹：
s3://temp bucket/test/a\u corrupt\u file.parquet文件
s3://temp bucket/test/b\u proper\u file1.Parquet地板
s3://temp bucket/test/b\u proper\u file2.Parquet地板

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "false")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")

以上代码失败，但出现以下异常
原因：java.io.ioexception:无法读取文件的页脚：

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "true")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")

以上代码失败，但出现以下异常
org.apache.spark.sql.analysisexception:无法推断parquet的架构
当ignorecorruptfiles=true时，当第一个文件（按字典顺序）损坏时，spark将忽略所有文件，包括正确的非损坏文件

DataFrame apache-spark pyspark parquet corrupt

来源：https://stackoverflow.com/questions/65225669/spark-ignorecorruptfiles-config-is-ignoring-non-corrupt-files-when-first-file-is

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark ignorecorruptfiles config在第一个文件损坏时忽略未损坏的文件

暂无答案！

相关问题

热门标签

最新问答