spark ignorecorruptfiles config在第一个文件损坏时忽略未损坏的文件

vyu0f0g1  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(637)

我有一个文件夹,其中包含一个损坏的文件和其他适当的文件(非损坏)
路径:s3://temp bucket/test/
文件夹:
s3://temp bucket/test/a\u corrupt\u file.parquet文件
s3://temp bucket/test/b\u proper\u file1.Parquet地板
s3://temp bucket/test/b\u proper\u file2.Parquet地板

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "false")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")

以上代码失败,但出现以下异常
原因:java.io.ioexception:无法读取文件的页脚:

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "true")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")

以上代码失败,但出现以下异常
org.apache.spark.sql.analysisexception:无法推断parquet的架构
当ignorecorruptfiles=true时,当第一个文件(按字典顺序)损坏时,spark将忽略所有文件,包括正确的非损坏文件

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题