我有一个文件夹,其中包含一个损坏的文件和其他适当的文件(非损坏)
路径:s3://temp bucket/test/
文件夹:
s3://temp bucket/test/a\u corrupt\u file.parquet文件
s3://temp bucket/test/b\u proper\u file1.Parquet地板
s3://temp bucket/test/b\u proper\u file2.Parquet地板
spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "false")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")
以上代码失败,但出现以下异常
原因:java.io.ioexception:无法读取文件的页脚:
spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "true")
val corruptTest = spark.read.parquet("s3://temp-bucket/test/")
以上代码失败,但出现以下异常
org.apache.spark.sql.analysisexception:无法推断parquet的架构
当ignorecorruptfiles=true时,当第一个文件(按字典顺序)损坏时,spark将忽略所有文件,包括正确的非损坏文件
暂无答案!
目前还没有任何答案,快来回答吧!