apachespark—在pyspark中用path读取挂载文件元数据的有效方法

dfty9e19 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(327)

我正在用文件路径获取文件元数据。在获取每个文件的元数据时应该不会有任何错误，但是需要花费很长时间，因为我有大约10k个文件，并且我想保存结果。

getpdfInfoUdf = F.udf(getpdfInfoFromPath, pdfInfoSchema)
docCheckSparkDf = docCheckSparkDf.withColumn("metaData", getpdfInfoUdf(F.col("path")))

我试过了，但它仍在没完没了地运行。

docCheckSparkDf.rdd.mapPartitions(getpdfInfoForPartition)

以及保存文件，

docCheckSparkDf.write.partitionBy("id").format("parquet").save("FileStore/tables/xxx.parquet")

有什么建议可以改进吗？

目前还没有任何答案，快来回答吧！

相关问题