如何在Databricks中更快地列出和删除文件-使用pyspark

brc7rcf0  于 2022-11-01  发布在  Spark
关注(0)|答案(1)|浏览(223)

我想使用pyspark在数据块上实现高效的文件列表和删除。下面的链接在Scala中有一个实现,有没有等价的pyspark版本?
https://kb.databricks.com/en_US/data/list-delete-files-faster

uubf1zoe

uubf1zoe1#

您可以使用dbutils,即DataBricks文件实用程序API。
要删除文件或目录:

dbutils.fs.rm("dbfs:/filepath")

为了从目录中删除所有文件,并选择删除目录,我使用了一个自定义的written util函数:

def empty_dir(dir_path, remove_dir=False):
  listFiles = dbutils.fs.ls(dir_path)
  for _file in listFiles:
    if _file.isFile():
      dbutils.fs.rm(_file.path)
  if remove_dir:
    dbutils.fs.rm(dir_path)

相关问题