我想使用pyspark在数据块上实现高效的文件列表和删除。下面的链接在Scala中有一个实现,有没有等价的pyspark版本?
https://kb.databricks.com/en_US/data/list-delete-files-faster
我想使用pyspark在数据块上实现高效的文件列表和删除。下面的链接在Scala中有一个实现,有没有等价的pyspark版本?
https://kb.databricks.com/en_US/data/list-delete-files-faster
1条答案
按热度按时间uubf1zoe1#
您可以使用
dbutils
,即DataBricks文件实用程序API。要删除文件或目录:
为了从目录中删除所有文件,并选择删除目录,我使用了一个自定义的written util函数: