使用Python如何获取HDFS文件夹中所有文件的列表?

trnvg8h3  于 2022-11-21  发布在  Python
关注(0)|答案(1)|浏览(271)

我想使用Python或者最好是Pandas在数据框中返回HDFS文件夹中所有文件的列表。我已经看过subprocess.Popen,这可能是最好的方法,但如果是这样,有没有办法解析出所有的噪音,只返回文件名?
hdfs模块无法获取配置选项。已尝试子进程.Popen,但它返回了太多无关的内容。

m1m5dgzv

m1m5dgzv1#

命名路径后

from pathlib import Path

folder = Path("/tmp/favorite_folder/")

那么就只需要匹配一些模式,如folder.glob("*.csv")。使用通配符获取一个级别上的所有名称:

print(folder.glob("*"))

要递归遍历所有级别,您可能希望依赖os.walk()
https://docs.python.org/3/library/os.html#os.walk
或者,使用递归glob模式:folder.glob("**/*.csv")

相关问题