我想使用Python或者最好是Pandas在数据框中返回HDFS文件夹中所有文件的列表。我已经看过subprocess.Popen,这可能是最好的方法,但如果是这样,有没有办法解析出所有的噪音,只返回文件名?hdfs模块无法获取配置选项。已尝试子进程.Popen,但它返回了太多无关的内容。
m1m5dgzv1#
命名路径后
from pathlib import Path folder = Path("/tmp/favorite_folder/")
那么就只需要匹配一些模式,如folder.glob("*.csv")。使用通配符获取一个级别上的所有名称:
folder.glob("*.csv")
print(folder.glob("*"))
要递归遍历所有级别,您可能希望依赖os.walk()。https://docs.python.org/3/library/os.html#os.walk或者,使用递归glob模式:folder.glob("**/*.csv")
os.walk()
folder.glob("**/*.csv")
1条答案
按热度按时间m1m5dgzv1#
命名路径后
那么就只需要匹配一些模式,如
folder.glob("*.csv")
。使用通配符获取一个级别上的所有名称:要递归遍历所有级别,您可能希望依赖
os.walk()
。https://docs.python.org/3/library/os.html#os.walk
或者,使用递归glob模式:
folder.glob("**/*.csv")