我想从一个目录中加载多个具有不同结构的xlsx文件,并根据文件名为这些文件分配自己的数据框。我有30多个具有不同结构的文件,但为了简洁起见,请考虑以下几点:
3个excel文件[wild_animals.xlsx, farm_animals_xlsx, domestic_animals.xlsx]
我希望为每个文件分配各自的数据框,因此如果文件名包含“wild”,则将其分配为wild_df
,如果是农场,则为farm_df
,如果是家庭,则为dom_df
。这只是流程的第一步,因为实际文件包含大量“噪音”这需要清理取决于文件类型等,他们的文件名也将改变每周的基础上,只有少数关键标记保持不变。
我的假设是glob模块是最好的方式开始这样做,但在采取非常具体的部分文件扩展名,并使用它来分配给一个特定的df我变得有点迷失,所以任何帮助感谢。
不久前我也问过类似的问题,但这是一个更广泛的问题的一部分,我现在已经解决了其中的大部分问题。
3条答案
按热度按时间z9smfwbn1#
我会将它们解析到DataFrame的字典中:
那么你可以把它们作为普通的字典元素来访问:
等等。
nhn9ugyo2#
你需要得到所有的xlsx文件,而不是使用理解dict,你可以访问任何elm
ijnw1ujt3#
为了完整起见,我想展示一下我最终使用的解决方案,非常接近Khelili的建议,只是做了一些调整以适合我的特定代码,包括在此阶段不创建DataFrame