pyspark—处理apachespark中分区的糟糕文件夹结构的简单方法

ekqde3dh  于 2021-06-25  发布在  Hive
关注(0)|答案(0)|浏览(181)

通常情况下,数据可用的文件夹结构如下:,

2000-01-01/john/smith

而不是Hive分区规范,

date=2000-01-01/first_name=john/last_name=smith

spark(和pyspark)在使用hive文件夹结构时可以很容易地读取分区数据,但是使用“坏”文件夹结构会变得很困难,并且会涉及regex等。
对于spark中的分区数据,有没有更简单的方法来处理非配置单元文件夹结构?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题