通常情况下,数据可用的文件夹结构如下:,
2000-01-01/john/smith
而不是Hive分区规范,
date=2000-01-01/first_name=john/last_name=smith
spark(和pyspark)在使用hive文件夹结构时可以很容易地读取分区数据,但是使用“坏”文件夹结构会变得很困难,并且会涉及regex等。
对于spark中的分区数据,有没有更简单的方法来处理非配置单元文件夹结构?
通常情况下,数据可用的文件夹结构如下:,
2000-01-01/john/smith
而不是Hive分区规范,
date=2000-01-01/first_name=john/last_name=smith
spark(和pyspark)在使用hive文件夹结构时可以很容易地读取分区数据,但是使用“坏”文件夹结构会变得很困难,并且会涉及regex等。
对于spark中的分区数据,有没有更简单的方法来处理非配置单元文件夹结构?
暂无答案!
目前还没有任何答案,快来回答吧!