存在hdfs目录:
/home/path/date=2022-12-02,其中date=2022-12-02是一个分区。
带有分区“date=2022-12-02”的Parquet文件已写入此目录。
要读取带有分区的文件,我用途:
spark
.read
.option("basePath", "/home/path")
.parquet("/home/path/date=2022-12-02")
已成功读取具有所有分区字段的文件。
但是,分区文件夹(“date=2022-12-02”)从目录中删除。
我无法把握,原因是什么以及如何避免它。
1条答案
按热度按时间k7fdbhmy1#
有两种方法可以将
date
作为表的一部分;1.读取路径如下:
.parquet("/home/path/")
1.添加一个新列并使用
input_file_path()
函数,然后使用字符串进行操作,直到获得日期列(应该相当简单,取斜杠后的最后一部分,在等号处拆分并取索引1)。我不认为有其他方法可以直接做你想做的事。