Scala Spark读取分区删除分区

lbsnaicq  于 2022-12-04  发布在  Scala
关注(0)|答案(1)|浏览(236)

存在hdfs目录:
/home/path/date=2022-12-02,其中date=2022-12-02是一个分区。
带有分区“date=2022-12-02”的Parquet文件已写入此目录。
要读取带有分区的文件,我用途:

spark
        .read
        .option("basePath", "/home/path")
        .parquet("/home/path/date=2022-12-02")

已成功读取具有所有分区字段的文件。
但是,分区文件夹(“date=2022-12-02”)从目录中删除。
我无法把握,原因是什么以及如何避免它。

k7fdbhmy

k7fdbhmy1#

有两种方法可以将date作为表的一部分;
1.读取路径如下:.parquet("/home/path/")
1.添加一个新列并使用input_file_path()函数,然后使用字符串进行操作,直到获得日期列(应该相当简单,取斜杠后的最后一部分,在等号处拆分并取索引1)。
我不认为有其他方法可以直接做你想做的事。

相关问题