Scala Spark读取分区删除分区

lbsnaicq 于 2022-12-04 发布在 Scala

关注(0)|答案(1)|浏览(236)

存在hdfs目录：
/home/path/date=2022-12-02，其中date=2022-12-02是一个分区。
带有分区“date=2022-12-02”的Parquet文件已写入此目录。
要读取带有分区的文件，我用途：

spark
        .read
        .option("basePath", "/home/path")
        .parquet("/home/path/date=2022-12-02")

已成功读取具有所有分区字段的文件。
但是，分区文件夹（“date=2022-12-02”）从目录中删除。
我无法把握，原因是什么以及如何避免它。

scala

来源：https://stackoverflow.com/questions/74657066/scala-spark-read-with-partitions-drop-partitions

1条答案

按热度按时间

k7fdbhmy1#

有两种方法可以将date作为表的一部分;
1.读取路径如下：.parquet("/home/path/")
1.添加一个新列并使用input_file_path()函数，然后使用字符串进行操作，直到获得日期列（应该相当简单，取斜杠后的最后一部分，在等号处拆分并取索引1）。
我不认为有其他方法可以直接做你想做的事。

赞(0）回复(0）举报 2022-12-04

我来回答

Scala Spark读取分区删除分区

1条答案

相关问题

热门标签

最新问答