使用通配符读取物理分区的数据

xfyts7mz 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(473)

我在aws s3上有一个持久化的Dataframe，其结构如下：

s3://bucket/df/
|__ date=2020-02-19/
    |__ FILENAME01.json
    |__ FILENAME02.json
    |__ FILENAME03
    |__ ...
|__ date=2020-02-20/
    |__ FILENAME04.json
    |__ FILENAME05
    |__ ...
|__ ...

如果我使用以下语法读取此Dataframe：

df = spark.read.json("s3://bucket/df)"

没有扩展名的文件将成为我的Dataframe的一部分，这是不可取的。所以，我只想考虑 .json 分机。
所以我决定阅读这个Dataframe，过滤带有后缀的文件 *.json . 在实践中，我尝试了以下方法：

df = spark.read.json("s3://bucket/df/date=*/*.json")

这个 spark.read.json 工作，但专栏 date 用于分区的Dataframe不存在。有没有办法只检索与分区文件夹中特定后缀匹配的文件，而不丢失分区列？

apache-spark pyspark apache-spark-sql amazon-s3

来源：https://stackoverflow.com/questions/66283715/read-a-physically-partitioned-data-using-wildcards

1条答案

按热度按时间

jfewjypa1#

spark只能发现给定输入路径下的分区。但是这里你的路径已经包含了分区 date . 您可以从以下文档中阅读：
从spark 1.6.0开始，默认情况下分区发现只在给定路径下查找分区。对于上面的示例，如果用户通过 path/to/table/gender=male 或者 SparkSession.read.parquet 或者 SparkSession.read.load ，性别将不被视为分区列。如果用户需要指定分区发现开始的基本路径，可以在数据源选项中设置基本路径。例如，当 path/to/table/gender=male 是数据和用户设置为basepath的路径 path/to/table/ ，性别将是一个分区列。
您可以指定 basePath 选项：

df = spark.read.option("basePath", "s3://bucket/df/").json("s3://bucket/df/date=*/*.json")

或者，您可以提取 date 从 input_file_name 使用 regexp_extract 功能：

from pyspark.sql import functions as F

df = df.withColumn(
    "date",
    F.regexp_extract(F.input_file_name(), r".*/date=(\d{4}-\d{2}-\d{2})/.*", 1)
)

赞(0）回复(0）举报 2021-07-13

我来回答

使用通配符读取物理分区的数据

1条答案

相关问题

热门标签

最新问答