如何在spark中读取分区数据？

piok6c0g 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(399)

很多例子都建议阅读 spark.read("path/partition=value/*") 但是如何从路径定义列呢？
例如，我想从 path/2019/12/31/* 并获取列 year , month , day 从路径而不是数据本身派生的。如何使用Pypark？

1条答案

你的问题是： how to define a column from path? 取决于文件格式。例如，开 parquet 此信息存储在文件路径中。
如果Dataframe按分区存储为带有分区列的Parquet表 year, month, day 那就好像

/yourParquetLocation/year=2019/month=12/day=31

所以这就行了

spark.read.parquet("/yourParquetLocation/year=2019/month=12/day=31")