HDFS PySpark中parquet文件的读取范围

ut6juiuv 于 2023-10-14 发布在 HDFS

关注(0)|答案(3)|浏览(304)

我有大量的日常文件存储在HDFS中，其中分区以YYYY-MM-DD格式存储。
举例来说：

$ hdfs dfs -ls /my/path/here
<some stuff here> /my/path/here/cutoff_date=2023-10-02
<some stuff here> /my/path/here/cutoff_date=2023-10-03
<some stuff here> /my/path/here/cutoff_date=2023-10-04
<some stuff here> /my/path/here/cutoff_date=2023-10-05
<some stuff here> /my/path/here/cutoff_date=2023-10-06

我如何在这种结构下读取一系列日期？特别是，我需要读取2023-06-07和2023-10-06之间的所有可用分区。
根据this post，我可以使用sqlContext来传递一个使用[]的范围。沿着下列路线的东西：

sqlContext.read.load('/my/path/here/cutoff_date=[2023-10-02-2023-10-06]')

这显然是行不通的

hdfs

来源：https://stackoverflow.com/questions/77262037/read-range-of-parquet-files-in-pyspark

3条答案

按热度按时间

t2a7ltrp1#

由于/my/path/here/cutoff_date=[2023-10-02-2023-10-06]看起来是一个Linux shell命令，可能是/my/path/here/cutoff_date=2023-10-{02..06}

赞(0）回复(0）举报 2023-10-14

bn31dyow2#

也许阅读下面需要的分区，然后联合他们，以便有一个最后的框架将做你想要的？将timedelta更改为taste。
编辑：如果某些日期数据在范围内丢失，则还创建了一个名为path_exists的函数，以便在这种情况下不会出现异常/文件未找到错误

from pyspark.sql import SparkSession
from datetime import datetime, timedelta
import subprocess

def path_exists(hdfs_path):
    try:
        subprocess.check_output(['hdfs', 'dfs', '-ls', hdfs_path])
        return True
    except subprocess.CalledProcessError:
        return False

spark = SparkSession.builder.getOrCreate()

start_date = datetime.strptime("2023-06-07", "%Y-%m-%d")
end_date = datetime.strptime("2023-10-06", "%Y-%m-%d")
delta = timedelta(days=1)

date_list = []
while start_date <= end_date:
    date_str = start_date.strftime("%Y-%m-%d")
    date_list.append(date_str)
    start_date += delta

df_list = []
for d in date_list:
    hdfs_path = f'/my/path/here/cutoff_date={d}'
    if path_exists(hdfs_path):
        df_list.append(spark.read.load(hdfs_path))

if df_list:
    final_df = df_list[0]
    for df in df_list[1:]:
        final_df = final_df.union(df)
else:
    print("No valid partitions found in the range.")

赞(0）回复(0）举报 2023-10-14

ruyhziif3#

[]是一个字符串范围，就像你在正则表达式中看到的那样。
所以对于10/2到10/6，cutoff_date=2023-10-0[2-6]。
06/07 ~ 06/07，有点小问题。您可以尝试cutoff_date=2023-[0-1][0-6]-[0-3][0-9]，但这将包括2023-10-07，2023-10-20等日期。因此，在阅读之后，您需要额外的过滤器。
然而，说实话，如果你是阅读有点大的数据，因为PartitionFilters，我认为阅读整个文件夹和做过滤器与阅读子集只会有一个边际差异。
参考：https://mungingdata.com/apache-spark/partition-filters-pushed-filters/

赞(0）回复(0）举报 2023-10-14

我来回答

HDFS PySpark中parquet文件的读取范围

3条答案

相关问题

热门标签

最新问答