我是Pypark的新手。我正在尝试使用pyspark dataframes获取配置单元表的最新分区(日期分区),如下所示。但我确信有一种更好的方法可以使用Dataframe函数(而不是编写sql)。你能分享一些更好的方法吗。
这个解决方案是扫描配置单元表上的所有数据以获得它。
df_1 = sqlContext.table("dbname.tablename");
df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())
lat_date_dict=df_1_dates.first().asDict()
lat_dt=lat_date_dict['partitioned_date_column']
1条答案
按热度按时间1qczuiv01#
我同意@philantroft在评论中提到的观点。您可以使用下面的分区修剪过滤方法来限制为配置单元表扫描的分区数。
您可以在上面的计划中看到partitioncount:1它只扫描了12个可用分区中的一个分区。