读取配置单元表之前的筛选器分区(spark)

7kjnsjlb 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(307)

当前，我正在尝试按您处理的最新日期筛选配置单元表。
这张表是按分区的。
系统日期处理区域
我过滤它的唯一方法是执行连接查询：

query = "select * from contracts_table as a join (select (max(date_processed) as maximum from contract_table as b) on a.date_processed = b.maximum"

这种方法非常耗时，因为我必须对25个表执行相同的过程。
任何人都知道一种直接读取spark<1.6中表的最新加载分区的方法
这是我用来阅读的方法。

public static DataFrame loadAndFilter (String query)
{
        return SparkContextSingleton.getHiveContext().sql(+query);
}

非常感谢！

1条答案

具有所有表分区的Dataframe可以通过以下方式接收：

val partitionsDF = hiveContext.sql("show partitions TABLE_NAME")

值可以被解析为get max value。