读取配置单元表之前的筛选器分区(spark)

7kjnsjlb  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(307)

当前,我正在尝试按您处理的最新日期筛选配置单元表。
这张表是按分区的。
系统日期处理区域
我过滤它的唯一方法是执行连接查询:

  1. query = "select * from contracts_table as a join (select (max(date_processed) as maximum from contract_table as b) on a.date_processed = b.maximum"

这种方法非常耗时,因为我必须对25个表执行相同的过程。
任何人都知道一种直接读取spark<1.6中表的最新加载分区的方法
这是我用来阅读的方法。

  1. public static DataFrame loadAndFilter (String query)
  2. {
  3. return SparkContextSingleton.getHiveContext().sql(+query);
  4. }

非常感谢!

wh6knrhe

wh6knrhe1#

具有所有表分区的Dataframe可以通过以下方式接收:

  1. val partitionsDF = hiveContext.sql("show partitions TABLE_NAME")

值可以被解析为get max value。

相关问题