当前,我正在尝试按您处理的最新日期筛选配置单元表。
这张表是按分区的。
系统日期处理区域
我过滤它的唯一方法是执行连接查询:
query = "select * from contracts_table as a join (select (max(date_processed) as maximum from contract_table as b) on a.date_processed = b.maximum"
这种方法非常耗时,因为我必须对25个表执行相同的过程。
任何人都知道一种直接读取spark<1.6中表的最新加载分区的方法
这是我用来阅读的方法。
public static DataFrame loadAndFilter (String query)
{
return SparkContextSingleton.getHiveContext().sql(+query);
}
非常感谢!
1条答案
按热度按时间wh6knrhe1#
具有所有表分区的Dataframe可以通过以下方式接收:
值可以被解析为get max value。