优化配置单元子查询查询

siv3szwd 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(462)

我正在使用hdp2.6.2和hive。
我遇到了这样一种情况：我正在更新一个基于列的大表中的分区表，而查询执行得不好，我无法理解原因。下面的insert语句就是一个例子 insert into partitioned_table partition(dt_month) select * from large_table where incremental_string_col > (select last_incremental_col from temp_tab) 在这里，我假设where子句中的子查询执行一次，结果被缓存，或者cbo将整个temp\u tab表（基本上只有一行）发送到所有节点，但它似乎没有像将字符串值作为文本输入那样工作！
我可以显式地声明一个表需要缓存在配置单元中吗？我是否可以显式地声明一个查询只需要执行一次，然后缓存结果？我错过了什么？
我明白，列在哪里是一个字符串不是最好的情况下，但我不能帮助这一点。
任何帮助都将不胜感激！！

Hive optimization cbo

来源：https://stackoverflow.com/questions/47176731/optimizing-hive-subquery-queries

1条答案

按热度按时间

sgtfey8w1#

您可以对单行子查询使用交叉Map联接，然后按不等式条件筛选行：

select * 
  from large_table l
       cross join (single_row_subquery) s
 where l.incremental_string_col>s.last_incremental_col;

或者在单独的脚本中计算子查询并作为hivevar变量传递，如下所示：https://stackoverflow.com/a/37821218/2700344

赞(0）回复(0）举报 2021-06-26

我来回答

优化配置单元子查询查询

1条答案

相关问题

热门标签

最新问答