我的查询需要30多分钟来处理此查询。它确实适用于非常大的数据集,但我可能缺少一些基本的东西,可以减少执行时间。
query在许多reducer阶段工作,每个阶段使用1000+个reducer。在tez引擎上运行。
我试图启用cbo,但没有运气,也试图限制还原到500,但执行时间仍然很高。
select itt.tr_date, sum (bkt_sum_pc) as pts
from itops_trxn itt,
( select acttrxnID, max(act_cmp_id) as act_cmp_id
from itops_trxn_act a, ll_act_act_trxn b where a.act_trxn_ID = b.ACOUNTtrxnID group by acttrxnID
) A,
(select cmp_id, max (cmp_name) as name
from itops_offer group by cmp_id
) c
where itt.acttrxnID = A.acttrxnID and act_cmp_id = c.cmp_id
and itt.type = 'ajstmnt'
and itt.event_header_event_name NOT IN ('composite.sys.act.merge', 'pos.sys.identity', 'composite.sys.act.pcmerge')
and itt.event_atomic_operation_type = 'CT'
and itt.tr_date >='2018-10-31'
group by itt.tr_date, channel, location_storeparentid, meta_trxnreason, act_cmp_id,name;
1条答案
按热度按时间zsbz8rwp1#
显式重写联接并移动这些条件
where itt.acttrxnID = A.acttrxnID and act_cmp_id = c.cmp_id
对于join on子句: