我在Hive中创造一些维度的聚合体。我面临的问题是,聚合查询需要将近5个小时来聚合大约40g的数据,日志显示数据中存在巨大的偏差。我可以在join中为skew找到一些替代方法,但不确定在计算聚合时是否可以避免相同的方法。即使是扣桶也只会为这些群体创造一个桶,而且这种情况仍然存在。有没有更好的机制来处理这些情况。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!