hive优化组

iszxjhcz  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(244)

我在Hive中创造一些维度的聚合体。我面临的问题是,聚合查询需要将近5个小时来聚合大约40g的数据,日志显示数据中存在巨大的偏差。
我可以在join中为skew找到一些替代方法,但不确定在计算聚合时是否可以避免相同的方法。
即使是扣桶也只会为这些群体创造一个桶,而且这种情况仍然存在。有没有更好的机制来处理这些情况。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题