Hive中非等连接的扣合

xe55xuns  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(363)

当前配置单元不支持非相等联接。但是,随着交叉积变得非常巨大,我想知道有什么方法可以解决一个大的事实(2570亿行,37tb)和相对较小的维度(8.7gb)表连接。
在等连接的情况下,我可以在连接柱上用适当的扣使其容易工作(为smbm使用相同数量的bucket(实际上是转换为map join)。但是如果我们认为这在非等联接时没有任何优势,因为值将在其他桶中,实际上触发了一个洗牌,即reduce阶段。
如果有人有任何想法来克服这一点,请建议。。。。。

lnvxswe2

lnvxswe21#

如果维度表适合内存,则可以按此处所述创建自定义用户定义函数(udf),并在内存中执行inequi联接。

相关问题