配置单元中排序合并桶Map联接的输入

clj7thdc 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(452)

我想使用以下选项执行一个排序合并联接，如配置单元手册（带方框的Map联接）中所述

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;

这两个表都必须在联接列上进行装箱和排序。我的问题是-排序是否必须是全局的，即第一个bucket中的键小于第二个bucket中的键，或者每个bucket都进行排序就足够了？

hadoop Hive Join Bucket Map

来源：https://stackoverflow.com/questions/17576907/input-for-a-sort-merge-bucket-map-join-in-hive

1条答案

按热度按时间

dgsult0t1#

必须定义要创建的表 CLUSTERED BY 同一列和 SORTED BY 同一列中的同一顺序 INTO 相同数量的桶。
然后，您必须设置上面列出的设置并编写提示 /*+MAPJOIN(x)*/ 其中x是一个表。
另外，两个表都必须按照join子句中的原样进行联接，并且不能在联接之前的子查询中使用any，因为数据不会在首先发生的子查询之后被存储桶和排序。
最后，联接列必须是表的绑定/排序列。
将数据插入表时，可以使用 hive.enforce.sorting 设置（设置为true）或手动写入排序命令。
hive不会检查bucket是否已实际排序，因此如果它们没有排序，则可能会导致输出中出现错误的结果。
每个Map程序将从第一个表中读取一个bucket，从第二个表中读取相应的bucket，并执行合并排序联接。
对你的问题-不，他们不需要全球排序。
附笔
您应该在运行查询之前发出explain命令，然后查看hive是否计划执行合并排序bucket连接。

赞(0）回复(0）举报 2021-06-04

我来回答

配置单元中排序合并桶Map联接的输入

1条答案

相关问题

热门标签

最新问答