hive (1.1.0)使用动态分区加载数据到rc表时获取小文件

bq3bfh9z  于 2021-04-03  发布在  Hive
关注(0)|答案(1)|浏览(745)

我正在使用 "插入 "命令从txt表加载数据到rc表。目标表(rc)是分区表,因此启用了动态分区。
唯一对我有效的是,当我在 "插入 "命令中加入 "按[任意列]排序 "时,在这种情况下,有一个减少过程,导致每个分区最终只有一个文件。
这就像一个丑陋的变通方法,我正在寻找一个更优雅的方法。
有什么建议吗?
谢谢

qyyhg6bp

qyyhg6bp1#

试着添加 "DISTRIBUTE BY <partition key(list)>"来代替 "ORDER BY",它将按分区键对数据进行分组,并且最终的还原器将对每个分区进行处理,而不是按每个还原器进程写入每个分区的文件,并且会比 "ORDER BY "更快地工作。

相关问题