我正在使用 "插入 "命令从txt表加载数据到rc表。目标表(rc)是分区表,因此启用了动态分区。唯一对我有效的是,当我在 "插入 "命令中加入 "按[任意列]排序 "时,在这种情况下,有一个减少过程,导致每个分区最终只有一个文件。这就像一个丑陋的变通方法,我正在寻找一个更优雅的方法。有什么建议吗?谢谢
qyyhg6bp1#
试着添加 "DISTRIBUTE BY <partition key(list)>"来代替 "ORDER BY",它将按分区键对数据进行分组,并且最终的还原器将对每个分区进行处理,而不是按每个还原器进程写入每个分区的文件,并且会比 "ORDER BY "更快地工作。
1条答案
按热度按时间qyyhg6bp1#
试着添加 "DISTRIBUTE BY <partition key(list)>"来代替 "ORDER BY",它将按分区键对数据进行分组,并且最终的还原器将对每个分区进行处理,而不是按每个还原器进程写入每个分区的文件,并且会比 "ORDER BY "更快地工作。