将配置单元表作为单个文件输出到hdfs

afdcj2ne  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(527)

我试图将配置单元中的表的内容作为单个csv文件输出到hdfs,但是当我运行下面的代码时,它会将其拆分为5个单独的文件,每个文件大小约为500mb。在将结果输出为单个csv文件方面,我是否遗漏了什么?

set hive.execution.engine=tez;
set hive.merge.tezfiles=true;
INSERT OVERWRITE DIRECTORY  "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable;
kmbjn2e3

kmbjn2e31#

添加 orderby 子句,则配置单元将强制运行 single reducer 它将在hdfs目录中只创建一个文件。

INSERT OVERWRITE DIRECTORY  "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable order by <col_name>;

注:
如果输出中的行数太大,则 single reducer 可能需要很长时间才能完成。

相关问题