如何优化配置单元插入覆盖分区？

sr4lhrrt 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(384)

我在配置单元中编写了insert overwrite partition来将分区中的所有文件合并到更大的文件中，
sql语句：

SET hive.exec.compress.output=true;
set hive.merge.smallfiles.avgsize=2560000000;
set hive.merge.mapredfiles=true;
set hive.merge.mapfiles =true;
SET mapreduce.max.split.size=256000000;
SET mapreduce.min.split.size=256000000;
SET mapreduce.output.fileoutputformat.compress.type =BLOCK;
SET hive.hadoop.supports.splittable.combineinputformat=true;
SET mapreduce.output.fileoutputformat.compress.codec=${v_compression_codec};

INSERT OVERWRITE TABLE ${source_database}.${table_name} PARTITION (${line}) \n SELECT ${prepare_sel_columns} \n from ${source_database}.${table_name} \n WHERE ${partition_where_clause};\n"

使用上述设置，我得到的是压缩输出，但生成输出文件所需的时间太长。
即使它只运行Map作业，也需要很多时间。
寻找任何进一步的设置从Hive侧调整插入运行更快。
韵律学。
15 gb文件==>需要10分钟。

hadoop Hive hdfs mapreduce

来源：https://stackoverflow.com/questions/36401091/how-to-tune-hive-insert-overwrite-partition

1条答案

按热度按时间

nbysray51#

SET hive.exec.compress.output=true;
SET mapreduce.input.fileinputformat.split.minsize=512000000; 
SET mapreduce.input.fileinputformat.split.maxsize=5120000000;
SET mapreduce.output.fileoutputformat.compress.type =BLOCK;
SET hive.hadoop.supports.splittable.combineinputformat=true;
SET mapreduce.output.fileoutputformat.compress.codec=${v_compression_codec};

上述设置帮助很大，持续时间从10分钟下降到1分钟。

赞(0）回复(0）举报 2021-06-02

我来回答

如何优化配置单元插入覆盖分区？

1条答案

相关问题

热门标签

最新问答