google云存储-tez输出文件

oprakyz7 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(412)

当我使用tez运行查询时，输出文件的数量非常大。我有一些4-5gb的数据，每个数据有46mb或16mb。我想只有2-3个文件作为输出文件。
我的输出文件的位置将是谷歌云存储。如何合并文件？

set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;

我设置了这些参数。我写了insert overwrite查询来覆盖相同位置的数据。没用。请帮忙。

1条答案

我能完成这件事。早些时候，当我做这件事的时候，这只是Map上的工作。现在，我对查询做了一点修改，以使用reducer（添加了distributedby）。如果我说“减速机的数量=1”，它就起作用了。但它不适用于其他应该只适用于map作业的参数