我正在尝试导出带有分区的表。默认情况下,它根据分区数生成文件数。是否有一个属性我可以设置合并文件,什么是性能考虑作出这一改变。
我在合并小文件时发现的属性很少,但它们似乎都在一个分区内工作。
set hive.merge.tezfiles=true;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=128000000;
set hive.merge.smallfiles.avgsize=128000000;
我也不能选择编写一个单独的concat代码来在末尾附加文件。
1条答案
按热度按时间6g8kf2rb1#
如果我没弄错你的问题,你可以
select * from table_name
并将结果导出到文件中。这将把所有数据和分区名放在单独的列中。更多关于直线输出的官方文件。
我不认为合并分区中的所有文件是一个好方法,因为这可能会导致数据损坏。