hdfs—哪种文件格式更适合在配置单元中存储更多的小文件?为什么?

xnifntxz  于 2021-06-24  发布在  Hive
关注(0)|答案(2)|浏览(240)

如果我有更多的小文件需要存储在配置单元表中。哪种文件格式更适合存储?为什么?

crcmnpdw

crcmnpdw1#

使用低效的文件格式(例如textfile格式)和存储数据而不进行压缩会加剧小文件问题,以不同的方式影响性能和可伸缩性。例如,如果您在hive中有一个表,其中hdfs中有许多非常小的文件,那么最好将这些文件合并到较小的文件中,因为读取此表时会创建许多Map器。
使用配置单元串联功能:
当数据存储在hadoop中并在其上构建配置单元表时,这种方法将非常有用。基本上,apachehive提供了一个命令,可以将小文件合并到分区内的大文件中。该命令如下所示:

ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;

这仅在数据文件以rc或orc格式存储时有效。

eulz3vhy

eulz3vhy2#

您可以将mapred.job.reuse.jvm.num.tasksMap到improved.below链接https://blog.cloudera.com/blog/2009/02/the-small-files-problem/
在hadoopmapreduce作业中重用jvm

相关问题