amazonemr:最佳压缩/文件格式

zqdjd7g9  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(418)

我们目前有一些文件存储在s3服务器上。这些文件是日志文件(.log扩展名,但纯文本内容),已通过gzip压缩以减少磁盘空间。但是gzip是不可拆分的,现在我们正在寻找一些好的替代方案来在amazonemr上存储/处理我们的文件。
那么,在日志文件上使用什么样的最佳压缩或文件格式呢?我遇到了avro和sequencefile,bzip2,lzo和snappy。有点多,我有点不知所措。
所以我很感激你对这件事的任何见解。
数据将用于清管器作业(Map/减少作业)
谨致问候

aiqt4smr

aiqt4smr1#

如果您查看amazon emr的最佳实践,其中有一节将讨论压缩输出:
压缩Map器输出-压缩意味着更少的数据写入磁盘,从而提高磁盘i/o。您可以通过查看文件\字节\写入的hadoop度量来监视写入磁盘的数据量。压缩还可以帮助简化程序提取数据的洗牌阶段。压缩也有利于集群hdfs数据复制。通过将mapred.compress.map.output设置为true来启用压缩。启用压缩时,还可以选择压缩算法。lzo具有更好的性能,压缩和解压缩速度更快。

ha5z0ras

ha5z0ras2#

嗨,我们可以根据我们的用例使用以下算法。
gzip(算法):可拆分(no)、压缩比(high)、压缩和解压缩速度(medium)
snappy(算法):可拆分(no),压缩比(low),压缩和解压缩速度(very fast)
bzip2(算法):可拆分(yes),压缩比(very high),压缩和解压缩速度(slow)
lzo(算法):可拆分(是),压缩比(低),压缩和解压缩速度(快)

相关问题