我有大约500万个存储在awss3上的小文件(800kb)。我想将它们合并到每个约100mb的大文件中,因为在500万个小文件上执行map reduce作业的性能很差。合并这些文件的好方法是什么?我想快速有效地做这件事。我愿意使用mapreduce,s3api,任何能把工作做好的东西。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!