我有很多小文件,比如说50000多份。我需要使用map reduce概念一次处理这些文件,以便根据输入文件生成一些分析。请给我一个方法来做这件事,也请让我知道如何合并成一个大文件使用hdfs这个小文件
uklbhaso1#
请参阅cloudera的这篇博客文章,解释小文件的问题。github中有一个名为filecrush的项目,它可以合并大量的小文件。从项目主页:把许多小文件变成更小的大文件。还可以在一个过程中从文本更改为序列和其他压缩选项。
1条答案
按热度按时间uklbhaso1#
请参阅cloudera的这篇博客文章,解释小文件的问题。
github中有一个名为filecrush的项目,它可以合并大量的小文件。从项目主页:
把许多小文件变成更小的大文件。还可以在一个过程中从文本更改为序列和其他压缩选项。