如何在hadoop中使用mapreduce一次处理多个文本文件进行分析

aor9mmx1  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(479)

我有很多小文件,比如说50000多份。我需要使用map reduce概念一次处理这些文件,以便根据输入文件生成一些分析。
请给我一个方法来做这件事,也请让我知道如何合并成一个大文件使用hdfs这个小文件

uklbhaso

uklbhaso1#

请参阅cloudera的这篇博客文章,解释小文件的问题。
github中有一个名为filecrush的项目,它可以合并大量的小文件。从项目主页:
把许多小文件变成更小的大文件。还可以在一个过程中从文本更改为序列和其他压缩选项。

相关问题