将多个hdfs文件夹中的较小文件复制到一个目标文件夹的有效方法是什么?为了使map reduce有效,还需要合并较小的文件。
sqougxex1#
distcp是一个map reduce作业,它以并行方式将文件从一个或多个源文件夹复制到一个目标文件夹。但是,它不能合并文件。但也许你可以用filecrush来做(让我知道这是怎么回事!)
wydwbb8l2#
您只需运行默认的map reduce作业(使用默认的mapper和reducer),将“多个hdfs文件夹”作为输入,将一个目标文件夹作为输出。
2条答案
按热度按时间sqougxex1#
distcp是一个map reduce作业,它以并行方式将文件从一个或多个源文件夹复制到一个目标文件夹。但是,它不能合并文件。但也许你可以用filecrush来做(让我知道这是怎么回事!)
wydwbb8l2#
您只需运行默认的map reduce作业(使用默认的mapper和reducer),将“多个hdfs文件夹”作为输入,将一个目标文件夹作为输出。