如何在大量文件上同时运行mapreduce程序？

nxowjjhe 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(324)

我正在处理大型数据集，并在上面运行mapreduce程序。我可以很容易地在单个文件上运行mapreduce，其大小约为3gb。我知道我要在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。使用操作系统ubuntu hadoop-2.7.1

hadoop mapreduce

来源：https://stackoverflow.com/questions/47240471/how-to-run-mapreduce-program-on-large-number-of-files-simultaneously

1条答案

按热度按时间

jc3wubiy1#

如果所有文件都可用，请在map reduce输入参数中指定目录/正则表达式来代替文件名。
示例：bin/hadoop jar wc.jar wordcount/user/joe/wordcount/*.txt/user/joe/wordcount/output
如果您正在不断地获取文件，并希望在文件到达时进行处理。你必须一次又一次地运行map reduce作业。因为这是批处理作业。

赞(0）回复(0）举报 2021-06-02

我来回答

如何在大量文件上同时运行mapreduce程序？

1条答案

相关问题

热门标签

最新问答