如何在大量文件上同时运行mapreduce程序?

nxowjjhe  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(324)

我正在处理大型数据集,并在上面运行mapreduce程序。我可以很容易地在单个文件上运行mapreduce,其大小约为3gb。我知道我要在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。使用操作系统ubuntu hadoop-2.7.1

jc3wubiy

jc3wubiy1#

如果所有文件都可用,请在map reduce输入参数中指定目录/正则表达式来代替文件名。
示例:bin/hadoop jar wc.jar wordcount/user/joe/wordcount/*.txt/user/joe/wordcount/output
如果您正在不断地获取文件,并希望在文件到达时进行处理。你必须一次又一次地运行map reduce作业。因为这是批处理作业。

相关问题