我正在处理大型数据集,并在上面运行mapreduce程序。我可以很容易地在单个文件上运行mapreduce,其大小约为3gb。我知道我要在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。使用操作系统ubuntu hadoop-2.7.1
jc3wubiy1#
如果所有文件都可用,请在map reduce输入参数中指定目录/正则表达式来代替文件名。示例:bin/hadoop jar wc.jar wordcount/user/joe/wordcount/*.txt/user/joe/wordcount/output如果您正在不断地获取文件,并希望在文件到达时进行处理。你必须一次又一次地运行map reduce作业。因为这是批处理作业。
1条答案
按热度按时间jc3wubiy1#
如果所有文件都可用,请在map reduce输入参数中指定目录/正则表达式来代替文件名。
示例:bin/hadoop jar wc.jar wordcount/user/joe/wordcount/*.txt/user/joe/wordcount/output
如果您正在不断地获取文件,并希望在文件到达时进行处理。你必须一次又一次地运行map reduce作业。因为这是批处理作业。