当我在amazonemr中运行作业时,在s3中没有得到任何输出。
我指定了参数:
-inputfile s3n://exdsyslab/data/file.txt -outputdir s3n://exdsyslab/output
当我检查作业日志时,我看到作业已成功完成。但是在我的bucket exdsyslab的output文件夹中没有输出。
我还试了一件事。
我链接了两个作业:创建作业流时指定的参数:
-inputfile s3n://exdsyslab/data/file.txt -outputdir s3n://exdsyslab/result -outputdir1 s3n://exdsyslab/result1
第二个作业的输入是第一个作业的输出。
当程序运行时,我在第二个作业中遇到以下异常:
The output folder, "result", already exists.
这是因为目录是由链中的第一个作业创建的。如何为mapreduce链中的第二个作业指定输入和输出?
为什么在参数中指定的s3 bucket中有输出?
1条答案
按热度按时间v2g6jxz61#
要获得正确的输出,请使用以下命令:
请注意,输出目录由“-output”指定。
对于链接作业:不能按指定的方式执行,必须为现有作业创建多个步骤才能执行。另一个答案可能会帮助您:https://stackoverflow.com/a/11109592/1203129
对于您的特定情况,输入/输出目录必须如下所示:
第一步:
第二步: