在hadoop中如何在作业和任务级别处理输出文件?

kcwpcxri  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(353)

根据最终指南,outputcommitter的setupjob()将创建mapreduce输出目录,并为任务设置临时工作区。mapred.output.dir//u临时
然后书中说,任务级的临时目录是在编写任务输出时创建的。
以上两种说法有点混乱。

pw136qt2

pw136qt21#

所以基本上一个map-reduce作业由许多任务组成,即map任务和reduce任务。现在mapreduce output directory是编写mapreduce作业的最终输出的目录。现在,当map reduce作业运行每个map任务时,reduce任务将生成中间文件,该文件位于运行任务的节点的本地。每个中间任务的本地输出都会写入临时工作区。最后,在洗牌和其他阶段之后,根据应用于map reduce作业的逻辑,这个中间输出最终作为最终输出写入hdfs。我希望这能回答你的问题

相关问题