我们在使用运行centos的hadoop my virtual box时使用bigdata。当我们执行某些程序时,它会创建两个不同的文件1)part-r-00000和2)part-m-00000。那么这两个文件的区别和用途是什么呢?
lmvvr0a81#
输出文件默认命名为 part-x-yyyyy 哪里:
part-x-yyyyy
x
‘m’
‘r
yyyyy
(00000
part-r-0000
job.getConfiguration().set(“mapreduce.output.basename”, “Neo”)
“Neo-r-00000”
mctunoxg2#
这些是mapreduce作业生成的文件。 r 意味着这个文件已经被一个减速机输出了, m 表示文件已由Map器输出。
r
m
2条答案
按热度按时间lmvvr0a81#
输出文件默认命名为
part-x-yyyyy
哪里:x
或者‘m’
或者‘r
,这取决于该作业是仅Map作业还是缩小yyyyy
是Map器,或reducer任务号(基于零)(00000
))因此,如果一个作业有10个减速器,则生成的文件将命名为
part-r-0000
0到part-r-0000
9,每个任务一个。可以更改默认名称。
要更改输出文件的默认值,您只需在driver类中执行以下操作:
job.getConfiguration().set(“mapreduce.output.basename”, “Neo”)
;所以这会导致你的文件被调用
“Neo-r-00000”
.mctunoxg2#
这些是mapreduce作业生成的文件。
r
意味着这个文件已经被一个减速机输出了,m
表示文件已由Map器输出。