r-00000和part-m-00000文件有什么区别？

siotufzp 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(1123)

我们在使用运行centos的hadoop my virtual box时使用bigdata。当我们执行某些程序时，它会创建两个不同的文件1）part-r-00000和2）part-m-00000。那么这两个文件的区别和用途是什么呢？

来源：https://stackoverflow.com/questions/55527847/what-are-the-difference-between-part-r-00000-and-part-m-00000-files-in-hadoop

2条答案

按热度按时间

输出文件默认命名为 part-x-yyyyy 哪里：

x 或者 ‘m’ 或者 ‘r ，这取决于该作业是仅Map作业还是缩小
yyyyy 是Map器，或reducer任务号（基于零） (00000 ))
因此，如果一个作业有10个减速器，则生成的文件将命名为 part-r-0000 0到 part-r-0000 9，每个任务一个。
可以更改默认名称。
要更改输出文件的默认值，您只需在driver类中执行以下操作： job.getConfiguration().set(“mapreduce.output.basename”, “Neo”) ;
所以这会导致你的文件被调用 “Neo-r-00000” .

赞(0）回复(0）举报 2021-05-29

这些是mapreduce作业生成的文件。 r 意味着这个文件已经被一个减速机输出了， m 表示文件已由Map器输出。

赞(0）回复(0）举报 2021-05-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 6个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 6个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 6个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 6个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 6个月前