apache—为什么在使用hadoop处理之后数据大小会发生变化?

w7t8yxp5  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(367)

例如,当我运行字数计数时,输入大小与输出大小不同。这是因为计数器还是其他原因?
是否有任何方法可以预测输出的大小,这取决于我使用的代码。有人能给我解释一下或者给我一些有用的建议吗。。

ljsrvy3e

ljsrvy3e1#

我相信这一切都取决于你在中国所做的转变。
让我们以字数计算为例,如果您有一个大小为1gb的较大文件,当您进行字数计算时,reducer的输出将是文件中出现的不同字。
在这种情况下,很明显,输出文件的大小将缩小。
如果再举一个例子,只需将其写回输出文件而不进行任何转换,在这种情况下,reducer的输出大小应该与mapper的输入大小相匹配。
我希望这是有意义的,这完全取决于你的逻辑在你的减速机。

相关问题