apache—为什么在使用hadoop处理之后数据大小会发生变化？

w7t8yxp5 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(405)

例如，当我运行字数计数时，输入大小与输出大小不同。这是因为计数器还是其他原因？
是否有任何方法可以预测输出的大小，这取决于我使用的代码。有人能给我解释一下或者给我一些有用的建议吗。。

hadoop hdfs mapreduce apache bigdata

来源：https://stackoverflow.com/questions/39905052/why-the-data-size-change-after-a-process-with-hadoop

1条答案

按热度按时间

ljsrvy3e1#

我相信这一切都取决于你在中国所做的转变。
让我们以字数计算为例，如果您有一个大小为1gb的较大文件，当您进行字数计算时，reducer的输出将是文件中出现的不同字。
在这种情况下，很明显，输出文件的大小将缩小。
如果再举一个例子，只需将其写回输出文件而不进行任何转换，在这种情况下，reducer的输出大小应该与mapper的输入大小相匹配。
我希望这是有意义的，这完全取决于你的逻辑在你的减速机。

赞(0）回复(0）举报 2021-06-02

我来回答

apache—为什么在使用hadoop处理之后数据大小会发生变化？

1条答案

相关问题

热门标签

最新问答