如何计算hadoopmapreduce作业生成的临时数据

0pizxfdo 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(182)

对于mapreduce作业生成的临时数据应该保留的hdfs空间量，是否有一个通用公式或最佳实践估计？对于cloudera和mapr等不同的供应商，这种情况会发生什么变化？我有一些工作，把我的集群从20gb提高到60gb，当我调整pig脚本时，这些工作会再次用于小测试工作。我问这个问题是关于集群规划的。
是什么因素导致了这一决定？我假设reducer的数量在生成的temp数据量、作业的特性中起作用（例如，如果我有一个包含20条语句的pig脚本，我注意到直到所有20条语句都执行完毕，temp数据才被删除；如果我想最小化临时数据，我应该将这20条语句分成3个脚本文件，并连续运行每个脚本文件）和其他因素。

hadoop hdfs mapreduce cloudera mapr

来源：https://stackoverflow.com/questions/24520021/how-to-calculate-temp-data-generated-by-a-hadoop-mapreduce-job

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何计算hadoopmapreduce作业生成的临时数据

暂无答案！

相关问题

热门标签

最新问答