对于mapreduce作业生成的临时数据应该保留的hdfs空间量,是否有一个通用公式或最佳实践估计?对于cloudera和mapr等不同的供应商,这种情况会发生什么变化?我有一些工作,把我的集群从20gb提高到60gb,当我调整pig脚本时,这些工作会再次用于小测试工作。我问这个问题是关于集群规划的。
是什么因素导致了这一决定?我假设reducer的数量在生成的temp数据量、作业的特性中起作用(例如,如果我有一个包含20条语句的pig脚本,我注意到直到所有20条语句都执行完毕,temp数据才被删除;如果我想最小化临时数据,我应该将这20条语句分成3个脚本文件,并连续运行每个脚本文件)和其他因素。
暂无答案!
目前还没有任何答案,快来回答吧!