我正在运行一个hadoop任务,比如说,1000个任务。我需要的工作,试图运行每一个任务,但许多任务将无法完成,而是抛出一个异常。我不能改变这种行为,但我仍然需要从没有失败的任务中获得的数据。如何确保hadoop在遇到大量失败任务的情况下仍能完成所有1000个任务?
k5hmc34c1#
在您的例子中,您可以设置允许在不触发作业失败的情况下失败的任务的最大百分比。map任务和reduce任务是使用
mapred.max.map.failures.percent mapred.max.reduce.failures.percent
属性。所以,如果你想要70%的任务结果,即使有30%失败,你也可以用上面的属性来做。
1条答案
按热度按时间k5hmc34c1#
在您的例子中,您可以设置允许在不触发作业失败的情况下失败的任务的最大百分比。map任务和reduce任务是使用
属性。所以,如果你想要70%的任务结果,即使有30%失败,你也可以用上面的属性来做。