在大量数据上有一个hadoopMapred作业。map阶段需要很长时间才能完成(约2-3天)。它完成了。但在reduce阶段,任务失败率高达92%。是否可以检索成功的map任务执行的输出/计算,以便只需要重新运行reduce阶段?运行hadoop1.2.1,java7,单节点linux系统。
093gszye1#
不,这不可能。如果Map器的逻辑是计算密集型的(而不是io密集型的),则可以使用多线程apper进行多线程处理,也可以尝试将作业拆分为两个作业。第二个作业将只是“一致性Map”运行时间较长的前一个作业的输出。
1条答案
按热度按时间093gszye1#
不,这不可能。如果Map器的逻辑是计算密集型的(而不是io密集型的),则可以使用多线程apper进行多线程处理,也可以尝试将作业拆分为两个作业。第二个作业将只是“一致性Map”运行时间较长的前一个作业的输出。