我想写一个map reduce或multiple来相互比较行。我想不出一个方法来写它,而不是在一个减速机里做每件事。对于数以百万计的行,我可能需要花很多时间来比较整个数据集。我怎样才能做到这一点?我不在乎Pig。这是一个我将要扩展的简单案例(在pig中我不能做的事情)
3htmauhk1#
要问的问题是1。是否要比较到最后一个记录?2如果是的话,对于以上可能是,我担心你没有一个选择比依靠减速机得到整个数据3。如果答案是“否”,并且您希望跳过集合的其余部分,当进行了特定的比较并满足要求时,您可以在map it self中验证,并且不向mapper输出写入任何内容。但是,仍然会有其他Map在运行,因此在这种情况下,您应该在比较成功后退出作业
1条答案
按热度按时间3htmauhk1#
要问的问题是1。是否要比较到最后一个记录?2如果是的话,对于以上可能是,我担心你没有一个选择比依靠减速机得到整个数据3。如果答案是“否”,并且您希望跳过集合的其余部分,当进行了特定的比较并满足要求时,您可以在map it self中验证,并且不向mapper输出写入任何内容。但是,仍然会有其他Map在运行,因此在这种情况下,您应该在比较成功后退出作业