hadoop hbase比较同一表中的行

tkclm6bt  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(253)

我想写一个map reduce或multiple来相互比较行。
我想不出一个方法来写它,而不是在一个减速机里做每件事。
对于数以百万计的行,我可能需要花很多时间来比较整个数据集。我怎样才能做到这一点?
我不在乎Pig。这是一个我将要扩展的简单案例(在pig中我不能做的事情)

3htmauhk

3htmauhk1#

要问的问题是1。是否要比较到最后一个记录?2如果是的话,对于以上可能是,我担心你没有一个选择比依靠减速机得到整个数据3。如果答案是“否”,并且您希望跳过集合的其余部分,当进行了特定的比较并满足要求时,您可以在map it self中验证,并且不向mapper输出写入任何内容。但是,仍然会有其他Map在运行,因此在这种情况下,您应该在比较成功后退出作业

相关问题