自定义分区器，不设置还原数

rbpvctlc 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(393)

使用自定义分区器必须设置减速器的数量吗？例如：字数计算问题，希望得到一个分区中所有停止字数的计数，剩余字数的计数要转到不同的分区。如果我将reducer的数量设置为2，并停止单词进入一个分区，其他单词进入下一个分区，它将起作用，但我将reducer的数量限制为2（或n），这是我不想要的。这里最好的方法是什么？或者我必须根据输入的大小来计算和设置减速器的数量，以获得最佳性能？

hadoop reducers partitioner

来源：https://stackoverflow.com/questions/25729489/custom-partitioner-without-setting-number-of-reducers

1条答案

按热度按时间

798qvoo81#

指定自定义分区器不会更改任何内容，因为分区数已提供给分区器：

int getPartition(KEY key, VALUE value, int numPartitions)

如果不设置分区器，则 HashPartitioner 已使用。它的实现非常简单：

public int getPartition(K key, V value, int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

您可以自己设计一个定制的房间。分区器的主要目标是避免倾斜，并在提供的分区数上均匀地分配负载。对于一些小作业来说，决定只支持两个减速器是可以的，但是如果您希望您的作业可以扩展，那么您必须将作业设计为使用任意数量的减速器运行。
或者我必须根据输入的大小来计算和设置减速器的数量，以获得最佳性能？
这始终是您必须做的，与自定义分区器的使用无关。必须设置还原数，默认值为1，hadoop不会为您计算这个值。
如果要将停止字发送到一个减速机，将其他字发送到另一个减速机，可以执行以下操作：

public int getPartition(K key, V value, int numReduceTasks) {
    if (isStopWord(key) {
        return 0;
    } else {
        return ((key.hashCode() & Integer.MAX_VALUE) % (numReduceTasks - 1)) + 1;
    }
 }

但是，它很容易导致大的数据倾斜。第一个减速机将过载，需要比其他减速机更长的时间才能完成。在这种情况下，使用两个以上的减速器是没有意义的。
可能是xy问题。我不确定你问的是不是解决你实际问题的最好办法。

赞(0）回复(0）举报 2021-05-30

我来回答

自定义分区器，不设置还原数

1条答案

相关问题

热门标签

最新问答