我们每天都会扫描我们的飞碟,从扫描结果中得到一些信息。现在我们想把扫描改成Map缩小作业。但我发现有些东西可能会使这次尝试失败。我还没有找到任何简单的方法将扫描作业拆分为多个子任务。例如,我在一个aerospike集群中有8个节点,我能想象的唯一可能为mapper分配数据集的分割模式是分别使用8个mapper扫描8个节点。我们在一个节点中有4个集,当然我可以使用更多的Map器扫描每个节点集,但这将导致每个Map器的数据集不平衡。
那么,有没有什么方法可以让我使用多个进程扫描一个节点中的一个集合?
1条答案
按热度按时间b91juud31#
如果要通过读取记录来聚合某些数据,则可能需要考虑流udf。