我想要输入数据集中20%的样本数据。我想到了两种方法:最初从每个Map器发出20%的数据(单个Map器发出20%的数据),然后,reducer在shuffle和sort之后找到20%的Map器数据(map和reduce的过程相同)只需从mapper中发出每一行,然后从reducer中的总数据中找到20%的样本数据即可哪种方法更好?
6yoyoihd1#
我肯定会同意你的第一个选择。我不知道你为什么需要减速机。只需在Map阶段过滤掉20%,就可以结束了。
1条答案
按热度按时间6yoyoihd1#
我肯定会同意你的第一个选择。我不知道你为什么需要减速机。只需在Map阶段过滤掉20%,就可以结束了。