java—hadoop mapreduce中更好的采样方式

rseugnpd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我想要输入数据集中20%的样本数据。
我想到了两种方法:
最初从每个Map器发出20%的数据(单个Map器发出20%的数据),然后,reducer在shuffle和sort之后找到20%的Map器数据(map和reduce的过程相同)
只需从mapper中发出每一行,然后从reducer中的总数据中找到20%的样本数据即可
哪种方法更好?

6yoyoihd

6yoyoihd1#

我肯定会同意你的第一个选择。我不知道你为什么需要减速机。只需在Map阶段过滤掉20%,就可以结束了。

相关问题