假设有两个袋子(在数学中设置了重复的项目-不是真正的物理袋子)r和s,里面有大量的蓝色和红色的球。如何使用mapreduce算法对“r包”中的红色球和“s包”中的蓝色球进行聚类(分离)
examle : R={redBall,blueBall,redBall,redBall ...}
S={blueBall,redBall,blueball,,redBall....}
什么是map和reduce函数输入输出+简单代码体?
mapper:input()? Map绘制者:尸体?Map器(输出)?
reduce:input()? reduce:body code?
reduce:result(r={所有红色球},s={所有蓝色球})
我认为map函数输入必须是
key=name of Bags Value-list = Balls inside Bag
output (R,<RedBall,BlueBall ,...> )(S,<BlueBall,BlueBall,RedBall,...> )
然后分组(洗牌)并最终减少结果
<R,RedBall RedBall,...> :it is R Bag
<S,BlueBall BlueBall,...> it is S Bag
note:bags here 不是真正的包包包与set={}相同。重复项(在称为包的海量数据集中)
我们能把同一个名字分成多个袋子吗?
暂无答案!
目前还没有任何答案,快来回答吧!