mapreduce对两个包中的红蓝球进行聚类

wrrgggsh  于 2021-05-31  发布在  Hadoop
关注(0)|答案(0)|浏览(203)

假设有两个袋子(在数学中设置了重复的项目-不是真正的物理袋子)r和s,里面有大量的蓝色和红色的球。如何使用mapreduce算法对“r包”中的红色球和“s包”中的蓝色球进行聚类(分离)

examle :    R={redBall,blueBall,redBall,redBall ...}
             S={blueBall,redBall,blueball,,redBall....}

什么是map和reduce函数输入输出+简单代码体?
mapper:input()? Map绘制者:尸体?Map器(输出)?
reduce:input()? reduce:body code?
reduce:result(r={所有红色球},s={所有蓝色球})
我认为map函数输入必须是

key=name of Bags Value-list = Balls inside Bag
output (R,<RedBall,BlueBall ,...> )(S,<BlueBall,BlueBall,RedBall,...> )

然后分组(洗牌)并最终减少结果

<R,RedBall  RedBall,...> :it is R Bag

<S,BlueBall BlueBall,...> it is S Bag

note:bags here 不是真正的包包包与set={}相同。重复项(在称为包的海量数据集中)
我们能把同一个名字分成多个袋子吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题