k表示mapreduce作业中集群的初始集群中心

vsikbqxv  于 2021-07-13  发布在  Hadoop
关注(0)|答案(0)|浏览(156)

我对mapreduce和k-means还比较陌生。出于学习的目的,我正在用python编写一个mapreduce作业来实现k-means。作为一个学习的目的,我局限于这些工具,这就是为什么我不看Spark或类似的东西。
当计算分布在不同的节点上时,我想知道如何设置初始集群中心。当我编写k-means在我的单机上本地运行时,我已经将初始集群中心设置为数据中的随机集(我想这可能是k++)。但我不认为让每个Map器随机选取簇中心是正确的,因为这样我就有了比我用k指定的更多的簇中心。
我如何让我的Map绘制者都同意初始的集群中心,以及如何确保他们知道在reduce任务之后中心何时更新。
我打算用python编写它,并在aws emr上作为hadoop流作业执行它。
我读过这样的东西:
https://www.coursera.org/lecture/ml-clustering-and-retrieval/mapreduce-for-k-means-ehcykhttps用法://stanford.edu/~rezab/classes/cme323/s16/projects\u reports/bodoia.pdf
任何建议都将不胜感激,谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题