spark中是否有一个聚类算法，其中得到的聚类大小大致相同？

30byixjq 于 2021-05-16 发布在 Spark

关注(0)|答案(1)|浏览(544)

我正在运行一个spark-graphx-pregel算法，其中顶点是纬度/经度的交点坐标，边是路段-一个道路网络。为了便于讨论，让我们假设在运行算法时跨顶点的消息负载是一致的。
我想通过提供更好的分区来提高性能。我的第一个努力是创造一个 PartitionStrategy 基于源坐标聚类的边缘分割算法。我用了spark-means算法。然后，我意识到，虽然这在聚类欧几里德点方面做得很好，但在负载平衡顶点方面却做得很差——聚类大小差别很大。
在野外有凝聚聚类技术可以找到一个近似的解决方案。但是，既然我已经在spark中，有没有一个实现可以为一些k生成（大约）相同大小的集群？或者，有没有一种方法是我在使用内置的mllib工具时没有发现的？

apache-spark cluster-analysis spark-graphx

来源：https://stackoverflow.com/questions/65244113/is-there-a-clustering-algorithm-in-spark-where-the-resulting-clusters-are-approx