pyspark,如何简单地计算kmeans模型中每个集群的数量?

0ejtzxu1  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(326)

我训练了一个kmeans模型:

kmeans = KMeans(k=20, seed=1)
df.show()
kmeans_model = kmeans.fit(df)

我只想简单地计算每个集群中有多少个元素,但是我找不到一个简单的方法来实现它。

xiozqbni

xiozqbni1#

检查了pyspark文档。答案如下:

summary = kmeans_model.summary
print(summary.clusterSizes)

参考文献:
http://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.clustering.kmeans

相关问题