我训练了一个kmeans模型:
kmeans = KMeans(k=20, seed=1) df.show() kmeans_model = kmeans.fit(df)
我只想简单地计算每个集群中有多少个元素,但是我找不到一个简单的方法来实现它。
xiozqbni1#
检查了pyspark文档。答案如下:
summary = kmeans_model.summary print(summary.clusterSizes)
参考文献:http://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.clustering.kmeans
1条答案
按热度按时间xiozqbni1#
检查了pyspark文档。答案如下:
参考文献:
http://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.clustering.kmeans