我正在对我的数据执行k-means聚类(使用 ml.clustering
以及 VectroAssembler
等等,我得到质心的输出作为一个numpy数组
[array([153.51309967]), array([172.19589996]), array([194.58105087]), array([329.21121216])]
目前,我在互联网上找到的所有解决方案都是通过如下方式进行Dataframe转换:
cent = model.clusterCenters()
centroids=spark.createDataFrame(pand.DataFrame(cent, columns=["centers"]))
哪里 cent
是质心的numpy数组这是一种肮脏而低效的方法,因为我确信随着数据集的急剧增加,我会遇到问题。有什么优雅的方法可以把它转换成sparkDataframe吗?
暂无答案!
目前还没有任何答案,快来回答吧!