将numpy.array转换为sparkDataframe

cbjzeqam  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(220)

我正在对我的数据执行k-means聚类(使用 ml.clustering 以及 VectroAssembler 等等,我得到质心的输出作为一个numpy数组

[array([153.51309967]), array([172.19589996]), array([194.58105087]), array([329.21121216])]

目前,我在互联网上找到的所有解决方案都是通过如下方式进行Dataframe转换:

cent = model.clusterCenters()
centroids=spark.createDataFrame(pand.DataFrame(cent, columns=["centers"]))

哪里 cent 是质心的numpy数组这是一种肮脏而低效的方法,因为我确信随着数据集的急剧增加,我会遇到问题。有什么优雅的方法可以把它转换成sparkDataframe吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题