将numpy.array转换为sparkDataframe

cbjzeqam 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(220)

我正在对我的数据执行k-means聚类（使用 ml.clustering 以及 VectroAssembler 等等，我得到质心的输出作为一个numpy数组

[array([153.51309967]), array([172.19589996]), array([194.58105087]), array([329.21121216])]

目前，我在互联网上找到的所有解决方案都是通过如下方式进行Dataframe转换：

cent = model.clusterCenters()
centroids=spark.createDataFrame(pand.DataFrame(cent, columns=["centers"]))

哪里 cent 是质心的numpy数组这是一种肮脏而低效的方法，因为我确信随着数据集的急剧增加，我会遇到问题。有什么优雅的方法可以把它转换成sparkDataframe吗？

目前还没有任何答案，快来回答吧！

相关问题