我有一个很大的pyspark数据框。我想得到它的相关矩阵。我知道如何用Pandas数据框得到它。但是我的数据太大了,无法转换成Pandas。所以我需要用pyspark数据框得到结果。我搜索了其他类似的问题,答案对我不起作用。有人能帮助我吗?谢谢!
数据示例:data example
我有一个很大的pyspark数据框。我想得到它的相关矩阵。我知道如何用Pandas数据框得到它。但是我的数据太大了,无法转换成Pandas。所以我需要用pyspark数据框得到结果。我搜索了其他类似的问题,答案对我不起作用。有人能帮助我吗?谢谢!
数据示例:data example
4条答案
按热度按时间dluptydi1#
欢迎您来到中国!
示例数据
我准备了一些虚拟数据以便于复制(也许下次您也可以提供一些易于复制的数据;-)):
下面是数据:
溶液
ml子包
pyspark.ml.stat
中有一个correlation函数,但是它要求您提供一个类型为Vector
的列,因此您需要先使用VectorAssembler
将列转换为向量列,然后应用correlation:如果你想得到一个numpy数组的结果(在你的驱动程序上),你可以使用以下代码:
tzcvj98z2#
基于@pansen的答案,但****为了更好地可视化结果,您还可以使用...
1.易于可视化:
2.更好的可视化:
jxct1oxe3#
更清晰:
fumotvh34#
下面是@Artur的一个情节复杂的版本: