我有一个sparkDataframe,其中有两个col,col1和col2是双数据类型。我想用scala计算pearson相关系数(在spark会话中)。
jucafojl1#
假设您的Dataframe称为“df”。为了计算两列之间的皮尔逊相关性,您只需执行以下操作:
df.corr("col1", "col2", "pearson")
1条答案
按热度按时间jucafojl1#
假设您的Dataframe称为“df”。为了计算两列之间的皮尔逊相关性,您只需执行以下操作: